基于深度强化学习决策的雷达干扰抑制方法

doi:10.3969/j.issn.1671-0576.2026.01.004

基于深度强化学习决策的雷达干扰抑制方法

doi: 10.3969/j.issn.1671-0576.2026.01.004

肖易寒¹ ，孟祥乾¹ ，陆钱融²

1. 哈尔滨工程大学信息与通信工程学院,黑龙江哈尔滨 150001

2. 上海无线电设备研究所,上海 201109

详细信息

作者简介

肖易寒,女,博士,副教授。

中图分类号: TN974

文献标识码: A

文章编号: 1671-0576(2026)01-0022-10

Radar Interference Suppression Method Based on Deep Reinforcement Learning Decision-Making

XIAO Yihan¹ ， MENG Xiangqian¹ ， LU Qianrong²

1. College of Information and Communication Engineering, Harbin EngineeringUniversity, Harbin 150001 , Heilongjiang, China

2. Shanghai Radio EquipmentResearch Institute, Shanghai 201109 , China

摘要

针对目前雷达干扰抑制决策智能化程度低的问题,提出了一种基于双深度优先经验回放和可变贪婪算法改进的双重竞争深度 Q 网络 (double dueling deep Q network, D3QN)决策的雷达干扰抑制方法。首先对雷达目标回波和干扰混合信号进行特征提取;然后根据信号特征通过可变贪婪算法选择动作作用于干扰,并将动作前后的信号特征存储于双深度优先经验回放池后,经过学习决策出最优的干扰抑制策略;最后使用该策略抑制干扰后输出。实验结果表明,该方法有效改善了信号的脉压结果,显著提升了信号的信干噪比,相较于基于 D3QN 的传统干扰抑制方法,在策略准确率和收敛速度上分别提升了7.3%和8.7%。

关键词

雷达干扰抑制 / 双重竞争深度 Q 网络 / 双深度优先经验回放 / 可变贪婪算法 / 脉冲压缩

Abstract

To address the problem of low intelligence level of radar interference suppression decision, a radar interference suppression method based on a double dueling deep Q network (D3QN) decision-making was proposed, which was enhanced by a double-depth prioritized experience replay (DDPER) and a variable greedy algorithm. First, the features were extracted from the radar echo-interference hybrid signal. Next, actions were selected using the variable greedy algorithm based on the features to impact the interference signals. The features of the signals before and after the actions were stored in a double-depth prioritized experience replay pool, from which the optimal suppression strategy was learned. Finally, the strategy was applied to mitigate the interference signals and output the radar signals. Experimental results demonstrate that the proposed method effectively improves the pulse compression results of the signals and significantly enhances the signal-to-interference-plus-noise ratio (SINR). Compared to the traditional interference suppression method based on D3QN model, the proposed method shows improvements of 7.3% in policy accuracy and 8.7% in convergence speed.

Keywords

radar interference suppression / double dueling deep Q network (D3QN) / double-depth prioritized experience replay (DDPER) / variable greedy algorithm / pulse compression

0 引言 1 电子战战场环境模型 1.1 雷达回波模型 1.2 干扰模型 2 基于深度强化学习的干扰抑制策略设计 2.1 状态值设计 2.2 动作设计 2.3 奖励函数设计 3 VGA-DDPER-D3QN 算法 3.1 D3QN 3.2 VGA 3.3 DDPER 3.4 VGA-DDPER-D3QN 4 仿真实验的结果与分析 4.1 仿真参数设计 4.2 策略选择实验 4.3 干扰抑制效果验证实验 4.4 性能对比实验 5 结束语

0 引言

基于决策的雷达干扰抑制^[1-4]是指在电子战中通过分析雷达接收到的干扰回波，将智能决策算法和干扰抑制算法相结合来实现干扰抑制的技术。该技术已成为现代雷达系统的关键技术之一。从战略角度来看，正确的干扰抑制决策是实现干扰抑制的关键。

早期的干扰抑制决策主要依赖于先验知识。文献^[5]在对干扰进行时频特征提取的基础上，先利用支持向量机进行干扰类型识别，再根据识别结果进行雷达干扰的抑制。由于该干扰抑制决策依赖干扰类别等先验知识，当类别识别错误或出现未知类别干扰时，干扰抑制效果较差。

近年来，人工智能芯片计算能力的不断提高促进了深度强化学习（deep reinforcement learning，DRL）^[6]技术的发展。DRL 技术能在自主学习的同时，降低决策模型的复杂性，且使决策模型具有更强的环境适应性。目前基于 DRL 的决策模型是策略生成中的主流模型^[7-10]。文献^[11]基于复杂电磁环境下的认知雷达平台，比较了深度 Q 网络（deep Q network，DQN）、双深度 Q 网络（double-DQN，DDQN）、递归 DQN 和感知-避免（sense and avoid，SAA）算法的干扰抑制决策实施效果的差异。结果表明，DRL在雷达探测和干扰抑制方面具有一定优势，但是对于模型的策略准确率及其收敛速度该文献没有明确量化。文献 ^[12]结合了 DDQN 和优先经验回放（prioritized experience replay，PER），将雷达系统抗干扰功能优化问题转化为多队列联合优化问题，给出了不同系统状态下的最优干扰应对策略。文献^[13]提出一种基于复数域 DRL 的多干扰场景雷达抗干扰方法，有效解决了雷达面临的时序条件下复杂多干扰场景的抗主瓣干扰问题。文献^[14]基于 DDQN 进行了双深度优先经验回放（double-depth prioritized experience replay，DDPER）的改进，以进一步提高策略准确率，并针对7种干扰完成了干扰抑制决策性能验证。上述研究表明，DRL能对雷达干扰抑制方法进行有效智能决策。但是，目前的研究不仅对干扰抑制后的信号质量和效果的分析和评估较少，而且所采用的干扰决策模型大多以 DQN 为基础，在策略准确率和收敛速度上存在不足。

为解决上述问题，本文提出一种基于可变贪婪算法（variable greedy algorithm，VGA）和双深度优先经验回放的双重竞争深度 Q 网络（double dueling deep Q network，D3QN）模型，即 VGADDPER-D3QN 模型。该模型融合浅层和深层经验并选择最优动作进行收敛，以提高收敛速度和策略准确率。本文在提取干扰和目标回波混合信号特征的基础上，采用 VGA-DDPER-D3QN 模型进行干扰抑制决策，并对干扰抑制后的信号质量和抑制效果进行评估。

1 电子战战场环境模型

1.1 雷达回波模型

雷达一般通过发射线性调频（LFM）信号并接收目标的反射回波，从而实现对目标的探测和跟踪。目标回波s（t）可以表示为

\begin{matrix} s (t) = p (t) \times \\ e x p (j \{π [2 f_{0} (t - Δ t) + K (t - Δ t)^{2}] + φ_{0}\}) \end{matrix}

(1)

其中

Δ t = 2 R / c

(2)

式中:p（t）为脉宽为τ 的矩形脉冲信号; f₀，φ₀ 为目标回波的初始频率和初始相位; K 为目标回波的调频斜率; Δt为雷达收发信号间的双向传播时延; R 为雷达与目标间的相对距离; c为光速。

由于环境中存在一定的干扰和噪声，则包含目标回波、干扰和噪声的雷达接收信号u（t）可表示为

u (t) = s (t) + j (t) + n (t)

(3)

式中:j（t），n（t）分别为雷达接收的干扰和噪声。

1.2 干扰模型

噪声调幅干扰是一种常见的压制干扰。干扰生成原理是用噪声对载波幅度进行调制得到噪声调幅干扰。其表达式为

j (t) = (U_{0} + U_{n} (t)) c o s (ω_{j} t + φ_{j} (t))

(4)

式中:U₀ 为干扰载波幅度; U_n（t）为调制噪声; ω_j为干扰角频率; φ_j（t）为干扰相位，一般服从 [0，2π]上的均匀分布。

噪声调频干扰也是一种压制干扰。干扰生成原理是用噪声对载波进行频率调制得到噪声调频干扰。其表达式为

j (t) = U_{0} c o s (ω_{j} t + 2 π K_{j} \int_{0}^{t} U_{n} (τ) d τ + φ_{j} (t))

(5)

式中:K_j为干扰的调频斜率。

白噪声卷积干扰是一种灵巧噪声干扰。干扰生成原理是将 LFM 信号与高斯白噪声进行卷积处理得到白噪声卷积干扰。其表达式为

j (t) = J_{L F M} (t) \otimes U_{n} (t)

(6)

式中:J_LFM（t）为 LFM 信号;

\otimes

为卷积运算符。这里U_n（t）表示高斯白噪声。

方波卷积干扰也是一种灵巧噪声干扰。与白噪声卷积干扰相比，方波卷积干扰中的噪声 U_n（t）由N₁ 个幅度相同的周期性方波信号组成。U_n（t）的表达式为

U_{n} (t) = \sum_{i = 1}^{N_{1}} A_{f} r e c t (t - i T_{f} / τ_{f})

(7)

式中:rect（·）为方波函数; A_f，T_f，τ_f 为方波的幅度、周期和脉宽。

频谱弥散干扰作为一种密集假目标干扰，由多个子脉冲构成，且每个子脉冲均是基于数字射频存储器（DRFM）对截获的雷达信号进行采样重构得到的。设频谱弥散干扰共有 N₂个子脉冲，则第i个子脉冲的表达式为

\begin{matrix} j_{i} (t) = r e c t (\frac{t - (2 i - 1) / (2 N_{2})}{τ_{i} / N_{2}}) \times \\ e x p (j π n K_{i} {[t - (i - 1) τ_{i} / N_{2}]}^{2} + j φ_{j}) \end{matrix}

(8)

式中:τ_i，K_i 为第i 个子脉冲的脉冲宽度和调频斜率; φ_j为干扰生成时引入的初始相位。

切片重构干扰也是一种密集假目标干扰。干扰生成原理是通过将雷达发射信号进行切片，得到完全相同的发射信号片段，再进行重构得到切片重构干扰。采样得到的雷达发射信号的切片信号可以表示为

j (t, τ_{a}) = s_{T} (t) [r e c t (t / τ_{a}) \otimes \sum_{i = 0}^{M_{1} - 1} δ (t - i τ_{b})]

(9)

其中

τ_{a} = τ / (M_{1} M_{2}), τ_{b} = M_{2} τ_{a}

(10)

式中:s_T（t）为雷达发射的 LFM 信号; τ_a，τ_b为单个片段长度和均匀切片采样间隔; M₁ 为雷达信号的切片次数; M₂ 为切片的复制次数; δ（·）为冲激函数。切片完成后，将得到的切片信号进行复制填充，得到切片重构干扰。其表达式为

j (t) = \sum_{k = 0}^{M_{2} - 1} j (t - k τ_{a} - Δ t_{j}) e x p (j φ_{j})

(11)

式中:Δt_j为 DRFM 的干扰时延。

间歇采样转发干扰是另一种密集假目标干扰。干扰生成原理为将截获的雷达发射信号进行存储、采样和转发，得到间歇采样转发干扰。其表达式为

\begin{matrix} j (t) = s_{T} (t) \times \\ (\frac{T_{s}}{T_{s t}} s_{T} (t) + \frac{2 T_{s}}{T_{s t}} \sum_{n = 1}^{+ \infty} \frac{\sin (n π f_{s t} T_{s})}{n π f_{s t} T_{s}} c o s (2 π n f_{s t} t)) \end{matrix}

(12)

式中:T_s 为间歇采样周期; T_st，f_st 为间歇采样转发干扰的周期和频率。

2 基于深度强化学习的干扰抑制策略设计

将雷达看作DRL模型中的智能体，采用干扰抑制前后的信号特征构建其状态值，将抑制算法作为动作并使用信号特征来构建奖励函数，使模型能通过训练学习到干扰与相应的干扰抑制算法间的对应关系。

2.1 状态值设计

为了对回波的受干扰程度以及干扰抑制效果进行评估，利用信干噪比（SINR）、干扰抑制比（ISR）、包络稳定度、脉压判决结果、脉压峰值旁瓣比（PSLR）等5个指标构成t时刻的状态s_t，来衡量模型与环境交互过程中的信号质量变化。

信干噪比是信号功率与干扰、噪声功率之和的比，是衡量信号质量的重要指标。其表达式为

S I N R (t) = 10 l g (\frac{P_{s} (t)}{P_{j} (t) + P_{n} (t)})

(13)

式中:P_s（t），P_j（t），P_n（t）分别为t 时刻的目标回波功率、干扰功率和噪声功率。

干扰抑制比反映了干扰抑制算法对干扰的抑制程度，可视为干扰抑制前后的干信比变化量。其表达式为

I S R (t) = 10 l g (\frac{P_{j} (t)}{P_{j} (t + 1)})

(14)

包络稳定度反映了雷达脉内信号的包络平稳程度。在理想情况下，雷达接收信号可视为恒包络的 LFM 信号，而一旦受到干扰，其信号包络变化较大。针对雷达接收信号u（t），其包络稳定度的评估函数表达式为

\begin{matrix} S_{u (t)} = \frac{1}{N_{s}} \times \\ \sum_{n = 1}^{N_{s}} | | A_{u (t)} (n) |- (\sum_{n = 1}^{N_{s}} |A_{u (t)} (n)| / N_{s})| \end{matrix}

(15)

式中:N_s 为雷达接收信号的采样点数; A_u_（_t_）（n）为u（t）的离散包络函数; |·|为取模运算符。若接收信号是恒包络的 LFM 信号，则此时包络稳定度应接近于0。因此，可以通过计算干扰抑制前后的包络稳定度来衡量干扰抑制效果。

脉压判决结果也可用于干扰抑制性能的评估。若在干扰抑制后的脉压结果中发现了目标，且对应回波时延正确，则脉压判决结果为1; 若未发现目标或目标回波尖峰偏离正确位置，则脉压判决结果为0。脉压判决函数h（t）表达式为

h (t) = \{\begin{matrix} 0, t 时 刻 的 脉 压 判 决 为 假 \\ 1, t 时 刻 的 脉 压 判 决 为 真 \end{matrix}

(16)

脉压峰值旁瓣比的定义为脉压后信号的主瓣峰值功率与旁瓣峰值功率之比，是衡量脉冲压缩后目标回波尖峰聚集程度的参数。其表达式为

P S L R (t) = 10 l g (P_{m l} / P_{s l})

(17)

式中:P_ml，P_sl 分别为主瓣和旁瓣的峰值功率。 PSLR（t）越大，说明脉压尖峰处的能量集中度越高，信号质量越好; 反之，则说明信号质量越差。

综上，干扰抑制策略设计所需的t时刻状态

s_{t} = [S I N R (t), I S R (t), S_{u (t)}, h (t), P S L R (t)]

(18)

2.2 动作设计

在 DRL模型中，需要不断和环境进行交互，来改变环境状态。本文模型中的动作a₁~a₄ 对应4种干扰抑制算法。干扰抑制算法与动作和干扰的对应关系如表1所示。

表1干扰抑制算法与动作和干扰的对应关系

2.3 奖励函数设计

以干扰抑制动作是否使信号质量恢复作为奖励，用状态值中的信号特征来构造奖励函数。如抑制动作能去除干扰，使得雷达信号质量恢复，则应给予正奖励，反之给予负奖励。设计的奖励函数r（t）的表达式为

\begin{matrix} r (t) = r_{sum} (t) r_{w} (t) \\ = (r_{1} (t) + r_{2} (t) + r_{3} (t)) r_{w} (t) \end{matrix}

(19)

其中

\{\begin{matrix} r_{1} (t) = \frac{20}{π} a r c t a n (S I N R (t + 1) / 5) \\ r_{2} (t) = \frac{20}{π} a r c t a n (I S R (t) / 5) \\ r_{3} (t) = \frac{20}{π} a r c t a n (1 / (10 S_{u (t)})) \end{matrix}

(20)

式中: r_sum（t）=r₁（t）+r₂（t）+r₃（t）为总奖励函数，其中r₁（t），r₂（t），r₃（t）为信干噪比提升、干扰抑制比提升、包络稳定度减小获得的奖励; r_w（t）为奖励函数控制因子。

在干扰抑制决策过程中，r_w（t）由干扰抑制算法实施后的脉压判决结果和脉压峰值旁瓣比决定。若脉压判决结果为0，r_sum（t）与r_w（t）相乘后得到的当前时刻奖励r（t）≤0; 若脉压判决结果为1，则使r_w（t）为干扰抑制前后时刻脉压峰值旁瓣比的差。r_w（t）的表达式为

(21)

3 VGA-DDPER-D3QN 算法

3.1 D3QN

D3QN 结合了 DDQN 的动作选取和竞争深度Q 网络（duelingDQN，DuDQN）的状态值函数层和优势函数层。D3QN 算法模型如图1所示。

图1D3QN 算法模型

首先，模型不断和环境进行交互获取状态 s_t、动作a_t、奖励r_t 和经过动作后的状态s_t₊₁，形成经验串 <s_t，a_t，r_t，s_t₊₁>存入经验回放池。

然后，从经验回放池中取出一批经验串 <s_t，a_t，r_t，s_t₊₁>，将其中的 <s_t，a_t>输入当前值网络，当前值网络根据 <s_t，a_t>计算预测 Q 值。预测Q 值函数Q_c（s_t，a_t）的表达式为

Q_{c} (s_{t}, a_{t}) = V (s_{t}) + A (s_{t}, a_{t}) - \frac{1}{N_{a}} \sum_{i = 1}^{N_{a}} A (s_{t}, a_{i})

(22)

式中:V（s_t）为 DuDQN 的状态值函数，用以主导 Q 值更新; A（s_t，a_t）为 DuDQN 在状态s_t 下选择动作a_t 的优势函数，用以明确量化动作的相对价值; N_a 为可选择的动作数; a_i 为可能被选取的第i个动作。

同理，可根据式（22）计算目标 Q 值

r_{t} + γ Q_{t} (s_{t + 1} ， a_{t + 1})

，其中

r_{t}

为瞬时奖励; γ 为折扣因子;

Q_{t} (s_{t + 1} ， a_{t + 1})

为状态

s_{t + 1}

下对动作

a_{t + 1}

的估计Q 值。则 DuDQN 的Q 值更新过程为

\begin{matrix} Q_{c} (s_{t}, a_{t}) \leftarrow Q_{c} (s_{t}, a_{t}) + \\ α [r_{t} + γ Q_{t} (s_{t + 1}, a_{t + 1}) - Q_{c} (s_{t}, a_{t})] \end{matrix}

(23)

式中:α为学习率;

a_{t + 1} = a r g m a x Q (s_{t + 1} ， a_{t}; θ)

为状态s_t₊₁ 下当前值网络认为最优的动作，其中 argmax（·）为目标函数为最大值时的自变量取值函数，θ为当前值网络参数。

最后，计算预测Q 值和目标Q 值间的损失函数，采用梯度下降算法来更新当前值网络的参数。重复若干次后，用当前值网络的参数更新目标值网络。

3.2 VGA

采用 VGA 将 D3QN 中的固定贪婪值ε改为 ε函数，以避免在策略生成后期出现剧烈的策略波动。ε函数的解析式为

(24)

式中:ε_d 为第d 步的贪婪值; B_size 为批处理量; μ_k为第k 个更新时刻的调节因子。

μ_k是为防止学习僵化而引入的，其更新存在一定的间隔。μ_k的更新表达式为

(25)

式中:N_r 为奖励值数。设第k 个更新时刻为当前时刻，μ_k 取该时刻的前N_r 个经验奖励值的均值作为参考。若其均值为非正数，则说明前一阶段多为负面经验，应将贪婪值调高; 若其均值大于0，则说明前一阶段多为正面经验，应调低贪婪值，使模型选择最优动作，加快策略收敛。

3.3 DDPER

DDPER机制具有一个浅层经验回放池和一个深层经验回放池。首先，将经验串 <

s_{t} ， a_{t} ， r_{t} ，

s_t₊₁>按顺序存储在浅层经验回放池中，若当前奖励r_t 为负奖励或大于准入阈值的正奖励，则将对应的经验串移入深层经验回放池。然后，重复上述过程，不断向深层和浅层经验回放池中连续存入经验串。最后，利用不同的经验抽取规则对深层和浅层经验回放池进行经验抽取，将深层经验与浅层经验混合后进行策略学习，这样可以充分利用高价值的交互经验，有效提升模型的策略准确率。

3.4 VGA-DDPER-D3QN

本文在 D3QN 模型基础上，将固定贪婪值改为可变贪婪值，并引入了经验融合思想，提出了 VGA-DDPER-DQ3N 模型，其框架如图2所示。

图2VGA-DDPER-D3QN 模型框架

该模型分别由环境交互模块、双深度优先经验回放池和策略更新模块组成。各模块分别负责模型与环境交互、存储经验并进行深层和浅层经验融合、计算 Q 值并根据损失函数更新网络参数。VGA-DDPER-DQ3N 算法流程如表2所示。

4 仿真实验的结果与分析

采用 Python3.10建立雷达和干扰机的博弈场景，并基于PyTorch1.12.1深度学习框架实现强化学习算法。硬件环境为 NVIDIA 3070 及Intel（R）Core（TM）i7-12700h。

表2VGA-DDPER-D3QN算法流程

设计模型的策略选择实验，给出不同策略选择下的抗干扰效益，并使用干扰抑制前后的脉压结果和信干噪比增益说明所选策略的干扰抑制效果。此外，设计了本文算法、DDQN、D3QN 的策略准确率和策略生成所需步数的性能对比实验。

4.1 仿真参数设计

实验共设计7种干扰类型，包括噪声调幅干扰、噪声调频干扰、白噪声卷积干扰、方波卷积干扰、频谱弥散干扰、切片重构干扰和间歇采样转发干扰。模型参数、雷达信号仿真参数、干扰仿真参数分别如表3~表5所示。

表3模型参数

表4雷达信号仿真参数

表5干扰仿真参数

4.2 策略选择实验

设置学习率为0.003、迭代轮数为500，在不同的干扰环境下进行干扰抑制策略选择实验。不同策略下的抗干扰效益如表6所示，其中抗干扰效益即为Q 值。

以噪声调幅干扰为例，对表5中的抗干扰效益进行说明。当频域对消算法的Q 值为正时，这表明该算法不仅能保证信号的脉压判决结果正确，而且还能优化信号的脉压峰值旁瓣比指标。相较于其他干扰抑制算法，频域对消算法的Q 值最高。这说明在干扰抑制比、信干噪比、包络稳定度等指标上，频域对消算法所产生的总抗干扰效益最大。

表6不同策略下的抗干扰效益

根据表6得到的模型策略选择为:用频域对消抑制噪声调幅干扰; 用时域对消抑制噪声调频干扰; 用差拍处理和 FrFT 滤波抑制白噪声卷积干扰和方波卷积干扰; 用信号重构抑制频谱弥散干扰、切片重构干扰和间歇采样转发干扰。对照表1中干扰和抑制算法的对应关系可知，模型在 7种干扰环境下都选择了正确的干扰抑制策略。

4.3 干扰抑制效果验证实验

在信噪比（SNR）为15dB、干噪比（JNR）为 30dB的条件下，模型使用决策出的干扰抑制策略进行干扰抑制效果的实验验证。

压制干扰、灵巧噪声干扰和密集假目标干扰抑制前后信号的脉压结果如图3~图5所示。

图3压制干扰抑制前后脉压结果对比

由图3可知:干扰抑制前目标回波的脉压信号尖峰消失，目标回波被噪声完全淹没; 干扰抑制后目标回波的脉压信号尖峰重新出现，且与无干扰时目标回波的脉压信号尖峰重合。这说明模型选择的干扰抑制算法有效抑制了干扰，找到了真实目标。由图4和图5可知:干扰抑制前目标回波的脉压信号尖峰周围存在密集的噪声假目标信号; 干扰抑制后其尖峰周围的假目标信号被有效滤除，且该尖峰与无干扰时目标回波的脉压信号尖峰较好重合，这表明干扰抑制后的脉压信号尖峰为真实目标回波的。可见使用本文提出的干扰抑制方法，能有效改善信号的脉压结果。

图4灵巧噪声干扰抑制前后脉压结果对比

图5密集假目标干扰抑制前后脉压结果对比

压制干扰、灵巧噪声干扰和密集假目标干扰抑制后的信干噪比增益曲线如图6~图8所示。总体而言，当JSR 升高时，模型对所有类型干扰的抑制效果均有所提升。由图6可知:对于压制干扰，其干扰抑制效果随着 SNR 的提高缓慢变化; 当JSR为15dB时，信干噪比增益可达10dB 以上。由图7可知:对于灵巧噪声干扰，其干扰抑制效果对 SNR 的变化不敏感，且在JSR 较低时的干扰抑制效果较差; 当JSR达到15dB以上时，信干噪比增益同样可达 10dB 以上。由图8可知:对于密集假目标干扰，模型的干扰抑制效果较好，且其信干噪比增益随 SNR 和JSR 的提高而增大; 在SNR为30dB且JSR 为20dB条件下，密集假目标干扰抑制后的信干噪比增益可达 35dB以上，且频谱弥散干扰抑制后的信干噪比增益达到40dB以上。

图6压制性干扰抑制后的信干噪比增益曲线

图7灵巧噪声干扰抑制后的信干噪比增益曲线

图8密集假目标干扰抑制后的信干噪比增益曲线

4.4 性能对比实验

以0.001为步进，在0.001~0.010范围内共设置10个学习率，并在7种不同的干扰环境下，使用 VGA-DDPER-D3QN、D3QN、DDQN 等 3种算法分别进行1500次测试，对3个模型在不同学习率下的策略准确率和策略生成所需步数进行对比。不同学习率下策略准确率对比如图9所示。可知，在学习率为 0.001~0.010 时，VGADDPER-D3QN、DDQN、D3QN 均具有较高的策略准确率。与 DDQN 相比，D3QN 通过引入 DuDQN 的状态值函数层和优势函数层，在 Q 值计算过程中能够衡量不同动作对状态作出的贡献，提升了模型的策略准确率。在 D3QN 的基础上，VGA-DDPER-D3QN 进一步引入了双深度优先经验回放机制，将深层经验与浅层经验混合后进行策略学习，使模型可以充分利用高价值的交互经验，进一步提升了模型的策略准确率。相较于 D3QN，VGA-DDPER-D3QN 的策略准确率提升了约7.3%。

不同学习率下的策略生成所需步数对比如图10所示。可知:相较于 DDQN 和 D3QN，VGA-DDPER-D3QN 在大部分学习率下生成策略所需的步数更少; 与 DDQN 相比，D3QN 在经验回放池中引入了优先回放机制，通过优先取出重要的经验进行训练，加速了学习过程，从而更快收敛到优质策略上。在 D3QN 基础上，VGADDPER-D3QN 改进了经验回放池，使用多个经验回放池分别存储不同规则的经验并进行融合，进一步缩短了学习流程。同时，由于引入了可变贪婪算法，该算法根据贪婪曲线进行动作选择，并参考以往经验奖励均值，使模型能够选择最优动作，实现了策略的快速收敛。相较于 D3QN，VGA-DDPER-D3QN 的策略生成所需步数平均下降了约8.7%。

图9不同学习率下的策略准确率对比

图10不同学习率下的策略生成所需步数对比

5 结束语

本文提出一种基于深度强化学习决策的干扰抑制方法。以雷达目标回波和干扰混合信号为输入，经特征提取后，采用由 VGA-DDPER-D3QN 决策出的干扰抑制算法来抑制干扰信号。实验结果表明，本文所提方法能显著改善信号的脉压结果，使真实目标回波的脉压信号尖峰得以恢复，同时能显著提升了信号的信干噪比。此外，相较于 D3QN，本文改进的决策算法在策略准确率和收敛速度上分别提升了7.3%和8.7%。该方法在真实电子对抗场景中具有一定的工程应用价值。

图1D3QN 算法模型

下载: 全尺寸图片

图2VGA-DDPER-D3QN 模型框架

下载: 全尺寸图片

图3压制干扰抑制前后脉压结果对比

下载: 全尺寸图片

图4灵巧噪声干扰抑制前后脉压结果对比

下载: 全尺寸图片

图5密集假目标干扰抑制前后脉压结果对比

下载: 全尺寸图片

图6压制性干扰抑制后的信干噪比增益曲线

下载: 全尺寸图片

图7灵巧噪声干扰抑制后的信干噪比增益曲线

下载: 全尺寸图片

图8密集假目标干扰抑制后的信干噪比增益曲线

下载: 全尺寸图片

图9不同学习率下的策略准确率对比

下载: 全尺寸图片

图10不同学习率下的策略生成所需步数对比

下载: 全尺寸图片

表1干扰抑制算法与动作和干扰的对应关系

下载: 全尺寸图片

表2VGA-DDPER-D3QN算法流程

下载: 全尺寸图片

表3模型参数

下载: 全尺寸图片

表4雷达信号仿真参数

下载: 全尺寸图片

表5干扰仿真参数

下载: 全尺寸图片

表6不同策略下的抗干扰效益

下载: 全尺寸图片

图1D3QN 算法模型

图2VGA-DDPER-D3QN 模型框架

图3压制干扰抑制前后脉压结果对比

图4灵巧噪声干扰抑制前后脉压结果对比

图5密集假目标干扰抑制前后脉压结果对比

图6压制性干扰抑制后的信干噪比增益曲线

图7灵巧噪声干扰抑制后的信干噪比增益曲线

图8密集假目标干扰抑制后的信干噪比增益曲线

图9不同学习率下的策略准确率对比

图10不同学习率下的策略生成所需步数对比

表1干扰抑制算法与动作和干扰的对应关系

表2VGA-DDPER-D3QN算法流程

表3模型参数

表4雷达信号仿真参数

表5干扰仿真参数

表6不同策略下的抗干扰效益

图1D3QN 算法模型

图2VGA-DDPER-D3QN 模型框架

图3压制干扰抑制前后脉压结果对比

图4灵巧噪声干扰抑制前后脉压结果对比

图5密集假目标干扰抑制前后脉压结果对比

图6压制性干扰抑制后的信干噪比增益曲线

图7灵巧噪声干扰抑制后的信干噪比增益曲线

图8密集假目标干扰抑制后的信干噪比增益曲线

图9不同学习率下的策略准确率对比

图10不同学习率下的策略生成所需步数对比

表1干扰抑制算法与动作和干扰的对应关系

表2VGA-DDPER-D3QN算法流程

表3模型参数

表4雷达信号仿真参数

表5干扰仿真参数

表6不同策略下的抗干扰效益

DURST S, MARQUARDT P, BRUGGENWIRTH S. Quality of service based radar resource management for interference mitigation[C]//2022 IEEE Topical Conference on Wireless Sensors and Sensor Networks(WiSNeT), Las Vegas, NV, USA. Piscataway, NJ: IEEE Press,2022:32-35.

LI K, JIU B, WANG P H,et al. Radar active antagonism through deep reinforcement learning:a way to address the challenge of mainlobe jamming[J]. Signal Processing,2021,186:108130.

ZHENG Z X, LI W, ZOU K. Airborne radar anti-jamming waveform design based on deep reinforcement learning[J]. Sensors,2022,22(22):86-89.

WEI J J, WEI Y S, YU L,et al. Radar anti-jamming decision-making method based on DDPG-MADDPG algorithm[J]. Remote Sensing,2023,15(16):40-46.

彭志刚, 李宝鹏, 李大龙, 等. 一种雷达智能抗干扰评估仿真系统[J]. 雷达科学与技术,2021,19(3):258-264.

LI J X, CHEN X N, ZHAO X N,et al. An improved DQN path planning algorithm[J]. The Journal of Supercomputing,2022,78:616-639.

ZHANG C D, WANG L, JIANG R D,et al. Radar jamming decision-making in cognitive electronic warfare:a review[J]. IEEE Sensors Journal,2023,23(11):11383-11403.

廖艳苹, 谢榕浩. 基于双层强化学习的多功能雷达认知干扰决策方法[J]. 应用科技,2023,50(6):56-62.

张柏开, 朱卫纲. 对多功能雷达的DQN认知干扰决策方法[J]. 系统工程与电子技术,2020,42(4):819-825.

肖易寒, 陈志亮, 李虎, 等. 基于双重竞争深度正则化Q学习的干扰探测一体化波形设计[J]. 应用科技,2024,51(6):38-44.

THORNTON C E, KOZY M A, BUEHRER R M,et al. Deep reinforcement learning control for radar detection and tracking in congested spectral environments[J]. IEEE Transactions on Cognitive Communications and Networking,2020,6(4):1335-1349.

LOTFI I, NIYATO T D, SUN S,et al. Protecting multi-function wireless systems from jammers with backscatter assistance:an intelligent strategy[J]. IEEE Transactions on Vehicular Technology,2021,70(11):11812-11826.

解烽, 刘环宇, 胡锡坤, 等. 基于复数域深度强化学习的多干扰场景雷达抗干扰方法[J]. 雷达学报,2023,12(6):1290-1304.

XIAO Y H, CAO Z H, YU X Z,et al. Deep reinforcement learning based decision making for radar jamming suppression[J]. Digital Signal Processing,2024,151:104569.

0 引言

1 电子战战场环境模型

2 基于深度强化学习的干扰抑制策略设计

3 VGA-DDPER-D3QN 算法

4 仿真实验的结果与分析

5 结束语

您是本站第 访问者

您是本站第访问者