基于DQN的雷达智能干扰决策方法

doi:10.3969/j.issn.1671-0576.2024.02.002

基于DQN的雷达智能干扰决策方法

曹舒雅¹

机构：

1. 哈尔滨工程大学信息与通信工程学院，黑龙江哈尔滨 150001

×
，张文旭^1,2

机构：

1. 哈尔滨工程大学信息与通信工程学院，黑龙江哈尔滨 150001
2. 哈尔滨工程大学工业和信息化部先进船舶通信与信息技术重点实验室，黑龙江哈尔滨 150001

×
，赵桐^1,2

机构：

1. 哈尔滨工程大学信息与通信工程学院，黑龙江哈尔滨 150001
2. 哈尔滨工程大学工业和信息化部先进船舶通信与信息技术重点实验室，黑龙江哈尔滨 150001

×
，马丹^1,2

机构：

1. 哈尔滨工程大学信息与通信工程学院，黑龙江哈尔滨 150001
2. 哈尔滨工程大学工业和信息化部先进船舶通信与信息技术重点实验室，黑龙江哈尔滨 150001

×

1. 哈尔滨工程大学信息与通信工程学院，黑龙江哈尔滨 150001；
2. 哈尔滨工程大学工业和信息化部先进船舶通信与信息技术重点实验室，黑龙江哈尔滨 150001；

Radar Intelligent Jamming Decision Method Based on DQN

CAO Shuya¹

Affiliation：

1. College of Information and Communication Engineering，Harbin Engineering University, Harbin 150001 , Heilongjiang， China

×
，ZHANG Wenxu^1,2

Affiliation：

1. College of Information and Communication Engineering，Harbin Engineering University, Harbin 150001 , Heilongjiang， China
2. Key Laboratory of Advanced Marine Communication and Information Technology， Ministry of Industry and Information Technology， Harbin Engineering University, Harbin 150001 , Heilongjiang， China

×
，ZHAO Tong^1,2

Affiliation：

1. College of Information and Communication Engineering，Harbin Engineering University, Harbin 150001 , Heilongjiang， China
2. Key Laboratory of Advanced Marine Communication and Information Technology， Ministry of Industry and Information Technology， Harbin Engineering University, Harbin 150001 , Heilongjiang， China

×
，MA Dan^1,2

Affiliation：

1. College of Information and Communication Engineering，Harbin Engineering University, Harbin 150001 , Heilongjiang， China
2. Key Laboratory of Advanced Marine Communication and Information Technology， Ministry of Industry and Information Technology， Harbin Engineering University, Harbin 150001 , Heilongjiang， China

×

1. College of Information and Communication Engineering，Harbin Engineering University, Harbin 150001 , Heilongjiang， China；
2. Key Laboratory of Advanced Marine Communication and Information Technology， Ministry of Industry and Information Technology， Harbin Engineering University, Harbin 150001 , Heilongjiang， China；

作者简介:

曹舒雅(2002—)，女，本科，主要从事雷达干扰与抗干扰技术研究。

中图分类号:TN974

文献标识码:A

文章编号:1671-0576(2024)02-0011-09

DOI:10.3969/j.issn.1671-0576.2024.02.002

全文
图表
评论
参考文献
出版信息

参考文献 1

戴幻尧，周波，雷昊，等．认知电子战的关键技术发展动态与分析[J]．飞航导弹，2014(9)：57-60.

查找原文

参考文献 2

朱霸坤，朱卫纲，李伟，等．基于强化学习的雷达干扰决策技术综述[J]．电光与控制，2022，29(4)：52-58，111.

查找原文

参考文献 3

邢强，贾鑫，朱卫纲．基于Q-学习的智能雷达对抗[J]．系统工程与电子技术，2018，40(5)：1031-1035.

查找原文

参考文献 4

冯远博，王冰切，刘康．电子对抗无人机蜂群对目标雷达干扰压制效果仿真[J]．舰船电子对抗，2022，45(3)：17-23，62.

查找原文

参考文献 5

陈娟，刘浩．雷达在不同杂波背景下的恒虚警率处理[J]．电脑知识与技术，2015，11(9)：220-223.

查找原文

参考文献 6

高晨阳，鱼小军，闫妍．蜂群算法研究综述[J]．信息与电脑，2021，33(22)：63-65.

查找原文

参考文献 7

周兵．雷达有源干扰识别感知方法研究[D]．西安：西安电子科技大学，2021.

查找原文

参考文献 8

颜波涛．一种雷达干扰源定向与分类技术[J]．火控雷达技术，2022，51(3)：53-57.

查找原文

参考文献 9

原敏．雷达有源干扰信号识别方法研究与实现[D]．北京：北京理工大学，2014.

查找原文

参考文献 10

李云杰，朱云鹏，高梅国．基于Q-学习算法的认知雷达对抗过程设计[J]．北京理工大学学报，2015，35(11)：1194-1199.

查找原文

参考文献 11

曹爱华．雷达有源干扰技术研究[D]．成都：电子科技大学，2009.

查找原文

参考文献 12

张柏开，朱卫纲．基于Q-Learning的多功能雷达认知干扰决策方法[J]．电讯技术，2020，60(2)：129-136.

查找原文

参考文献 13

王彬，汪晋宽，宋昕，等．认知雷达中基于Q学习的自适应波形选择算法[J]．系统工程与电子技术，2011，33(5)：1007-1012.

查找原文

目录contents

摘要 Abstract
关键词 Keywords
0 引言
1 雷达有源干扰
1.1 压制性干扰
1.2 欺骗性干扰
2 基于DQN的雷达智能干扰决策
3 仿真验证和结果分析
3.1 仿真参数设置
3.2 干扰决策算法的认知特性验证
3.3 奖励及学习率的影响特性验证
4 结束语
参考文献

摘要

对不同类型的雷达有源干扰进行了讨论，分析了不同干扰的作用机理，并对其干扰效果进行了仿真。讨论了深度Q-学习网络(deep Q-learning network，DQN)算法在传统算法基础上的改进，以及基于DQN的智能干扰决策流程，并通过仿真实验验证了基于 DQN的干扰决策算法的认知特性，同时测试了其在不稳定环境下的性能。仿真结果表明，采用基于DQN的干扰决策算法，能够使干扰机在缺乏先验知识的未知环境中，通过与环境的交互学习，不断提升干扰策略性能。

Abstract

Different types of radar active jamming were discussed. The mechanism of different jamming was analyzed and the jamming effects were simulated. The improvement of deep Q-learning network (DQN) algorithm compared with the traditional algorithm and the intelligent jamming decision process based on DQN were discussed. The cognitive characteristics of jamming decision algorithm based on DQN were verified by simulation experiments, and the performance of the algorithm in unstable environment was tested. The simulation results show that the jamming decision algorithm based on DQN can continuously improve the interference strategy of jammer through interactive learning with the environment in the unknown environment without prior knowledge.

关键词

雷达有源干扰；智能干扰决策；深度Q-学习网络

Keywords

radar active jamming ； intelligent jamming decision ； deep Q-learning network

0 引言
雷达作为获取目标信息的电子设备，在搜集和分发战场信息过程中担任着重要的角色，因此在电子战中具有十分重要的地位^[1]。为了削弱、破坏敌方雷达性能，雷达有源干扰成为电子对抗领域的研究热点^[2]。
随着信息技术的发展，出现了各种干扰样式。为了能够更好地对敌方雷达进行干扰，首先要学习不同类型的雷达有源干扰技术^[3]，然后在此基础上针对雷达的不同工作状态，选择合适的干扰样式进行干扰，达到降低敌方雷达信号威胁等级的目的。
目前大多数雷达干扰机都无法根据雷达工作状态进行智能干扰决策，而是依靠大量的先验知识来得到固定的干扰参数^[4]，这往往导致干扰效果不佳。基于深度Q-学习网络（deep Q-learning network，DQN）的雷达智能干扰处理能够使用训练好的干扰决策模型，根据雷达不同工作状态，自动调整干扰参数和干扰样式，以达到最佳干扰效果。基于此，本文拟采用基于DQN的干扰决策算法，实现智能干扰决策。
1 雷达有源干扰
雷达有源干扰机产生的有源干扰信号进入敌方雷达接收机，既增加了敌方雷达接收机对有用信号检测的不确定性，又增加了接收机接收到虚假信息的数量，这导致敌方雷达接收及处理数据的错误率和虚警率增加^[5]，从而干扰敌方雷达正确执行任务或破坏敌方雷达硬件系统。在电子战中，如果敌方雷达无法完成其正常功能，就可能导致敌方军事人员无法得到正确的军事信息而做出错误的判断和决策^[6]。因此，加强对雷达有源干扰技术的研究具有重要意义^[7]。
根据干扰信号的作用机理不同，雷达有源干扰可以分为压制性干扰和欺骗性干扰^[8]。
1.1 压制性干扰
压制性干扰的作用机理是干扰机发射噪声或类似噪声的干扰信号，将真实目标信号淹没在假信号之中，使敌方雷达接收的回波中混叠很强的杂波或大量假目标回波，导致雷达的探测性能降低，无法正确检测到目标信息。
压制性干扰的优点是在电子战中除了需要知道敌方雷达的工作频段外，无需知道更多敌方雷达的详细信息，只需使用简单的干扰设备就能够有效干扰传统雷达，使其无法正常工作。但压制性干扰对于新体制雷达来说还存在一定不足。雷达相干处理可以有效滤除噪声信号^[9]，使得非相参的干扰产生极大的功率浪费，无法实现对雷达的有效干扰。同时，当压制性干扰信号从雷达天线主瓣进入时，雷达就会探测到干扰机所处方位，导致干扰机易受敌方打击。因此，若敌方雷达采用副瓣消隐、相干对消等先进技术，压制性干扰的效能将会大幅降低^[10]。压制性干扰主要包括噪声调幅干扰、噪声卷积干扰和密集假目标干扰。
（1）噪声调幅干扰
噪声调幅干扰作为一种常用的压制性干扰，主要利用调制噪声对载波进行幅度调制。由于噪声调幅干扰频谱较窄，所以其主要用来实施瞄准式干扰。干扰的成功实施可以起到遮盖目标信号的作用，从而导致目标信号参数难以检测。
噪声调幅干扰信号模型为

J (t) = (U_{0} + U_{n} (t)) c o s (ω_{j} t + ϕ)

(1)

式中：U₀为载波幅度；U_n（t）表示均值为0、方差为σ²_n的噪声调制信号；ω_j为载波频率；φ为相位。φ在[0，2π）上均匀分布，且与U_n（t）相互独立。
噪声调幅干扰生成的信号幅度起伏大，但其载波频率和相位基本不变化。设雷达信号为线性调频（LFM）信号，对噪声调幅干扰进行仿真。设置仿真参数：雷达LFM信号的脉宽为5 μs，带宽为5MHz，载波频率为1 GHz，采样频率为1 250MHz；目标与雷达之间的距离为125km；干扰信号功率为15 W，调幅指数为1/3，功率方差为2 W²，载波功率为18 W。噪声调幅干扰效果如图1所示。
由图1可知，该噪声调幅干扰的压制范围约为20km，干扰信号随机性较强，幅度变化较大，且临近回波信号的干扰信号不一定能将其完全覆盖，真实目标被发现的可能性较大。但这类干扰的优点是实现容易、适用范围广。
（2）噪声卷积干扰
噪声卷积干扰是将雷达信号与噪声信号进行卷积后功率放大并输出，属于应答式干扰。这种干扰方式更加灵活，可以同时实现欺骗和压制两种干扰。与噪声调幅干扰相比，噪声卷积干扰的功率利用率更高，并且卷积后干扰信号的相干性会大幅度提高，更容易干扰雷达接收机。噪声卷积干扰的缺点是需要掌握更多雷达参数信息，实现难度更大。噪声卷积干扰产生的基本原理框图如图2所示。
图1 噪声调幅干扰效果图
图2 噪声卷积干扰基本原理框图
设待干扰的雷达信号为s（t），噪声信号为n（t），则噪声卷积干扰可以表示为

J (t) = s (t) \otimes n (t)

(2)

式中： $\otimes$ 为卷积运算符。
仿真分析噪声卷积干扰，设雷达信号参数不变，n（t）为高斯白噪声。噪声卷积干扰效果如图3所示。
图3 噪声卷积干扰效果图
由图3可知，噪声卷积干扰既产生了具有欺骗效果的假目标，又实现了小范围内的压制干扰。相比于噪声调幅和噪声调频干扰，噪声卷积干扰的功率利用率更高，干扰效果更好。
（3）密集假目标干扰
干扰机在侦察到雷达信号后，对信号进行储存，并在短时间内对其进行多次延时和复制，然后叠加输出密集假目标干扰。该干扰在真实目标信号附近形成密集假目标脉冲，达到欺骗和压制复合干扰的效果。
雷达信号s（t）为LFM信号，其表达式为

s (t) = A r e c t (t / T) e x p (j 2 π f_{c} t + j π μ t^{2})

(3)

式中：A为信号幅度；rect（·）为矩形函数；T为信号脉宽；f_c为信号载频；μ为调频斜率。
按照上述方法，对雷达信号进行M次延时叠加。设第i次的延时时间为τ_i，可以得到雷达延时叠加信号

\begin{matrix} s_{d} (t) = \sum_{i = 1}^{M} A r e c t ((t - τ_{i}) / T) \times \\ e x p (j 2 π f_{c} (t - τ_{i}) + j π μ {(t - τ_{i})}^{2}) \end{matrix}

(4)

那么形成的密集假目标干扰信号

J (t) = \sum_{i = 1}^{M} A r e c t ((t - τ_{i} - 2 R_{j} / c) / T) e x p (j 2 π f_{c} (t - τ_{i} - 2 R_{j} / c) + j π μ {(t - τ_{i} - 2 R_{j} / c)}^{2})

(5)

式中：R_j为干扰机和雷达之间的距离；c为电磁波速。设雷达信号仿真参数不变，密集假目标干扰效果如图4所示。
图4所示的干扰效果与理论分析结果相符合，假目标覆盖距离、干扰密度和能量都很大。通过调节参数，可以改变欺骗或压制干扰效果。对于更加复杂的电磁环境，可以自由设置假目标的间距，当假目标间距较小时，可以形成相参噪声。
1.2 欺骗性干扰
欺骗性干扰的作用机理是发射与真实目标雷达信号特征相似的假目标信号，使得敌方雷达接收到该信号后无法检测到真正的目标，无法得到正确的目标参数信息，从而破坏敌方雷达对目标的识别和跟踪。欺骗性干扰所需要的干扰功率小，干扰设备重量较轻，且具有很强的针对性。但要实现欺骗性干扰，必须准确掌握敌方雷达的工作方式和信号参数，才能生成与真实目标信号相像的假目标信号，从而达到预期的干扰效果^[11]。欺骗性干扰主要包括距离假目标干扰、距离拖引干扰和速度假目标干扰。
图4 密集假目标干扰效果图
（1）距离假目标干扰
距离假目标干扰是干扰机通过发射与真实目标回波距离信息相似的干扰信号来增加敌方雷达发现、跟踪真实目标的难度。干扰机将截获的敌方雷达信号，经过时间延迟后发射回去。每复制一次雷达信号，就可以产生一个距离假目标干扰。
设雷达到目标的距离为R，到假目标的距离为R_f。若要产生距离假目标干扰，保证雷达可以同时侦察到真假目标，又难以区分，雷达到真假目标距离之间的关系必须满足

|R - R_{f}| > Δ R

(6)

式中：ΔR为雷达最小分辨距离。设τ_r为真实目标回波信号的时延，则距离与时延的关系为

R = c τ_{r} / 2

(7)

已知T为雷达信号脉宽，那么干扰信号的时延必须满足

τ_{r} - τ_{f} > T

(8)

式中：τ_f=2R_f/c为干扰信号时延。τ_f由τ_f0和Δτ_f两部分组成，τ_f0=2R_j/c为干扰机和雷达之间距离导致的传播时延，Δτ_f为干扰机从接收雷达信号到发出干扰信号需要的时间，称为转发时延。τ_f0一般是无法得知的，可以通过控制Δτ_f调整τ_f的大小，控制假目标在真实目标的附近，起到欺骗敌方雷达、掩护真实目标的作用。
设雷达信号参数不变，干扰信号时延为20 μs。距离假目标干扰效果如图5所示。
图5 距离假目标干扰效果图
图5中功率较小的尖峰对应真实目标，功率较大的尖峰对应假目标，功率更大的假目标可以更好地掩护真实目标。由图5（a）可知，真假目标到雷达的距离分别为126.98km和125.00km。由图5（b）可知，雷达检测到真假目标信号的时间分别是4178.69 μs和4178.58 μs。可以计算得到雷达-目标相对速度v约为200m/s。真假目标相距1.98km，并且假目标信号幅度更大，更容易达到欺骗雷达的目的。
（2）距离拖引干扰
距离拖引干扰可以看作是距离假目标干扰的一种变形，通过将时间延迟按照一定规律逐次递增，将雷达周期性地引导向假目标，使其丢失真实目标。
一旦雷达丢失真实目标，就只能再次将工作状态切换为搜索。当雷达搜索到真实目标后，工作状态就会切换为跟踪。为了保证干扰有效，一旦雷达再次开始跟踪就再次进行拖引，使雷达工作状态在跟踪和搜索之间反复切换，不能持续稳定跟踪真实目标。
雷达信号仿真参数不变，设雷达到目标的距离为20km，雷达-目标相对速度为200m/s，干扰时间为14s，波门捕获时间为2s，拖引时间为8s，关闭时间为4s，采用匀速拖引，拖引速度v_j=68 m/s。距离拖引干扰效果如图6所示。
图6 距离拖引干扰效果图
图6所示的干扰效果与理论分析结果相符合。在实施8s拖引干扰的过程中，干扰信号对雷达产生了明显的影响，使得雷达丢失了真实目标。
（3）速度假目标干扰
干扰机将侦测的信号进行多普勒频率调制，输出速度假目标干扰。根据干扰需求，多普勒频率可以设置为一个也可以是多个，然后将干扰信号转发。雷达会在同一时间收到调制了一个或多个多普勒频率的回波信号，从而无法从速度参数上识别出真实目标信号。一般进行调制时，假目标信号的幅度会比真实目标信号的大一些，这使雷达检测到真实目标的难度更大，起到欺骗的作用。
速度假目标干扰要求雷达同时侦测到真假目标信号，又不能正确识别真实目标。此时，真假目标回波的多普勒频率差与雷达多普勒频率分辨率Δf的关系必须满足

|f_{D j} - f_{D}| > Δ f

(9)

式中：f_Dj为干扰信号的多普勒频率；f_D为真实目标回波的多普勒频率。f_D可以表示为

f_{D} = 2 v_{r} f_{c} / c

(10)

式中：v_r为真实目标的径向速度。
设t₀为真实目标信号往返时间，干扰信号可以表示为

J (t) = A_{R} (t - t_{0}) e x p (j 2 π f_{D j} (t - t_{0}))

(11)

式中：A_R（·）为干扰信号幅度函数。设雷达信号参数不变，真实目标速度为200m/s，假目标速度为220m/s，速度假目标干扰效果如图7所示。
图7 速度假目标干扰效果图
由图7可知，真假目标回波的多普勒频率分别为3.5738 kHz和3.9760 kHz，多普勒频率差为0.4022 kHz，并且干扰信号功率更大，更有助于达到欺骗雷达的目的。
2 基于DQN的雷达智能干扰决策
基于DQN的干扰决策原理图^[12]如图8所示。
图8 干扰决策原理图
图8中，s表示雷达在某一时刻的工作状态，r表示由于敌方雷达状态改变而从环境中得到的奖励。奖励r可以表示为

r = \{\begin{matrix} 1, L_{t + 1} > L_{t} \\ - 1, L_{t + 1} < L_{t} \end{matrix}

(12)

式中：L_t表示t时刻雷达状态的威胁等级。
有效的干扰能够使敌方雷达的威胁等级逐渐降低^[13]。智能干扰机能够根据测量到的雷达参数信息，依据DQN算法智能地选择合适的干扰样式实施干扰。
与传统的强化学习算法相比，DQN算法主要做出了两方面改进：一是使用经验回放机制来训练智能体；二是使用卷积神经网络近似表示当前值函数。此外，DQN算法还单独构建了目标网络来产生目标Q值。DQN算法模型如图9所示。
图9 DQN算法模型
图9中，当前网络采用卷积神经网络来生成当前值函数Q（s，a; θ），其中s为输入的当前状态，a为选取的动作，θ为当前网络的训练参数。对于输入的当前状态s，可以得到当前网络输出的动作argmax_aQ（s，a; θ），其中argmax_aQ（·）表示Q值为最大时对应的动作a的取值函数。max_a_′Q（s′，a′; θ^-）表示选取下一时刻状态s′下的最大化的Q值，max_a_′（·）表示在下一时刻动作a′下的最大值的取值函数，Q（s′，a′; θ^-）为目标网络函数，其中θ^-为目标网络的训练参数。目标网络与当前网络的结构一致，只是参数不同。通过目标网络可以计算目标值

y = r + γ \underset{a^{'}}{m a x} Q (s^{'}, a^{'}; θ^{-})

(13)

式中：γ为折扣因子。
引入损失函数

L = (y - Q (s, a; θ))^{2} / 2

(14)

利用损失误差的反向传播，不断地更新当前网络中的Q值，使得当前值逐渐逼近目标值。更新的Q值可以表示为

Q^{*} (s, a; θ) = Q (s, a; θ) + α (y - Q (s, a; θ))

(15)

式中：α为学习率。
当目标网络模型经过多次训练，其损失函数减小并收敛时，便可通过该网络计算后续雷达工作模式对应的不同干扰样式的价值，从而选择最大价值对应的最优干扰样式。
在上述过程中得到的s，a，r，s′会被存入回放记忆单元，以便在对模型进行训练时重复使用经验，提高数据利用率。
在使用DQN算法模型进行干扰决策时，决策初期需要对当前网络、目标网络以及回放记忆单元等进行初始化。在每次训练的过程中，干扰方侦测并识别雷达的工作模式，将其作为当前网络的输入，得到网络输出的不同干扰样式对应的价值，依据ε-Greedy策略选择干扰样式；雷达被干扰后转至下一工作模式，干扰方将当前雷达工作模式、干扰收益、所选干扰样式及雷达下一时刻工作状态组成干扰经验样本存入记忆单元中，然后重复此训练过程直至达到雷达终止状态时，结束本轮训练。此后的每一轮训练都依照上述流程进行，最终得到训练好的干扰决策模型。干扰方可以利用此干扰决策模型，针对识别的雷达工作模式，选择网络中高Q值对应的干扰样式进行输出。基于DQN的雷达智能干扰决策流程如图10所示。
3 仿真验证和结果分析
在实际的雷达对抗中，要实现对多功能雷达的认知干扰，需要干扰侦察感知、认知干扰决策和干扰实施三个模块相互配合。本文研究的重点是认知干扰决策模块，所以仿真实验主要是为了验证基于DQN的认知干扰决策算法的性能。设仿真模型为包含 30个雷达状态的多功能雷达，并假定认知干扰决策系统可以选择 6种干扰样式。雷达状态与干扰样式间的相互作用关系由随机生成的状态转移矩阵决定，以验证基于 DQN的干扰决策算法的认知特性，并测试其在不稳定环境下的性能。
图10 基于DQN的雷达智能干扰决策流程图
3.1 仿真参数设置
雷达状态s1~s30间的转换关系可以用转换连通网络图来表示，如图11所示。
连通网络中的每一个节点代表一个雷达状态，节点间用线相连表示雷达状态间能够转换，单向箭头表示能够单向转换，双向箭头表示能够双向转换。同一雷达状态转移到其他雷达状态的概率之和为 1。将雷达初始状态设为s1，目标雷达状态即雷达最终状态设为s15。
在奖励的作用下，智能体能够选择好的动作，规避差的动作。在训练一定的轮数之后，模型趋于稳定，这个时候就可以得到最优干扰策略。在图11中，经训练得到的最优干扰策略为虚线箭头所示。
图11 雷达状态间的转换连通网络图
3.2 干扰决策算法的认知特性验证
设状态转移矩阵稳定，即对多功能雷达施加某一干扰样式后，雷达状态的转移是确定的，干扰决策的环境是平稳的。而对于干扰方，无论环境是否平稳，环境参数都是未知的。在仿真生成的稳定的干扰环境中，保持决策算法的参数不变，每实施100次干扰统计一次雷达被有效干扰的最低威胁等级状态次数。当奖励值为1和-1、学习率为0.005时，干扰决策性能仿真结果如图12所示。
图12 奖励值为1和-1时干扰决策性能仿真结果（学习率为0.005）
由图12（a）可以看出，干扰机能够自主学习最优干扰策略，网络训练过程稳定，且能够收敛于最低损失误差。在干扰任务开始时，每100次干扰中最低威胁雷达状态出现的次数为0或2，显然此时干扰机还没有掌握决策方法。经过不断的交互学习，最低威胁雷达状态出现的次数最终收敛到 12次。图12（b）展示了损失函数的变化趋势，可以看出网络训练过程稳定，损失函数波动幅度很小，有明显收敛趋势，并最终在712步时收敛于最低误差。这充分体现了基于DQN的干扰决策算法的认知特性。该算法能够使干扰机在缺乏先验知识的未知环境中，通过与环境的交互学习，不断提升干扰策略。
用干扰路径描述干扰决策的结果，在算法收敛后，所得干扰策略可用雷达状态转移路径表示为： s1—s2—s3—s4—s6—s9—s10—s14—s15，共进行了8次状态转移，与干扰次数统计结果一致。这表明认知干扰决策算法学习到了最佳的干扰策略。
3.3 奖励及学习率的影响特性验证
将正负奖励值保持平衡均扩大10倍，在奖励值为10和-10、学习率为0.005时，干扰决策性能仿真结果如图13所示。
由图13（a）可以看出，奖励值的扩大不会影响最终干扰决策结果，最低威胁雷达状态出现的次数仍收敛于12次。进一步对比图12（b）与图13（b），可以看出：奖励值的扩大导致损失函数在训练过程中起伏程度变大，同时会影响损失函数差值的量级大小，但不会影响损失函数的收敛速度。在设置奖励值时应遵循正负平衡的原则，否则会导致学习结果的价值偏移，且过大的奖励值易造成训练结果的不稳定，从而影响最终的策略生成。
继续调整奖励值至±100，在学习率分别为0.05和0.10的条件下，干扰决策性能仿真得到的结果分别如图14和图15所示。
图14（a）与图15（a）所示仿真结果进一步验证了上述结论，即奖励值大小不会影响最终干扰决策结果，收敛次数仍保持在12次。图14（b）与图15（b）中损失函数量级均出现同等程度的提高，其中图14（b）在训练达到793步时损失函数收敛，图15（b）在训练达到586步时损失函数收敛。由仿真结果可以看出，学习率的适度增大能够加快网络训练速度和收敛速度，但是当学习率过大时，易造成学习过拟合。
图13 奖励值为10和-10时干扰决策性能仿真结果（学习率为0.005）
图14 奖励值为100和-100时干扰决策性能仿真结果（学习率为0.05）
图15 奖励值为100和-100时干扰决策性能仿真结果（学习率为0.1）
4 结束语
本文进行了雷达有源干扰的分类讨论，同时研究了基于DQN的雷达智能干扰决策技术。基于DQN的雷达智能干扰决策技术打破了传统干扰决策技术大量依靠先验知识的壁垒，能够根据敌方雷达状态相应地调整干扰参数和干扰样式，从而达到最佳干扰效果。仿真结果表明，采用基于DQN的干扰决策算法，干扰机能够在缺乏先验知识的未知环境中，通过与环境的交互学习，不断提升干扰策略性能。随着人工智能及相关算法的不断进步，新的雷达智能干扰决策技术将继续呈现螺旋式发展。
参考文献
- [1] 戴幻尧，周波，雷昊，等．认知电子战的关键技术发展动态与分析[J]．飞航导弹，2014(9)：57-60.
- [2] 朱霸坤，朱卫纲，李伟，等．基于强化学习的雷达干扰决策技术综述[J]．电光与控制，2022，29(4)：52-58，111.
- [3] 邢强，贾鑫，朱卫纲．基于Q-学习的智能雷达对抗[J]．系统工程与电子技术，2018，40(5)：1031-1035.
- [4] 冯远博，王冰切，刘康．电子对抗无人机蜂群对目标雷达干扰压制效果仿真[J]．舰船电子对抗，2022，45(3)：17-23，62.
- [5] 陈娟，刘浩．雷达在不同杂波背景下的恒虚警率处理[J]．电脑知识与技术，2015，11(9)：220-223.
- [6] 高晨阳，鱼小军，闫妍．蜂群算法研究综述[J]．信息与电脑，2021，33(22)：63-65.
- [7] 周兵．雷达有源干扰识别感知方法研究[D]．西安：西安电子科技大学，2021.
- [8] 颜波涛．一种雷达干扰源定向与分类技术[J]．火控雷达技术，2022，51(3)：53-57.
- [9] 原敏．雷达有源干扰信号识别方法研究与实现[D]．北京：北京理工大学，2014.
- [10] 李云杰，朱云鹏，高梅国．基于Q-学习算法的认知雷达对抗过程设计[J]．北京理工大学学报，2015，35(11)：1194-1199.
- [11] 曹爱华．雷达有源干扰技术研究[D]．成都：电子科技大学，2009.
- [12] 张柏开，朱卫纲．基于Q-Learning的多功能雷达认知干扰决策方法[J]．电讯技术，2020，60(2)：129-136.
- [13] 王彬，汪晋宽，宋昕，等．认知雷达中基于Q学习的自适应波形选择算法[J]．系统工程与电子技术，2011，33(5)：1007-1012.

图1 噪声调幅干扰效果图

图2 噪声卷积干扰基本原理框图

图3 噪声卷积干扰效果图

图4 密集假目标干扰效果图

图5 距离假目标干扰效果图

图6 距离拖引干扰效果图

图7 速度假目标干扰效果图

图8 干扰决策原理图

图9 DQN算法模型

图10 基于DQN的雷达智能干扰决策流程图

图11 雷达状态间的转换连通网络图

图12 奖励值为1和-1时干扰决策性能仿真结果（学习率为0.005）

图13 奖励值为10和-10时干扰决策性能仿真结果（学习率为0.005）

图14 奖励值为100和-100时干扰决策性能仿真结果（学习率为0.05）

图15 奖励值为100和-100时干扰决策性能仿真结果（学习率为0.1）

图表 1/1

基本信息

中图分类号: TN974
文献标识码: A
DOI: 10.3969/j.issn.1671-0576.2024.02.002
文章编号: 1671-0576(2024)02-0011-09

基金信息

黑龙江省自然科学基金(LH2020F020)；

稿件历史

收稿日期: 2023-03-14

参考文献

[1] 戴幻尧，周波，雷昊，等．认知电子战的关键技术发展动态与分析[J]．飞航导弹，2014(9)：57-60.
[2] 朱霸坤，朱卫纲，李伟，等．基于强化学习的雷达干扰决策技术综述[J]．电光与控制，2022，29(4)：52-58，111.
[3] 邢强，贾鑫，朱卫纲．基于Q-学习的智能雷达对抗[J]．系统工程与电子技术，2018，40(5)：1031-1035.
[4] 冯远博，王冰切，刘康．电子对抗无人机蜂群对目标雷达干扰压制效果仿真[J]．舰船电子对抗，2022，45(3)：17-23，62.
[5] 陈娟，刘浩．雷达在不同杂波背景下的恒虚警率处理[J]．电脑知识与技术，2015，11(9)：220-223.
[6] 高晨阳，鱼小军，闫妍．蜂群算法研究综述[J]．信息与电脑，2021，33(22)：63-65.
[7] 周兵．雷达有源干扰识别感知方法研究[D]．西安：西安电子科技大学，2021.
[8] 颜波涛．一种雷达干扰源定向与分类技术[J]．火控雷达技术，2022，51(3)：53-57.
[9] 原敏．雷达有源干扰信号识别方法研究与实现[D]．北京：北京理工大学，2014.
[10] 李云杰，朱云鹏，高梅国．基于Q-学习算法的认知雷达对抗过程设计[J]．北京理工大学学报，2015，35(11)：1194-1199.
[11] 曹爱华．雷达有源干扰技术研究[D]．成都：电子科技大学，2009.
[12] 张柏开，朱卫纲．基于Q-Learning的多功能雷达认知干扰决策方法[J]．电讯技术，2020，60(2)：129-136.
[13] 王彬，汪晋宽，宋昕，等．认知雷达中基于Q学习的自适应波形选择算法[J]．系统工程与电子技术，2011，33(5)：1007-1012.

分享给微信好友或者朋友圈

使用微信“扫一扫”功能。

基于DQN的雷达智能干扰决策方法

Radar Intelligent Jamming Decision Method Based on DQN

摘要

Abstract

关键词

Keywords

0 引言

1 雷达有源干扰

1.1 压制性干扰

(1)

(2)

(3)

(4)

(5)

1.2 欺骗性干扰

(6)

(7)

(8)

(9)

(10)

(11)

2 基于DQN的雷达智能干扰决策

(12)

(13)

(14)

(15)

3 仿真验证和结果分析

3.1 仿真参数设置

3.2 干扰决策算法的认知特性验证

3.3 奖励及学习率的影响特性验证

4 结束语

参考文献

基本信息

基金信息

稿件历史

参考文献

您是本站第 访问者

您是本站第访问者