-
0 引言
-
随着人工智能技术不断在各领域中焕发生机,武器装备的智能化作战能力也得到了快速提升,雷达电子战正在逐步从传统的“人工认知”模式转变为“自动认知”模式[1]。在这种作战模式下,干扰方不再依赖固定的对抗模式,而是通过持续优化决策流程和应对策略来最大化干扰效果。这种作战模式不仅为现代战争提供了全新的作战理念,也将在未来的高科技战争中发挥越来越重要的作用。
-
然而,随着雷达技术的发展,传统的单一体制雷达逐渐被具备多种切换模式和灵活波束控制的新型多功能雷达所取代[2]。新型雷达不仅具备优异的机动性和环境适应性,还引入了生物智能的学习机制,通过自我调整以适应环境变化,将感知能力与应变能力有机融合[3]。尤其在多层次、多方向的复杂对抗环境中,新型雷达展现出更显著的作战优势,这一趋势无疑给干扰方的决策过程带来了严峻挑战。
-
目前,大多数雷达干扰机仍依赖传统干扰策略或简单反应机制,缺乏足够的灵活性和自适应性,导致干扰资源调度难以匹配雷达实际工作状态,从而造成干扰资源浪费和调度效率低下等问题[4]。因此,如何提升干扰机在复杂电磁环境中的智能决策能力,实现针对不同雷达工作状态的自适应干扰资源分配,已成为提升电子对抗效能的关键。基于此,本文提出一种基于优化软演员-评论家(soft Actor-Critic,SAC)算法的干扰功率分配决策方法,利用强化学习实现干扰功率的动态调整和优化。
-
1 基本原理
-
1.1 演员-评论家框架
-
基于值和基于策略的方法是强化学习的两大分支[5]。基于值的方法通过评估状态-动作对的价值,使智能体通过选择价值最大化的动作来间接学习最优策略[6]。然而,这种方法通常仅适用于离散动作空间,且存在价值估计偏差较大的问题。相比而言,基于策略的方法直接学习策略,通过优化策略函数来最大化预期的累积回报[7]。但由于需要大量采样,其梯度估计的方差较大,进而影响模型的稳定性和收敛速度。为此,演员-评论家(Actor-Critic)框架通过融合基于值和基于策略的方法优势,有效克服了两者的固有局限性[8]。
-
在Actor-Critic框架中,演员(Actor)网络负责生成策略,即根据当前状态选择最优的动作。在大多数情况下,Actor网络通过概率分布来表示策略,同时基于当前状态从该概率分布中采样并采取行动。Actor网络的核心目标是通过学习逐步改进动作选择策略,以实现长期回报的最大化。在该框架中,评论家(Critic)网络负责估计当前策略的价值,具体表现为Critic网络通过状态-动作对值函数或状态值函数来评估Actor网络选择动作的优劣。Critic网络的核心目标是计算状态-动作对或状态的价值,并根据这些价值反馈来指导Actor网络的策略修正,通过计算预测值和实际回报之间的误差来实现价值估计的更新。
-
在Actor-Critic框架中,学习过程是通过Actor网络和Critic网络的交替更新实现的。Actor网络通过Critic网络提供的价值估计来调整策略:如果Critic网络评估某个动作是有价值的,Actor网络将通过策略梯度方法增加该动作的选择概率;反之,则降低其选择概率。在典型的策略梯度方法中,Actor网络的策略函数参数Δθactor的更新公式为
-
其中
-
式中:β1为Actor网络的学习率,用于控制参数更新的步长;ln(π(at|st))为Actor网络权重参数的对数策略梯度,用于衡量Actor网络的输出策略对权重参数变化的响应,其中π(at|st)为Actor网络的策略函数,表示策略在当前状态st下选择动作at的概率;δt为基于Critic网络计算的优势,即时序差分(temporal difference,TD)误差;rt为当前即时奖励;γ为折扣因子,表示未来奖励的重要性;V(·)为状态的价值估计函数。
-
Critic网络的更新是通过最小化预测价值和实际奖励之间的误差来进行的,其估计的值函数通常是基于时序差分方法进行更新。Critic网络的价值函数参数Δθcritic的更新公式为
-
式中:β2为Critic网络的学习率。
-
与传统的Q-learning算法相比,Actor-Critic框架通过将策略函数和价值函数分离建模,避免了Q-learning算法中因采用最大化操作(即选取单个最大Q值进行更新)而导致的Q值高估的问题,并能够直接处理连续的动作空间,从而在学习过程中更加稳定。
-
1.2 优化SAC算法原理
-
在Actor-Critic框架基础上,后续发展了多种改进算法,其中SAC是由Tuomas Haarnoja等于2018年提出的一种高效改进算法[9]。SAC算法有两种实现架构:第一种架构使用单Actor网络结合双V网络和双Q网络;第二种架构使用单Actor网络结合四Q网络。本文基于第二种架构进行优化和改进。
-
SAC算法的核心理念是在目标函数中引入熵正则化项,以增强策略探索能力并提升训练的稳定性。该算法采用两个独立的神经网络,分别用于策略评估和Q值计算[10]。与传统的强化学习算法不同,SAC算法对目标网络采用软更新机制,并引入延迟更新策略,同时利用两个独立的神经网络来分别对策略函数和Q值函数进行估算。
-
SAC算法的目标是同时最大化奖励和策略熵,有效避免智能体在策略优化过程中陷入局部最优解,从而保持策略的多样性和探索能力。其目标函数
-
式中:(·)为对状态st和动作at的期望函数;为策略π下的动作-价值函数;α为熵参数,用于控制策略的探索能力。
-
在SAC算法中,Actor网络的目标是学习最优策略。该策略以当前状态为输入,输出动作概率的正态分布参数,即均值和标准差。在动作采样阶段,为解决梯度回传问题,Actor网络采用重参数化技巧,将标准正态分布噪声与网络输出的均值和标准差相结合,以生成最终动作。这种方法使得算法能够在处理连续动作空间时保持稳定的探索能力,并且通过对动作进行双曲正切函数变换,确保动作在可接受的范围内。
-
四Q网络包括两个主要的Q网络及其对应的目标网络:Q1网络、Q2网络、目标Q1网络和目标Q2网络。算法沿用了深度Q网络(deep Q network,DQN)算法中固定目标网络的策略,使用两个Q网络的目的是减小Q值高估带来的策略偏差。为了进一步优化,SAC算法引入了剪枝孪生网络策略,每次训练时将孪生网络中Q值较小的Q网络输出用于计算价值误差,从而提高了算法的稳定性。Q值更新公式为
-
式中:y为目标Q值;min(·)为最小值取值函数;为目标Q网络的输出;为策略在下一个状态下选择动作的概率。
-
为了确保学习过程的稳定性,SAC算法还采用了软更新的机制,即目标Q网络的参数在每次训练过程中仅进行小幅更新,而非完全复制,这样可以有效避免因参数更新过快导致的训练不稳定问题。目标Q网络的参数θ′的更新公式为
-
式中:θ为当前Q网络参数;τ为目标Q网络软更新系数,用于确保目标Q网络的平滑更新。
-
SAC算法的关键是引入了可自动调整的熵参数α,来平衡探索和利用。通过在目标函数中引入熵正则化项,SAC算法能够在保持探索能力的同时避免过度探索[11]。此外,SAC算法还会根据当前的策略熵来自动调整α,使得智能体在训练的不同阶段能够自适应地改变其探索强度。熵的损失函数
-
式中:为对动作at的期望函数;为目标熵,通常设为常数,其值取动作空间维度的负值。
-
SAC算法结合了Actor-Critic框架、离线策略以及最大熵原则,显著提升了样本利用效率,相较于其他强化学习算法表现出了更好的收敛特性[12]。同时,熵参数的引入降低了算法对超参数的依赖性,使得Q值接近的动作得到相近的选择概率,从而有效避免个别动作被过度选择,显著降低了陷入局部最优解的风险[13]。
-
本文的优化SAC算法还采用AdamW优化器,通过独立处理权重衰减和梯度更新,增强了模型的稳定性;引入正交初始化策略,通过确保权重矩阵正交性,提高了模型收敛速度;同时采用梯度裁剪机制,避免了梯度爆炸,保持了参数更新的平稳性,进而确保了模型在强化学习中的有效探索。
-
2 基于优化SAC算法的干扰功率分配
-
2.1 场景构建
-
本文探讨了一种在对抗环境下干扰机掩护友方突防飞机穿越敌方雷达区域的战术方法。该干扰机不仅需要深入理解敌方雷达的工作机制,还需要综合评估战场态势、友方飞机的任务要求以及干扰资源的实时状态,以实现对敌方多部雷达的协同干扰,从而确保被掩护目标飞机的安全突防和作战任务的顺利完成。
-
在伴随干扰机掩护目标飞机执行突防任务的过程中,敌方雷达构成密集探测网,全面监视进入该区域的所有目标,突防对抗场景示意图如图1所示。该干扰机会根据敌方雷达的部署密度、探测范围和反应速度等关键参数,准确评估每部雷达对目标飞机的威胁等级,优先干扰威胁等级最高的雷达。这种选择性干扰策略既避免了有限干扰资源的过度消耗,又确保了在整个突防过程中为目标飞机提供持续的电子掩护。
-
图1 突防对抗场景示意图
-
通过前期的对抗实践,干扰机能够预先解析敌方雷达的战术部署和工作特性,为后续制定精准的干扰策略提供关键信息支撑。这些信息不仅有助于干扰机优先压制高威胁雷达,还能使其根据战场态势动态调整干扰策略并优化干扰资源配置,从而提升干扰效果并确保突防任务成功。
-
2.2 雷达建模
-
在雷达未受到干扰时,第i部雷达k时刻的接收回波功率
-
式中:为第i部雷达的发射功率;为第i部雷达的天线主瓣增益;λi为第i部雷达的工作波长;σi为第i部雷达探测目标的有效散射截面积;为k时刻第i部雷达与目标间的距离。则第i部雷达k时刻的接收信噪比μi,k的表达式为
-
式中:Pn为噪声功率。
-
当雷达遭受干扰机干扰时,雷达需对干扰信号的来源、强度和功率等进行多方面分析,以此构成一个更为完善的信号模型。第i部雷达k时刻的接收干扰信号功率
-
式中:Pjt为干扰机的发射功率;Gj为干扰机天线的主瓣增益;G′j为雷达在干扰机主瓣方向上的增益;λj为干扰机的工作波长;γj为干扰极化损失;Rij,k为k时刻第i部雷达与干扰机之间的距离。
-
此外,本文采用压制式干扰手段,通过发射大功率、宽频带的干扰信号,大幅削弱雷达对突防目标飞机回波的处理能力,并使雷达检测概率降至设定阈值以下,导致雷达无法有效探测目标飞机。当达到这一状态时,即认为干扰已成功。
-
2.3 智能干扰机建模
-
为实现多目标干扰功率的高效优化分配,本文将其构建为一个用五元组(s,a,p,r,γ)表示的马尔可夫决策过程。其中:环境状态s代表基础要素;动作a代表智能体基于环境状态做出的决策执行单元;状态转移概率p代表在状态s下执行动作a转移到新状态s′的概率;奖励值r代表环境对智能体动作的反馈机制;折扣因子γ代表当前与未来奖励值之间的均衡关系。在该模型中,多目标干扰功率分配的状态、动作和奖励机制均有特定的设置。
-
针对敌方由多部不同功能雷达组成的探测网络,伴随干扰机可根据各雷达节点特性,独立调控各干扰波束的辐射功率参数,从而提升整体干扰效果与资源利用效率。在此基础上,为实现多部雷达干扰任务的动态调度与资源优化配置,需建立干扰机波束分配策略的数学模型。本文将干扰机在k时刻可选的波束分配方案定义为其动作空间的子集aj,k,并以数学形式描述为
-
其中
-
式中:Ptotal为干扰机总功率;ωi为分配给第i部雷达的功率比例;N为雷达数。
-
当干扰功率充足时,伴随干扰机可对所有雷达实施干扰,以最大程度压制雷达整体检测性能。但当干扰机功率受限时,则优先对高威胁雷达实施高强度干扰,显著降低其对目标飞机的探测能力,为后续作战任务的顺利开展创造有力条件。
-
2.4 突防奖励设计
-
在干扰机掩护目标飞机突防过程中,智能体需完成两个主要任务:首先,确保目标飞机的生存性,使其能够安全抵达突防终点;其次,在保证突防成功的前提下,尽可能缩短突防时间,提高作战效率,同时实现干扰资源的优化配置。
-
因此,在设置奖励值时,将突防成功率作为核心奖励。突防成功率奖励值r1的表达式为
-
式中:为目标飞机在k时刻与突防终点之间的距离;c为干扰机对各雷达施加干扰的次数;cmax为最大允许干扰次数。
-
此外,在智能体与环境交互过程中,为解决反馈信号稀疏的问题,除设置突防成功率奖励值r1外,还设置了子目标奖励值r2。r2的表达式为
-
式中:为待干扰雷达在k时刻受功率分配干扰后的检测概率;pmin为雷达检测概率阈值。当雷达检测概率低于预设阈值pmin时,雷达无法探测到目标飞机。
-
为进一步提升目标飞机的突防效率,在现有干扰策略框架下引入辅助奖励项,通过设置与干扰次数负相关的辅助奖励值r3,引导智能体在保证突防成功率的前提下最小化干扰资源消耗。具体而言,当干扰次数增加时给予较小的负奖励,实现干扰效能与突防效率的协同。r3的表达式为
-
式中:ck,ck-1为k,k-1相邻时刻的干扰次数。
-
综上,总综合奖励值rjam可以表示为
-
奖励函数是智能体与外部环境进行交互反馈的关键纽带。设置科学合理的奖励值能够加速智能体对最优策略的探索进程,通过建立梯度化的奖励层级,能够有效引导智能体的策略向实现更高干扰收益的方向优化,从而实现预期目标。
-
2.5 干扰功率分配方案
-
在继承 SAC 算法高效性的基础上,针对电子对抗场景中干扰功率分配问题构建了完整的算法架构。基于优化SAC算法的干扰功率分配算法框架如图2 所示。该算法框架主要分为主体交互和决策网络更新两部分,通过智能体与环境的动态交互及策略的持续优化,最终实现高效的功率分配。
-
在主体交互过程部分,干扰机作为智能体,基于当前k时刻探测的环境状态skj来设置奖励值,并将其输入至决策网络。通过干扰策略选择得到干扰功率分配方案ak后,干扰机执行该方案获得当前时刻的奖励值和下一状态sk+1j,并将这些数据存储在干扰经验池中,便于后续计算累积的折扣回报。
-
在决策网络更新部分,框架包括一个Actor网络和一个四Q网络。Actor网络的优化目标是最大化动作选择的期望回报,同时兼顾策略熵(即探索性)。SAC算法通过增加策略熵,激励Actor网络探索更广泛的动作空间,而不是仅仅选择高回报动作。这种探索机制可有效避免智能体陷入局部最优解。
-
四Q网络通过最小化均方贝尔曼误差(mean squared Bellman error,MSBE)进行更新。该误差用于量化当前状态-动作对的Q值与目标Q值之间的误差,而目标Q值是基于当前环境奖励和下一状态的Q值进行预测的。通过最小化MSBE,Q网络不断优化其状态-动作对的价值估计。最后,通过计算熵正则化策略梯度,为Actor网络提供策略更新方向。
-
图2 基于优化SAC算法的干扰功率分配算法框架
-
3 仿真验证和结果分析
-
3.1 算法参数设置
-
SAC算法通常需要对多个参数进行调整,其中包括目标网络软更新系数、梯度裁剪范数和熵正则化系数等特有的超参数,这些超参数决定了模型能否在合理时间内学习到有效干扰模式。
-
较小的目标网络软更新系数会使目标网络更新更为平缓,从而避免过度振荡,一般该系数取值为0.005。梯度裁剪范数是为防止梯度爆炸,通过限制梯度的最大范数,保持训练过程的稳定性,本文该范数取值为5。熵正则化系数通常被称为温度参数,用来调节策略探索与利用的平衡,其初值取值范围为0.1~0.3,本文设置为0.2。
-
在SAC算法实现中,通常将Critic网络的学习率设置为略大于Actor网络的学习率,并采用线性衰减的学习率调整策略。在该策略中,学习率从初值开始,每个训练步都进行固定步长的递减,直到训练结束时达到预设终值。算法参数设置见表1。
-
3.2 对抗场景仿真
-
为验证本文所提算法的有效性,在作战区域内部署了6部雷达,这些雷达可以协同定位干扰源,并通过调整工作参数实现目标的稳定跟踪和精确锁定。令一架伴随干扰机与一架突防目标飞机一同穿越雷达作战区域,并预设了成功突防的终点。图3展示了所建立的空间突防对抗场景,清晰呈现了6部雷达的部署布局及目标飞机突防轨迹的设置。
-
图3 突防对抗场景示意图
-
3.3 算法性能分析
-
在预设的对抗场景中,将本文所提的优化SAC算法与主流的近端策略优化(proximal policy optimization,PPO)算法进行比较。为确保比较的科学性,两种算法均在搭载PyTorch 2.0.0深度学习框架的Python 3.9平台上训练和测试,并在CUDA 11.8加速构架的环境配置下运行。设置状态空间维度为3,动作空间维度为 6,雷达布局、奖励函数以及关键参数均保持一致。在相同初始条件下进行多轮训练试验,两种算法的平均干扰收益曲线如图4所示。
-
图4 两种算法平均干扰收益曲线
-
由图4(a)可知,优化SAC算法的最大训练步数为1.50×105,收敛步数为0.75×105。由图4(b)可知,PPO算法的最大训练步数为1.5×106,收敛步数为0.6×106。试验结果表明,在不同最大训练步数下,两种算法的收敛步数均保持稳定。本文所提优化SAC算法的收敛速度约为PPO算法的8倍,这使得干扰机能够更快速地对雷达探测做出策略调整,以掩护目标飞机有效突防。图4(c)的局部放大图清晰展示了两种算法的性能差异。在训练初始阶段,由于智能体进行了较大范围的探索,平均干扰收益曲线呈现明显的波动特征。通过持续反馈的交互学习,平均干扰收益呈现稳步上升趋势,这表明智能体已经学会了有效的干扰策略。
-
Critic网络的损失函数通常用于衡量其对目标价值函数的拟合误差,表征了价值预测与实际回报之间的差异。通过不断迭代优化该损失函数,Critic网络能够更准确估计未来回报,从而为策略网络的参数更新提供更为准确的梯度信号。为了验证本文所提算法的性能优势,仿真对比该算法与PPO算法的Critic网络损失值。图5展示了两种算法Critic网络损失值的变化曲线。
-
图5 两种算法的Critic网络损失值变化曲线
-
由图5可以看出,本文所提的优化SAC算法在训练初期虽存在短期波动,但整体收敛速度更快,且最终稳定在较低的损失值范围内。这表明该算法的Critic网络在训练过程中具有更强的拟合能力和更高的价值估计精度。相比之下,PPO算法的Critic网络在训练过程中表现出损失值波动较大、收敛速度较慢、最终损失水平略高等特征,这说明PPO算法在处理高维连续动作空间时存在局限性。
-
为了更清晰地展示算法的训练结果,在训练过程中,计算伴随干扰机对雷达施加压制干扰的平均次数,并将其定义为平均干扰次数。图6展示了优化SAC算法平均干扰次数曲线。
-
图6 优化SAC算法平均干扰次数曲线
-
由图6可以看出:在训练初期,智能体会盲目尝试各种干扰动作,直至达到最大干扰次数;随着训练深入,智能体开始从大量失败和少数成功中汲取经验,避免明显无效的干扰行为;最后平均干扰次数曲线趋于平稳,并收敛至一个固定值,约为100次。这表明智能体已经学习到快速且高效的干扰策略。尽管平均干扰次数存在小幅波动,但干扰策略整体表现出了良好的收敛性。
-
在模型训练过程中,本文选取了两个代表性训练时刻:一是在训练初期,策略尚未收敛,模型仍处于探索阶段;二是在训练后期,策略趋于稳定,功率分配接近最优状态。图7展示了这两个阶段中干扰机对多个雷达节点的功率分配情况。
-
对比图7中的两个不同训练阶段,在突防进程的初期,雷达1和雷达2对当前突防飞机构成的威胁最大,干扰机因此将大部分干扰功率集中分配给二者。随着战场态势的不断变化,干扰机将更多干扰资源转向威胁等级逐渐上升的雷达3和雷达4。根据实时威胁等级评估,干扰机能智能调整干扰功率在各雷达间的分配,将更多的干扰资源从已降低威胁等级的雷达转移到高威胁等级的雷达上。最终,在目标飞机突防过程中干扰机的平均干扰次数从200下降到100,实现了干扰效率的最大化。
-
图7 不同训练阶段干扰机对雷达的功率分配图
-
3.4 算法优化机制对比
-
本文所提的优化SAC算法采用了AdamW优化器、正交初始化和梯度裁剪等优化机制和策略,从而提高了训练的效率和稳定性。采用优化器前后的平均干扰收益对比曲线如图8所示。可以看出,采用AdamW优化器能够有效抑制过拟合,改善了模型的泛化能力。这是因为AdamW优化器将权重衰减与梯度更新分开,使得优化过程更加稳定,并能够自适应调整学习率,确保在训练过程中保持较好的收敛性和较高的效率。
-
采用正交初始化前后的平均干扰收益对比曲线如图9所示。可以看出,采用正交初始化能够提高训练的稳定性和效率。正交初始化保持了层间激活值的方差一致性,避免了梯度消失或爆炸问题,促进了梯度的有效传播。
-
在本文所提的优化SAC算法中还采用了梯度裁剪机制。典型的裁剪方式有基于范数的裁剪和基于值的裁剪:基于范数的裁剪将整个参数梯度向量的范数控制在一个上限内,关注整体更新的稳定性和收敛过程;基于值的裁剪直接限制每个梯度的绝对值在某个最大值以内,更适用于抑制个别异常大的梯度。本文选择基于范数的裁剪方式,并探究了裁剪范数值对算法性能的影响。不同裁剪范数下的平均干扰收益对比曲线如图10所示。
-
图8 采用优化器前后平均干扰收益对比曲线
-
图9 采用正交初始化前后的平均干扰收益曲线对比
-
图10 不同裁剪范数下的平均干扰收益对比曲线
-
由图10可知:若梯度裁剪范数设置过大,则无法限制异常梯度,训练过程不稳定;反之,若范数设置过小,则会导致模型更新幅度过小,学习过程缓慢。在裁剪范数为5时,算法收敛所需训练步数最少。因此,本文采用固定范数为5进行裁剪,作为稳定训练过程的保守策略。
-
熵正则化系数作为SAC算法中特有的超参数,能够激励策略的随机性,有效平衡探索与利用。本文采用自适应调节机制动态调整探索强度,探究了不同熵正则化系数初值对算法性能的影响,试验结果如图11所示。
-
图11 不同熵正则化系数初值对算法性能的影响
-
由图11可知,若熵正则化系数初值设置过大,策略将过于随机,导致有效行为难以学习,回报收敛缓慢;反之,若初值设置过小,策略倾向于过早收敛到确定性动作,探索不足,导致突防成功率较低。因此本文选择0.2作为熵正则化系数初值。
-
4 结束语
-
本文针对传统认知电子战中干扰资源调度不合理的问题,构建了一个伴随干扰机掩护目标飞机的突防场景,提出了一种基于优化SAC算法的智能干扰功率分配决策方法,并与PPO算法进行了对比试验,最后对优化SAC算法的优化机制和影响算法性能的关键因素进行了分析与讨论,验证了所提方法和所设参数的合理性与适用性。试验结果表明:本文所提算法的收敛速度更快,在干扰资源有限的条件下能够实现高效的功率分配,显著提升干扰资源的利用率。
-
参考文献
-
[1] 于晓华,郭涛.美军电磁频谱作战装备及其作战应用分析[J].航天电子对抗,2023,39(3):44-49.
-
[2] 王晓东,朱松.2021年外军电磁频谱作战发展综述[J].中国电子科学研究院学报,2022,17(4):347-350.
-
[3] 苏周,刘飞,许晓剑,等.智能化电子战装备发展研究[J].舰船电子对抗,2023,46(4):9-13,18.
-
[4] 黄知涛,王翔,赵雨睿.认知电子战综述[J].国防科技大学学报,2023,45(5):1-11.
-
[5] LIU Y T,YANG J M,CHEN L,et al.Overview of reinforcement learning based on value and policy[C]//Proceedings of the 32nd China Control and Decision Conference,Hefei,China.Piscataway,NJ:IEEE Press,2020:598-603.
-
[6] VAMPLEW P,FOALE C,DAZELEY R.The impact of environmental stochasticity on value-based multiobjective reinforcement learning[J].Neural Computing and Applications,2022,34(3):1783-1799.
-
[7] WANG X S,GU Y,CHENG Y H,et al.Approximate policy-based accelerated deep reinforcement learning[J].IEEE Transactions on Neural Networks and Learning Systems,2020,31(6):1820-1830.
-
[8] WANG X S,MENG K,WANG X,et al.Dynamic user resource allocation for downlink multicarrier NOMA with an actor-critic method[J].Energies,2023,16(7):2984.
-
[9] 杨凯达,杨兴昊,刘钊.基于深度强化学习的智能对手自主空战决策技术[J].火力与指挥控制,2023,48(10):27-33.
-
[10] 刘庆强,刘鹏云.基于优先级经验回放的SAC强化学习算法[J].吉林大学学报(信息科学版),2021,39(2):192-199.
-
[11] 李波,白双霞,孟波波,等.基于SAC算法的无人机自主空战决策算法[J].指挥控制与仿真,2022,44(5):24-30.
-
[12] 肖硕,黄珍珍,张国鹏,等.基于SAC的多智能体深度强化学习算法[J].电子学报,2021,49(9):1675-1681.
-
[13] 张大琳,易伟,孔令讲.面向组网雷达干扰任务的多干扰机资源联合优化分配方法[J].雷达学报,2021,10(4):595-606.
-
摘要
针对传统认知电子战中干扰资源调度不合理的问题,构建了一个由干扰机协同掩护目标飞机的突防场景,提出了一种基于优化软演员-评论家(soft Actor-Critic, SAC)算法的智能干扰功率分配决策方法,并将其与主流的近端策略优化(proximal policy optimization,PPO)算法进行了对比,最后对优化SAC算法中的关键优化机制进行深入分析,探讨了影响算法性能的主要因素。试验结果表明,所提方法在收敛速度和稳定性方面均优于PPO算法,尤其在干扰资源受限的复杂环境中,能够显著提升干扰资源的利用率,从而验证了该方法的可行性与有效性。
Abstract
To address the problem of unreasonable jamming resource scheduling in traditional cognitive electronic warfare, a penetration confrontation scenario was constructed where jamming aircraft cooperatively shield a target aircraft. An intelligent jamming power allocation decision method based on an optimized soft Actor-Critic (SAC) algorithm was proposed and then compared with the mainstream proximal policy optimization (PPO) algorithm. Additionally, key optimization mechanisms within the optimized SAC algorithm were analyzed in depth, and the primary factors influencing its performance were explored. Experimental results demonstrate that the proposed method outperforms PPO in terms of both convergence speed and stability. In particular, under complex conditions with limited jamming resources, it significantly improves jamming resource utilization, thus validating the feasibility and effectiveness of the proposed method.

