基于Dueling DQN的临近空间飞行器再入轨迹规划

doi:10.3969/j.issn.1671-0576.2024.02.001

基于Dueling DQN的临近空间飞行器再入轨迹规划

田若岑¹

机构：

1. 上海机电工程研究所, 上海 201109

×
，刘益吉¹

机构：

1. 上海机电工程研究所, 上海 201109

×
，肖涛¹

机构：

1. 上海机电工程研究所, 上海 201109

×
，张顺家¹

机构：

1. 上海机电工程研究所, 上海 201109

×
，陆远²

机构：

2. 上海航天电子技术研究所, 上海 201109

×

1. 上海机电工程研究所, 上海 201109；
2. 上海航天电子技术研究所, 上海 201109；

Near Space Vehicle Reentry Trajectory Planning Based on Dueling DQN

TIAN Ruocen¹

Affiliation：

1. Shanghai Electro-Mechanical Engineering Institute, Shanghai 201109 , China

×
，LIU Yiji¹

Affiliation：

1. Shanghai Electro-Mechanical Engineering Institute, Shanghai 201109 , China

×
，XIAO Tao¹

Affiliation：

1. Shanghai Electro-Mechanical Engineering Institute, Shanghai 201109 , China

×
，ZHANG Shunjia¹

Affiliation：

1. Shanghai Electro-Mechanical Engineering Institute, Shanghai 201109 , China

×
，LU Yuan²

Affiliation：

2. Shanghai Aerospace Electronic Technology Institute, Shanghai 201109 , China

×

1. Shanghai Electro-Mechanical Engineering Institute, Shanghai 201109 , China；
2. Shanghai Aerospace Electronic Technology Institute, Shanghai 201109 , China；

作者简介:

田若岑(1997—)，男，硕士，助理工程师，主要从事制导控制技术研究。

中图分类号:V448.235

文献标识码:A

文章编号:1671-0576(2024)02-0001-10

DOI:10.3969/j.issn.1671-0576.2024.02.001

全文
图表
评论
参考文献
出版信息

参考文献 1

熊俊辉，李克勇，刘燚，等．临近空间防御技术发展态势及突防策略[J]．空天防御，2021，4(2)：82-86.

查找原文

参考文献 2

周蓓蓓，刘珏．智能化技术在精确打击体系中的应用[J]．空天防御，2019，2(3)：77-83.

查找原文

参考文献 3

YOUSSEF H，CHOWDHRY RS，LEE H，et al． Predictor-corrector entry guidance for reusable launch vehicles[C]//AIAA Guidance，Navigation，and Control Conference and Exhibit，Montreal，Canada． Reston，VA：AIAA，2001：4043.

查找原文

参考文献 4

SHEN Z J，LU P． On-board entry trajectory planning expanded to sub-orbital flight[C]//AIAA Guidance，Navigation，and Control Conference and Exhibit，Austin． Reston，VA：AIAA，2003：5736.

查找原文

参考文献 5

潘乐飞，李新国．可重复使用运载器预测-校正再入制导研究[J]．飞行力学，2007，25(1)：55-58.

查找原文

参考文献 6

JOSHI A，SIVAN K，AMMA S S． Predictor-corrector reentry guidance algorithm with path constraints for atmospheric entry vehicles[J]． Journal of Guidance，Control，and Dynamics，2007，30(5)：1307-1318.

查找原文

参考文献 7

LIU X D，CHENG L，ZHANG Q Z，et al． Entry trajectory optimization for hypersonic vehicle based on time-scales separation guidance with waterweeds algorithm[C]//Proceedings of 2016 Chinese Guidance，Navigation and Control Conference(CGNCC)． Piscataway，NJ：IEEE Press，2016：209-215.

查找原文

参考文献 8

LIU X F，SHEN Z J，LU P． Closed-loop optimization of guidance gain for constrained impact[J]． Journal of Guidance，Control，and Dynamics，2017，40(2)：453-460.

查找原文

参考文献 9

张赵寰宇．基于深度强化学习的高超声速飞行器智能反拦截方法研究[D]．哈尔滨：哈尔滨工业大学，2021.

查找原文

参考文献 10

吕雅丽．基于Q学习的高超声速飞行器路径规划方法研究[D]．成都：电子科技大学，2018.

查找原文

参考文献 11

程林．高超声速飞行器实时最优闭环再入制导技术研究[D]．北京：北京航空航天大学，2017.

查找原文

参考文献 12

田若岑，张庆振，郭云鹤，等．基于禁飞区规避的高超声速飞行器再入制导律设计[J]．空天防御，2022，5(2)：65-74.

查找原文

参考文献 13

PHILLIPS T H． A common aero vehicle(CAV)model，description，and employment guide[R/OL]．(2003-01-27）[2023-12-01]． https://www.researchgate.net/publication/272494034_.

查找原文

参考文献 14

周来，靳晓伟，郑益凯．基于深度强化学习的作战辅助决策研究[J]．空天防御，2018，1(1)：31-35.

查找原文

目录contents

摘要 Abstract
关键词 Keywords
0 引言
1 再入段模型构建
1.1 再入运动学模型构建
1.2 再入过程约束模型建立
1.3 飞行器参数设置
2 深度Q网络算法分析
2.1 算法原理
2.2 MDP建模
3 仿真验证
4 结论
参考文献

摘要

针对临近空间飞行器再入段禁飞区规避制导问题，构建了临近空间飞行器再入过程横侧向制导的马尔可夫决策过程（Markov decision process，MDP）模型。基于竞争深度Q网络（dueling deep Q network，Dueling DQN），设计了横侧向制导律及满足射程需求与禁飞区规避需求的再入过程奖励函数。经仿真验证，该横侧向制导律能够通过改变倾侧角符号实现禁飞区规避，并导引飞行器到达目标区域，具备较高精度，验证了方法的有效性。

Abstract

Aiming at the problem of no-fly zone avoidance guidance in the reentry phase for near space vehicle, the Markov decision process (MDP) model of lateral guidance in the reentry process for near space vehicle was constructed. On the basis of dueling deep Q network (Dueling DQN), the lateral guidance law and the environmental reward feedback function to satisfy the range requirement and the no-fly zone avoidance requirement were designed. The simulation results show that the lateral guidance law can avoid the no-fly zone by changing the sign of roll angle, and guide the aircraft to the target area with high precision, which verifies the effectiveness of the method.

关键词

临近空间飞行器；再入轨迹规划；竞争深度Q网络

Keywords

near space vehicle ； reentry trajectory planning ； Dueling DQN

0 引言
随着科技不断发展，现代战争形势已不同于以往，飞行速度更快、反应时间更短、隐蔽性更强的临近空间飞行器有着巨大的军事、政治和经济价值^[1]。临近空间飞行器由于其独特优势，已经成为世界各国竞相追逐的技术制高点，是国家最高科技水平和工业水平的象征。
临近空间飞行器的再入轨迹规划是其设计中的关键一环^[2]。自20世纪60年代以来，各国学者对再入轨迹规划问题进行了大量的研究。YOUSSEF等^[3]提出了预测-校正制导方法，旨在解决再入初始条件存在的大范围散布问题；SHEN等^[4]基于拟平衡滑翔假设提出了一种有效满足多约束条件的三自由度再入轨迹在线生成方法，该方法具备较强的通用性和实时性；潘乐飞等^[5]采用可变容差单纯形法求解制导参数，引入惩罚函数来解决约束问题；JOSHI等^[6]提出了一种考虑路径约束的数值预测-校正制导算法，在轨迹超出阻力边界时调整倾侧角，通过迭代计算保证满足终端约束。
近些年来，伴随着凸优化理论与群体智能优化理论的兴起，越来越多的学者开始关注再入制导过程的最优性问题。LIU等^[7]成功地将凸优化理论应用于飞行器再入制导过程中，相对于传统序列二次规划（sequential quadratic programming，SQP）算法，改进算法在实时性上取得了一定突破；LIU等^[8]应用改进后的水草算法，将再入轨迹规划问题分解为多个步骤，显著提升了群体智能算法求解该问题的实时性。
自2016年以来，机器学习与深度强化学习的快速发展为再入段制导的实时性与最优性矛盾提供了新的解决方案^[9]。文献^[10]对强化学习算法与飞行器路径规划问题的结合进行了初步探索；文献^[11]采用了基于深度确定性策略梯度（deep deterministic policy gradient，DDPG）算法的纵向再入轨迹规划方案，为提升制导律实时性与精确性提供了新的思路。
本文对临近空间飞行器再入段模型进行构建，建立再入过程的马尔可夫决策过程（Markov decision process，MDP）模型，设计基于竞争深度Q网络（dueling deep Q network，Dueling DQN）的横侧向制导律，并通过仿真验证方法的有效性。
1 再入段模型构建
1.1 再入运动学模型构建
在弹道坐标系与速度坐标系下建立的再入飞行器的质心运动方程^[12]为

\{\begin{matrix} d R_{e} / d t = v s i n θ \\ d λ / d t = v c o s θ s i n ψ / (R_{e} c o s ϕ) \\ d ϕ / d t = v c o s θ c o s ψ / R_{e} \\ d v / d t = - D / m - g s i n θ \\ d θ / d t = \frac{1}{v} [\frac{L c o s σ}{m} + (\frac{v^{2}}{R_{e}} - g) c o s θ] \\ d ψ / d t = \frac{1}{v} (\frac{L s i n σ}{m c o s θ} + \frac{v^{2}}{R_{e}} c o s θ s i n ψ t a n ϕ) \\ d S_{e} / d t = v c o s θ / R_{e} \end{matrix}

(1)

式中：R_e为地心距；v为飞行器速度；θ，ψ为弹道倾角和弹道偏角；λ，φ为经度和纬度；L，D为气动升力和气动阻力；σ为倾侧角；m为飞行器质量；g为当前高度的重力加速度；S_e为射程对应于地心的角。
1.2 再入过程约束模型建立
再入过程本质上是一个复杂的飞行运动过程。在临近空间飞行器整个再入过程中，需要利用气动力与重力设计制导律，以对飞行轨迹进行控制，同时将多余的能量进行逸散，使飞行器以预定的速度到达指定位置。为了让飞行器安全平稳地完成再入飞行任务，需要给出相应的过程约束与终端约束。主要约束包括热流、动压、过载、平衡滑翔、控制及终端等^[12]。
（1）热流约束
热流约束由驻点处的热流密度 $\dot{Q}$ 来表示，其表达式为

\dot{Q} = \frac{C_{1}}{\sqrt{R_{d}}} {(\frac{ρ}{ρ_{0}})}^{0.5} {(\frac{v}{v_{c}})}^{3.15} ⩽ {\dot{Q}}_{m a x}

(2)

式中：C₁为热流系数；R_d为飞行器前缘半径；ρ为当前海拔处的大气密度；ρ₀为零海拔处的大气密度； $v_{c} = \sqrt{R_{0} g_{0}}$ 为归一化速度，其中R₀为地球半径，g₀为零海拔处的重力加速度； ${\dot{Q}}_{m a x}$ 为允许的最大热流密度。
（2）动压约束
动压q的表达式为

q = \frac{1}{2} ρ v^{2} ⩽ q_{m a x}

(3)

式中：q_max为允许的最大动压。
（3）过载约束
总过载n的表达式为

n = q \sqrt{C_{D}^{2} + C_{L}^{2}} S_{r e f} / (m g) ⩽ n_{m a x}

(4)

式中：C_L，C_D为升力系数和阻力系数；S_ref为气动面积；n_max为允许的最大总过载。
（4）平衡滑翔约束
平衡滑翔约束的表达式为

(g - \frac{v^{2}}{R_{e}}) - \frac{L}{m} c o s σ_{Q E G C} = 0

(5)

式中：σ_QEGC为平衡滑翔角。对于飞行高度为80~85km、飞行马赫数大于2的中-高升阻比飞行器，平衡滑翔约束能够成立。
（5）控制约束
控制约束由制导系统输出的倾侧角σ及倾侧角变化率 $\dot{σ}$ 来表征，应满足

\{\begin{matrix} | σ | ⩽ 90^{\circ} \\ | \dot{σ} | ⩽ {\dot{σ}}_{m a x} \end{matrix}

(6)

式中： ${\dot{σ}}_{m a x}$ 为最大倾侧角变化率。
（6）终端约束
终端约束为任务要求的终端飞行速度、高度与经纬度，其表达式为

\{\begin{matrix} v (t_{f}) = v_{f} \\ h (t_{f}) = h_{f} \\ λ (t_{f}) = λ_{f} \\ ϕ (t_{f}) = ϕ_{f} \end{matrix}

(7)

式中：t_f为终端时刻；v（·），h（·），λ（·），φ（·）分别为实际飞行过程中的速度、高度、经纬度函数；v_f，h_f，λ_f，φ_f为任务要求的终端速度、高度、经纬度。在制导律的设计中，由于横向与纵向轨迹规划过程相互独立，因而可以将式（7）中的终端经纬度约束转化为终端射程约束

\begin{matrix} S_{e} (t_{f}) = S_{g o} = \\ a r c c o s (s i n λ s i n λ_{f} + c o s λ c o s λ_{f} c o s (ϕ - ϕ_{f})) \end{matrix}

(8)

式中：S_go为剩余飞行距离。S_go为飞行器当前位置与目标点之间的最小球面圆弧距离。
（7）禁飞区约束
禁飞区是指受雷达探测、电磁干扰与拦截，以及地形、地缘政治因素等影响而形成的再入飞行器应尽量规避的区域。为了便于设计分析，将禁飞区视作无限高圆柱体，飞行器轨迹只能从其左右两侧规避，而不考虑从其上方或下方规避的情况。设λ_m，φ_m为飞行器当前经度和纬度，λ_z，φ_z为禁飞区中心所在经度和纬度，R_z为禁飞区半径，则禁飞区路径约束应满足

\sqrt{{(λ_{m} - λ_{z})}^{2} + {(ϕ_{m} - ϕ_{z})}^{2}} ⩾ R_{z} / R_{0}

(9)

1.3 飞行器参数设置
本文选取美国波音公司1998年设计的再入飞行器CAV-L为研究对象，飞行器总体参数及其最大过程约束参数如表1和表2^[13]所示。
表1 飞行器总体参数
表2 飞行器最大过程约束参数
零侧滑飞行状态下，攻角和倾侧角是制导过程中的控制量，由于调控攻角α的代价远高于调控倾侧角σ，故再入过程往往采用固定攻角剖面。设最大允许攻角α_max=20°，最大升阻比对应的最小攻角α_min=8.5°，速度节点v₁=4 700 m/s，v₂=3 100 m/s，则本文采用的攻角剖面可表示为

α = \{\begin{matrix} α_{m a x}, v ⩾ v_{1} \\ \frac{(α_{m a x} - α_{m i n}) (v - v_{2})}{v_{1} - v_{2}}, v_{2} < v < v_{1} \\ α_{m i n}, v ⩽ v_{2} \end{matrix}

(10)

2 深度Q网络算法分析
2.1 算法原理
深度Q网络（deep Q network，DQN）是一种经典的强化学习算法。强化学习的基本思想受到了人类学习过程的启发，其主要流程如图1所示。图中s_t，a_t，r_t分别为t时刻的状态、动作和奖励。
图1 强化学习流程图
强化学习的目的是智能体在随机交互环境下，根据当前状态不断序列化选择动作，最终实现累计奖励的最大化^[14]。强化学习用于处理MDP问题，此问题主要包含4个要素：
a）状态空间S为所有可能状态的集合，其中t时刻状态s_t∈S，初始状态记为s₁；
b）动作空间A为所有可能动作的集合，其中t时刻动作a_t∈A；
c）状态转移概率函数p（s_t₊₁|s_t，a_t）满足马尔可夫性（Markov property），即t+1时刻状态s_t₊₁的转移概率只与t时刻状态s_t有关，p（s_t₊₁|s_t，a_t，s_t_-1，···，s₁，a₁）=p（s_t₊₁|s_t，a_t），初始状态的概率为p（s₁）；
d）奖励函数r_t=r（s_t₊₁|s_t，a_t）表示由t时刻状态s_t通过执行动作a_t转移到t+1时刻状态s_t₊₁时所获得的奖励，该函数表征了环境对行为的反馈。
在每一步的决策中，智能体根据环境状态决定所要采取的动作，而动作输出的规律为策略（policy），t时刻的策略记为π_t。π_t（a_t|s_t）表示在状态s_t下动作a_t的选择概率。鉴于强化学习是一个序列决策算法，因此算法可以对一个动作序列进行整体评价。将一个t时刻开始的动作序列的反馈奖励累积定义为收益G_t，即

G_{t} = r_{t + 1} + r_{t + 2} + r_{t + 3} + \dots + r_{t + T}

(11)

式中：T为奖励累积的时间。
强化学习的策略决定了智能体在不同状态下的动作响应规律，策略的好坏可根据初始状态到终端状态的奖励序列进行判断。强化学习不断优化策略的过程实质是不断最大化奖励累积的过程。将一定策略下奖励累积的期望称为状态s的价值函数（value function），记为v_π（s），其表达式为

\begin{matrix} v_{π} (s) = E_{π} (G_{t} ∣ s_{t} = s) \\ = E_{π} (\sum_{k = 0}^{\infty} γ^{k} r_{t + k + 1} ∣ s_{t} = s) \end{matrix}

(12)

式中：E_π（·）为策略π下的期望函数；k为动作序列号；γ为奖励反馈的折扣系数。价值函数用于对一个特定交互场景下的策略进行评价，因此价值函数本身是与策略绑定的。一个更好的策略原则上应该对应更大的价值函数值。同理，一定状态s下动作a的价值函数q_π（s，a）可以定义为

\begin{matrix} q_{π} (s, a) = E_{π} (G_{t} ∣ s_{t} = s, a_{t} = a) \\ = E_{π} (\sum_{k = 0}^{\infty} γ^{k} r_{t + k + 1} ∣ s_{t} = s, a_{t} = a) \end{matrix}

(13)

在强化学习中，一个动作的好坏可以通过q_π（s，a）来进行评价。强化学习的目标是学到一个最好的策略来最大化初始状态期望，即

\begin{matrix} J (π^{*}) = m a x (v_{π} (s_{1})) \\ = m a x (E_{π} (G_{t} ∣ s_{t} = s_{1})) \end{matrix}

(14)

式中：J（·）为目标函数；π^*为学习到的最优策略；max（·）为最大值的取值函数。
根据状态或动作的连续性和离散性，可以将强化学习算法分为不同类型。针对再入制导轨迹横侧向规划问题，状态特性呈现为状态空间连续无限、动作空间离散有限，DQN算法更加适配该问题。传统DQN算法有诸多改进版本，例如Nature DQN，Double DQN，Prioritized Replay DQN，Dueling DQN等。本文采用的是Dueling DQN算法，该算法流程如下。
步骤1：参数初始化。初始化Dueling DQN中Q_local、Q_target的网络参数与状态。Q_local网络的主要功能是对当前状态的各个动作价值进行评价。通过设置Q_target网络参数改善单网络自举导致的行为价值过估计现象，提升训练效果。
步骤2：动作估值函数计算。在每个训练周期内，根据当前的状态s_t、动作a_t和策略π_t，可确定Q_local网络对t时刻状态下动作价值的估值函数

Q_{loc} (s_{t}, a_{t}) = {N E T}_{π} (s_{t}, a_{t})

(15)

式中：NET_π（·）为策略π下的网络函数。
步骤3：实际价值函数计算。根据当前状态及取得的最大价值动作与环境进行交互，得到奖励函数r（s_t，a_t，s_t₊₁）；根据环境反馈，得到当前状态与动作的实际价值函数Q（s_t，a_t），有

Q (s_{t}, a_{t}) = \{\begin{matrix} r (s_{t}, a_{t}, s_{t + 1}), s_{t + 1} = s_{f} \\ r (s_{t}, a_{t}, s_{t + 1}) + \\ γ m a x (Q_{t a r} (s_{t + 1}, a_{t + 1})), s_{t + 1} \neq s_{f} \end{matrix}

(16)

式中：s_f为终端状态；Q_tar（·）为Q_target网络的估值函数。Q_target网络参数通过软更新的方式实现更新，更新方程为

Q_{t a r} (s_{t}, a_{t}) \leftarrow l_{r} Q_{l o c} (s_{t}, a_{t}) + (1 - l_{r}) Q_{t a r} (s_{t}, a_{t})

(17)

式中：l_r为软更新的学习率。软更新的目的是使Q_target的网络参数逐渐向Q_local的逼近，避免了硬更新的强烈冲击。
步骤4：Q_local网络参数更新。更新网络参数需要计算损失函数L（π），其表达式为

L (π) = E ({(Q_{l o c} (s_{t}, a_{t}) - Q (s_{t}, a_{t}))}^{2} / 2)

(18)

式中：E（·）为数学期望函数。
通过反向传播（BP）算法实现网络参数更新，L（π）的梯度表达式为

\begin{matrix} \frac{\partial L (π)}{\partial π} = \\ E ((Q_{l o c} (s_{t}, a_{t}) - Q (s_{t}, a_{t})) \frac{\partial Q_{l o c} (s_{t}, a_{t})}{\partial π}) \end{matrix}

(19)

基于梯度信息的网络优化方法有AdaGrad、梯度下降（stochastic gradient descent，SGD）、Adam等，其中Adam优化器性能最佳，是最为常用的神经网络优化方法。
Dueling DQN在Double DQN基础上，对网络结构进行了改进。Dueling DQN的价值函数不再由全连接层直接获得，而是增加了子网络结构，其中一部分子网络用于拟合当前状态价值函数v_π（s_t），另一部分用于拟合优势函数A（s_t，a_t）。则改进的网络估值函数表达式为

\begin{matrix} Q_{N E T} (s_{t}, a_{t}) = \\ v_{π} (s_{t}) + (A (s_{t}, a_{t}) - \frac{1}{N (s_{t})} \sum_{a_{t} \in A} A (s_{t}, a_{t})) \end{matrix}

(20)

式中：N（s_t）为状态s_t对应的可选动作数。
通过对网络结构加以改进，可以有效提升网络的收敛速度和训练效果。
2.2 MDP建模
（1）横侧向制导MDP建模
将再入制导问题与强化学习算法相结合，首先要建立再入制导的MDP模型，即给出其状态空间、动作空间、奖励函数和状态转移概率函数。
根据建立的再入动力学模型，考虑横侧向制导需求，即实现禁飞区规避以及最小化终端射程误差，选取状态空间

S = \{h, λ, ϕ, v, S_{g o}, ψ\}

(21)

式中：h为高度。由于状态空间中变量的单位、物理意义各不相同，若直接将这些变量输入网络，容易导致网络的局部饱和与权重不协调。为解决该问题，对各变量进行归一化处理。各变量的归一化表达式为

\{\begin{matrix} \tilde{h} = [h - (h_{0} + h_{f}) / 2] / (h_{0} - h_{f}) \\ \tilde{λ} = [λ - (λ_{0} + λ_{f}) / 2] / (λ_{0} - λ_{f}) \\ \tilde{ϕ} = [ϕ - (ϕ_{0} + ϕ_{f}) / 2] / (ϕ_{0} - ϕ_{f}) \\ \tilde{v} = [v - (v_{0} + v_{f}) / 2] / (v_{0} - v_{f}) \\ {\tilde{S}}_{g o} = S_{g o} / S_{need} \\ \tilde{ψ} = ψ / 2 \end{matrix}

(22)

式中：下标0表示初始时刻状态取值；S_need为根据初始状态与终端状态约束计算出的理论射程。变量归一化后的状态空间

S = \{\tilde{h}, \tilde{λ}, \tilde{ϕ}, \tilde{v}, {\tilde{S}}_{g o}, \tilde{ψ}\}

(23)

经过上述处理，变量在各个状态下的取值会随时间均匀映射到[-1，1]区间内，成为无量纲变量。
动作所涉及的变量为倾侧角，由于横侧向制导律需要确定倾侧角方向，故动作空间

A = {s i g n (σ)} = {- 1, + 1}, σ \neq 0

(24)

式中：sign（·）为符号函数。当倾侧角σ的取值为正时，表明升力在水平面上的分量指向顺航向右侧，导致速度方向向右偏转，反之向左偏转。
再入轨迹规划过程是一个确定性过程，体现在再入动力学方程中，确定的输入对应确定的输出，故状态转移概率为1。
奖励函数的设置是整个强化学习任务的关键，类似优化问题中的目标优化，二者虽直接关联，但强化学习中奖励函数的设置更为复杂。区别于优化问题直接去优化目标，强化学习需要根据策略产生的每步决策去探索追求更大的序列奖励累积，当前决策的影响具有间接性与延迟性，其正向反馈可能来自多步之后。针对再入过程横侧向制导律的两大目标，即禁飞区规避与终端射程误差最小，在再入过程中，只有靠近禁飞区并到达终端位置时，才能获取奖励，因此奖励具备较强的稀疏性。
针对上述问题，设置再入过程奖励函数

f_{r w d} = \{\begin{matrix} ε_{r} - R_{r a n}, s_{t} = s_{f} \\ ε_{r} - R_{n f}, s_{t} \neq s_{f}, s_{t} \in Z_{n f} \\ ε_{r}, s_{t} \neq s_{f}, s_{t} \notin Z_{n f} \end{matrix}

(25)

式中：ε_r为倾侧角方向维持奖励；R_ran为射程误差奖励；R_nf为禁飞区规避奖励；Z_nf为禁飞区状态空间；s_t∈Z_nf表示当前飞行器位置靠近禁飞区，有穿过禁飞区风险。
射程误差奖励R_ran用于促使飞行器向目标靠近，其表达式为

R_{r a n} = \{\begin{matrix} \frac{S_{e r r}}{4}, S_{e r r} ⩾ 1000 \\ 100 + 150 {(\frac{S_{e r r}}{1000})}^{2}, 100 < S_{e r r} < 1000 \\ (\frac{10}{5^{\log_{20} 10}}) S_{e r r}^{\log_{20} 10}, S_{e r r} ⩽ 100 \end{matrix}

(26)

式中：S_err表示当飞行器到达终端状态时的距离目标位置的射程误差。
禁飞区规避奖励R_nf用于促使飞行器远离禁飞区域，其表达式为

R_{n f} = {[R_{z} / (d_{z} + R_{z} / 10)]}^{2} / 10

(27)

式中：d_z为飞行器到禁飞区中心的距离。
倾侧角方向维持奖励ε_r主要用于抑制飞行器倾侧角频繁翻转，其表达式为

ε_{r} = \{\begin{matrix} 0.01, & s i g n (σ_{t}) = s i g n (σ_{t - 1}) \\ - 0.10, & s i g n (σ_{t}) \neq s i g n (σ_{t - 1}) \end{matrix}

(28)

式中：σ_t为t时刻的倾侧角。
通过设置上述奖励函数，使得再入过程与终端均能获得奖励，并且通过倾侧角翻转奖励实现了再入横侧向弹道在无需规避禁飞区时的平滑。对终端奖励的设置则主要考虑训练初期终端射程误差较大的情况，使得奖励在不同阶段遵循不同规律，引导飞行器逐步从较大误差向较小误差收敛。
（2）网络参数设置
本文价值函数估计网络采用了Dueling DQN，其网络结构如图2所示。
图2 Dueling DQN的网络结构
输入层输入的是归一化后的状态空间，如式（28）所示；隐藏层有两层，用于状态特征的转化，每层节点数均为64，激活函数采用ReLU函数；输出层采用了Dueling设计，即分别拟合v_π（s_t）与A（s_t，a_t），通过混合器（MIX），实现了状态价值函数与优势函数的混合；最终输出为每个动作的价值估计。
针对再入制导轨迹规划与强化学习算法相结合过程中出现的两个问题进行分析。
一是算法的稳定性与收敛性问题。由于Dueling DQN算法中的训练数据是由Q_local网络自举产生的，所以样本具备强关联性，不满足强化学习所要求的样本独立同分布条件，这会影响算法的稳定性与收敛速度。
二是整个再入过程奖励的稀疏性问题。当飞行器穿越禁飞区时会获得较大的负向奖励；当飞行器到达目标区域后，获得的奖励需根据终端射程误差确定，射程误差越小，获得的奖励越大。在整个运动学方程积分解算过程中，其他时刻只有保留倾侧角不翻转的微小奖励，这种奖励的稀疏性降低了训练的稳定性和收敛速度。
为消除样本数据的关联性，并有效改善样本奖励的稀疏性，在Dueling DQN算法中采用了经验池（Replay Buffer）技术。Replay Buffer是一个有限长度的样本数据集，数据集中存储最新的样本数据。在算法学习过程中，Dueling DQN不是根据最新产生的样本数据，而是从Replay Buffer中随机取出一小批数据（minibatch）作为学习样本数据。鉴于DQN本身是一个异策略（off-policy）算法，因此Replay Buffer应尽可能大，以达到消除数据关联的目的。
上述机制的实现流程为：网络初始化后先与环境进行交互，把产生的一条数据{s_t，a_t，f_rwd，s_t₊₁}存入Replay Buffer中，此时不进行网络的更新；继续交互直至Replay Buffer中数据的数量达到上限N_buf，从中随机抽取出N_bch条数据，以抽取后的数据为样本开始训练；与环境交互产生的新数据以队列形式不断存入Replay Buffer中，较早存入其中的旧数据被剔除，实现Replay Buffer中数据的滚动更新。
一般而言，N_bch要远小于N_buf，故可近似认为所抽取的训练样本是独立同分布的。通过该方法可以有效降低样本的关联性，提升训练稳定性与收敛速度。通过选取合适的N_bch，可使平均梯度的计算具备较强的抗干扰能力，有效抑制扰动带来的数据奇异，并可使得梯度计算过程向量化，降低计算的资源耗费，提高训练速度。
由于通过网络构建的优化面是非凸的，沿着某一方向优化易陷入局部极值。此时经过Adam优化器的自适应调整，学习率已修正为较小值，探索率也已衰减到较小值，难以跳出可能存在的局部极值。当训练一定轮数后，应对优化器的学习率与动作选取的探索率进行重置，促使网络在优化过程中跳出局部极值。若优化收敛之处并非局部极值，衰减后的学习率和探索率也不会导引网络收敛到其他局部极值处。设第q阶段初始学习率和初始探索率为 $α_{L}^{q}$ 与ε^q，经过E_k轮训练后，重置网络与智能体的学习率和探索率。则第q+1阶段的学习率和探索率的表达式为

\{\begin{matrix} α_{L}^{q + 1} = η_{α} α_{L}^{q} \\ ε^{q + 1} = η_{ε} ε^{q} \end{matrix}

(29)

式中：η_α，η_ε为初始学习率和探索率的衰减系数。
设置网络训练过程的仿真参数：初始学习率α_L=10^-5；初始探索率ε=0.2，即训练过程中有1-ε的概率选择当前最大价值动作，而有ε的概率随机选取一个动作；探索率的衰减率η=0.999 97，每次训练完成后对探索率进行衰减，这是对强化学习的探索（exploration）与利用（exploitation）的权衡折中；η_α，η_ε分别为0.1，0.5，E_k=100；在计算网络目标状态动作对的价值时，奖励反馈的折扣系数γ=0.9；Replay Buffer的N_buf=100 000，N_bch=4 096；优化器采用Adam，可自适应调节更新步长与方向；训练数据源于飞行器在仿真环境中交互所产生的轨迹数据，仿真的时间步长为1s。
基于Dueling DQN的禁飞区规避再入制导系统结构如图3所示。纵向制导采用跨周期迭代预测校正制导律^[11]，横侧向采用基于Dueling DQN的深度强化学习制导律。
图3 基于Dueling DQN的禁飞区规避再入制导系统结构示意图
3 仿真验证
在Dueling DQN算法的网络训练过程中，连续统计了300个再入任务的训练收益，累积奖励随训练轮数的变化如图4所示。在训练过程中，累积奖励不断增加，且随着网络的不断探索与更新，在训练后期再入制导的累积奖励波动逐渐减小，这表明深度强化学习网络具备一定的
图4 训练累积奖励随训练轮数变化图
按初始经纬度不同，设置4种仿真初始条件，对图3所示的再入制导系统进行数值仿真，验证Dueling DQN算法对不同初始条件的适应能力。仿真初始条件如表3所示。
表3 仿真初始条件
在4种仿真初始条件下的终端射程误差如表4所示。其中预期射程为根据初始条件与终端条件计算得到的直线射程，而实际射程为飞行器规避禁飞区、变换倾侧角方向、改变速度水平方向后的真实射程。在4种仿真条件下，仿真结束时刻的射程误差均小于3km，可见该算法精度满足中制导转向末制导的交班要求。
表4 终端射程误差仿真结果
采用Dueling DQN算法，根据设置的4种仿真初始条件，通过大量弹道积分，与再入环境交互获取训练样本，高度-速度（HV）再入轨迹如图5所示，再入禁飞区规避轨迹如图6所示。仿真结果表明：基于Dueling DQN的横侧向制导律与基于跨周期迭代预测校正的纵向制导律相结合后，生成的再入轨迹较为平滑；在复合倾侧角约束条件下，再入轨迹均能满足终端高度约束，对于设定的禁飞区均具备规避能力。
在4种仿真条件下，倾侧角大小随速度变化的仿真曲线如图7所示，倾侧角符号随速度变化的仿真曲线如图8所示。
再入任务倾侧角的大小由纵向制导律确定。由图7可知：在4种仿真条件下，倾侧角均经历了由小变大，再逐渐变小的过程，其中初期维持较小倾侧角是为了保证再入初段满足热流约束条件，之后则为同时满足射程要求与过程约束开展设计，具体设计过程见文献^[11]。
图5 HV再入轨迹
图6 再入禁飞区规避轨迹
图7 倾侧角大小随速度变化仿真曲线
再入任务倾侧角的符号由横侧向制导律确定。由图8可知：倾侧角符号变化较为剧烈，这体现了横侧向制导律对飞行器进行航向调整，使其规避禁飞区、到达目标区域的过程。具体原因分析如下：
a）倾侧角的符号由Dueling DQN预测的动作价值确定，具备一定的不可解释性，且在建立横侧向再入的MDP模型时，存在着较多的人为干扰因素，状态空间选取与奖励函数设置有待进一步优化，尤其是奖励函数的设置极大影响了强化学习算法效果；
图8 倾侧角符号随速度变化仿真曲线
b）网络训练过程存在较大随机性，训练至较为良好状态所需时间严重依赖于超参数设置，且再入任务参数设置也会影响训练，整个训练过程有待进一步细化提升。
设置再入任务的50个随机初始位置，通过大量仿真验证Dueling DQN算法禁飞区规避能力的鲁棒性与自适应性。随机初始位置的再入轨迹如图9所示。可知，该算法能够较好地满足终端高度约束，没有违反HV走廊下界。
图9 随机初始位置的再入轨迹
不同初始位置的再入禁飞区规避轨迹如图10所示。可知，大部分情况下算法能够实现禁飞区规避与目标点到达，但在50次随机初始条件仿真中，仍然有6次出现了违反禁飞区约束的情况，并且有1次仿真任务射程误差较大。
在仿真过程中，存在违反禁飞区约束和射程误差较大等问题的原因分析如下。
图10 随机初始位置的再入禁飞区规避轨迹
再入飞行器机动能力有限。由于再入过程将倾侧角作为控制量，通过改变倾侧角的符号，从而改变升力水平分量的方向与大小来实现航向改变。该方式所能提供的侧向机动性有限，因此存在某些极端情况下无法完全绕开禁飞区的现象。
网络泛化能力有限。网络是针对经度为160°、纬度为5°的初始条件训练的，通过设置随机初始条件进行仿真，能在一定程度上验证该网络对不同初始条件的适应性。但网络不具备无限的泛化能力，不可能适用于所有情况。
奖励函数设置受主观人为因素影响。奖励函数设置是强化学习算法的核心，本文通过设置飞行器再入过程的倾侧角方向维持奖励、禁飞区规避奖励与射程误差奖励来实现对再入飞行器倾侧角符号的决策引导。如何设置更加合理的禁飞区规避奖励与射程误差奖励，以及如何合理平衡禁飞区规避奖励与射程误差奖励，有待进一步深入研究。本质上这也是多目标强化学习及多目标优化所要解决的关键问题之一。
4 结论
本文首先分析了当前再入制导问题相关模型与约束，介绍了Dueling DQN算法原理与实现过程。然后在此基础上建立了再入制导过程的MDP模型，对横侧向制导相关状态进行了归一化处理，建立了Dueling DQN的网络模型，并引入Replay Buffer机制与迭代训练机制，自适应调整学习率与探索率以增加跳出局部极值的概率。最后建立数值仿真模型，验证了纵向与横侧向制导律能够在满足过程约束条件下，导引飞行器规避禁飞区，飞向目标区域，且具备较高精度，证明了本文所提方法的有效性。
参考文献
- [1] 熊俊辉，李克勇，刘燚，等．临近空间防御技术发展态势及突防策略[J]．空天防御，2021，4(2)：82-86.
- [2] 周蓓蓓，刘珏．智能化技术在精确打击体系中的应用[J]．空天防御，2019，2(3)：77-83.
- [3] YOUSSEF H，CHOWDHRY RS，LEE H，et al． Predictor-corrector entry guidance for reusable launch vehicles[C]//AIAA Guidance，Navigation，and Control Conference and Exhibit，Montreal，Canada． Reston，VA：AIAA，2001：4043.
- [4] SHEN Z J，LU P． On-board entry trajectory planning expanded to sub-orbital flight[C]//AIAA Guidance，Navigation，and Control Conference and Exhibit，Austin． Reston，VA：AIAA，2003：5736.
- [5] 潘乐飞，李新国．可重复使用运载器预测-校正再入制导研究[J]．飞行力学，2007，25(1)：55-58.
- [6] JOSHI A，SIVAN K，AMMA S S． Predictor-corrector reentry guidance algorithm with path constraints for atmospheric entry vehicles[J]． Journal of Guidance，Control，and Dynamics，2007，30(5)：1307-1318.
- [7] LIU X D，CHENG L，ZHANG Q Z，et al． Entry trajectory optimization for hypersonic vehicle based on time-scales separation guidance with waterweeds algorithm[C]//Proceedings of 2016 Chinese Guidance，Navigation and Control Conference(CGNCC)． Piscataway，NJ：IEEE Press，2016：209-215.
- [8] LIU X F，SHEN Z J，LU P． Closed-loop optimization of guidance gain for constrained impact[J]． Journal of Guidance，Control，and Dynamics，2017，40(2)：453-460.
- [9] 张赵寰宇．基于深度强化学习的高超声速飞行器智能反拦截方法研究[D]．哈尔滨：哈尔滨工业大学，2021.
- [10] 吕雅丽．基于Q学习的高超声速飞行器路径规划方法研究[D]．成都：电子科技大学，2018.
- [11] 程林．高超声速飞行器实时最优闭环再入制导技术研究[D]．北京：北京航空航天大学，2017.
- [12] 田若岑，张庆振，郭云鹤，等．基于禁飞区规避的高超声速飞行器再入制导律设计[J]．空天防御，2022，5(2)：65-74.
- [13] PHILLIPS T H． A common aero vehicle(CAV)model，description，and employment guide[R/OL]．(2003-01-27）[2023-12-01]． https://www.researchgate.net/publication/272494034_.
- [14] 周来，靳晓伟，郑益凯．基于深度强化学习的作战辅助决策研究[J]．空天防御，2018，1(1)：31-35.

图1 强化学习流程图

图2 Dueling DQN的网络结构

图3 基于Dueling DQN的禁飞区规避再入制导系统结构示意图

图4 训练累积奖励随训练轮数变化图

图5 HV再入轨迹

图6 再入禁飞区规避轨迹

图7 倾侧角大小随速度变化仿真曲线

图8 倾侧角符号随速度变化仿真曲线

图9 随机初始位置的再入轨迹

图10 随机初始位置的再入禁飞区规避轨迹

表1 飞行器总体参数

表2 飞行器最大过程约束参数

表3 仿真初始条件

表4 终端射程误差仿真结果

图表 1/1

基本信息

中图分类号: V448.235
文献标识码: A
DOI: 10.3969/j.issn.1671-0576.2024.02.001
文章编号: 1671-0576(2024)02-0001-10

稿件历史

收稿日期: 2023-12-11

参考文献

[1] 熊俊辉，李克勇，刘燚，等．临近空间防御技术发展态势及突防策略[J]．空天防御，2021，4(2)：82-86.
[2] 周蓓蓓，刘珏．智能化技术在精确打击体系中的应用[J]．空天防御，2019，2(3)：77-83.
[3] YOUSSEF H，CHOWDHRY RS，LEE H，et al． Predictor-corrector entry guidance for reusable launch vehicles[C]//AIAA Guidance，Navigation，and Control Conference and Exhibit，Montreal，Canada． Reston，VA：AIAA，2001：4043.
[4] SHEN Z J，LU P． On-board entry trajectory planning expanded to sub-orbital flight[C]//AIAA Guidance，Navigation，and Control Conference and Exhibit，Austin． Reston，VA：AIAA，2003：5736.
[5] 潘乐飞，李新国．可重复使用运载器预测-校正再入制导研究[J]．飞行力学，2007，25(1)：55-58.
[6] JOSHI A，SIVAN K，AMMA S S． Predictor-corrector reentry guidance algorithm with path constraints for atmospheric entry vehicles[J]． Journal of Guidance，Control，and Dynamics，2007，30(5)：1307-1318.
[7] LIU X D，CHENG L，ZHANG Q Z，et al． Entry trajectory optimization for hypersonic vehicle based on time-scales separation guidance with waterweeds algorithm[C]//Proceedings of 2016 Chinese Guidance，Navigation and Control Conference(CGNCC)． Piscataway，NJ：IEEE Press，2016：209-215.
[8] LIU X F，SHEN Z J，LU P． Closed-loop optimization of guidance gain for constrained impact[J]． Journal of Guidance，Control，and Dynamics，2017，40(2)：453-460.
[9] 张赵寰宇．基于深度强化学习的高超声速飞行器智能反拦截方法研究[D]．哈尔滨：哈尔滨工业大学，2021.
[10] 吕雅丽．基于Q学习的高超声速飞行器路径规划方法研究[D]．成都：电子科技大学，2018.
[11] 程林．高超声速飞行器实时最优闭环再入制导技术研究[D]．北京：北京航空航天大学，2017.
[12] 田若岑，张庆振，郭云鹤，等．基于禁飞区规避的高超声速飞行器再入制导律设计[J]．空天防御，2022，5(2)：65-74.
[13] PHILLIPS T H． A common aero vehicle(CAV)model，description，and employment guide[R/OL]．(2003-01-27）[2023-12-01]． https://www.researchgate.net/publication/272494034_.
[14] 周来，靳晓伟，郑益凯．基于深度强化学习的作战辅助决策研究[J]．空天防御，2018，1(1)：31-35.

分享给微信好友或者朋友圈

使用微信“扫一扫”功能。

基于Dueling DQN的临近空间飞行器再入轨迹规划

Near Space Vehicle Reentry Trajectory Planning Based on Dueling DQN

摘要

Abstract

关键词

Keywords

0 引言

1 再入段模型构建

1.1 再入运动学模型构建

(1)

1.2 再入过程约束模型建立

(2)

(3)

(4)

(5)

(6)

(7)

(8)

(9)

1.3 飞行器参数设置

(10)

2 深度Q网络算法分析

2.1 算法原理

(11)

(12)

(13)

(14)

(15)

(16)

(17)

(18)

(19)

(20)

2.2 MDP建模

(21)

(22)

(23)

(24)

(25)

(26)

(27)

(28)

(29)

3 仿真验证

4 结论

参考文献

基本信息

稿件历史

参考文献

您是本站第 访问者

您是本站第访问者