摘要
针对目标样本标签数据稀缺的条件下合成孔径雷达(synthetic aperture radar,SAR)图像与光学图像的融合检测问题,提出一种基于视觉转换器(vision transformer,ViT)的域自适应(domain adaptation,DA)SAR图像多源融合目标检测算法。首先通过基于对比学习的非配对图像到图像转换(contrastive learning for unpaired image-to-image translation,CUT)交叉生成SAR和光学的伪图像,构建了SAR-光学数据集;然后选择半监督域自适应YOLO(semi-supervised domain adaptive YOLO,SSDA-YOLO)模型作为目标检测基线模型,设计了基于单头自注意力机制(single-head self-attention,SHSA)的特征提取模块和特征聚合-扩散金字塔网络(focusing-diffusion pyramid network,FDPN)对基线模型进行改进,提高了模型的检测能力;最后基于改进后的目标检测模型对构建的SAR-光学数据集进行了消融实验,并对实验结果进行了分析,验证了所提算法的有效性。实验结果表明:所提算法在增加少量参数量的前提下,相较于基线模型实现了检测性能的提升。所提算法在多源融合领域具有广泛的应用前景。
Abstract
To address the challenge of synthetic aperture radar (SAR)-optical image fusion detection under scarce labeled target samples, a vision transformer (ViT)-based domain adaptive (DA) multi-source fusion target detection algorithm for SAR images was proposed. Firstly, the contrastive learning for unpaired image-to-image translation (CUT) was employed to cross-generate pseudo SAR and optical images,constructing a SAR-optical dataset. Then, the semi-supervised domain adaptive YOLO (SSDA-YOLO) model was selected as the baseline object detection model.A feature extraction module based on single-head self-attention (SHSA) and a feature focusing-diffusion pyramid network (FDPN) was designed to improve the baseline model,and its detection capability was effectively enhanced.Finally,ablation experiments were conducted on the constructed SAR-optical dataset with the improved target detection model, and the experimental results were analyzed to validate the effectiveness of the proposed algorithm.The experimental results demonstrate that the proposed algorithm achieves improved detection performance compared to the baseline model while introducing only minimal additional parameters.The proposed algorithm demonstrates broad application prospects in the field of multi-source fusion.
0 引言
合成孔径雷达(synthetic aperture radar,SAR)采用相干成像机制,具有全天时、全天候等优势[1]。近年来,基于计算机视觉的SAR图像目标检测已成为一个重要研究方向,在海上安全监控、海洋开发、海上运输管理等国防和民用领域得到了广泛应用[2]。SAR成像具备全天时工作、穿透云雾能力强等优点,但其图像存在噪声多、解译难等缺点;光学成像虽然能提供更清晰的光谱信息和更丰富的纹理信息,但易受云雾及光线干扰。因此,将SAR图像与光学图像进行有效融合,可实现两种图像信息互补,从而为提高目标检测性能提供更多可能[3]。
目前,传统图像融合方法依赖于简单的特征拼接或特征相加,由于局部特征交互作用有限,容易导致图像错位[4]。近年来,多源数据融合方法有了很大的发展,其融合策略主要分为以下3类:数据级融合、特征级融合和决策级融合[5]。然而,目前公开的SAR与光学多模态目标检测数据集仍较少,因此在标注样本不足的条件下实现两者的有效融合相当关键。
针对SAR图像数据集较少且标注数据不足的问题,本文引入域自适应(domain adaptation,DA)方法,在相似的图像场景中实现从标注数据较多的源域到标注数据较少的目标域迁移[6]。在现有遥感图像数据集中,光学图像的数据量通常远大于SAR图像的,因此可以将具有大量标注数据的光学图像作为源域,将SAR图像作为目标域。然而,在从光学图像源域向SAR图像目标域迁移的过程中,由于两者在成像方式、图像特征等多方面均存在差异,如果只是简单地将包含光学图像的源域数据迁移到包含SAR图像的目标域,则可能会造成目标域检测性能的显著下降。
为提高多源融合方法的目标检测性能,本文提出一种基于视觉转换器(vision transformer,ViT)的域自适应SAR图像多源融合目标检测算法。首先采用基于对比学习的非配对图像到图像转换(contrastive learning for unpaired image-to-image translation,CUT)[7]模型交叉生成SAR和光学的伪图像,来构建SAR-光学多源融合数据集,以解决光学数据集和SAR数据集的领域差异问题;然后选取半监督域自适应YOLO(semi-supervised domain adaptive YOLO,SSDA-YOLO)[8]模型作为目标检测基线模型,并采用基于单头自注意力机制(single-head self-attention,SHSA)的特征提取模块和特征聚合-扩散金字塔网络(focusing-diffusion pyramid network,FDPN)对基线模型进行优化;最后利用构建的SAR-光学多源融合数据集,通过实验验证所提算法的有效性。
1 相关工作
1.1 图像转换算法
目前主流的图像转换算法均基于生成对抗网络(generative adversarial network,GAN)来实现目标域与源域之间的相互转换。相较于主流的图像转换模型,CUT模型将对比学习应用到图像转换中,实现更加简洁高效。主流图像转换模型均基于对抗性损失来强化目标域的外观特征,并基于循环一致性约束来保持源域输入的结构信息,这就要求输入的目标域与源域之间有严格的双射映射关系,而这一要求相对来说过于严苛,在实际应用中很难满足[7]。CUT是一种结构简洁的图像转换模型,其核心是采用了多层次图像块对比损失函数。该模型只需要训练单一的生成器和判别器,即可最大化输入/输出图像块间的互信息。CUT模型的优势[7]在于:一是无需图像配对即可实现单向映射;二是省去了逆向映射所需的辅助生成器和判别器,大大简化了模型训练过程,缩短了其训练时间。
1.2 半监督域自适应方法SSDA-YOLO
SSDA-YOLO是一种新型半监督域自适应跨域目标检测方法。该方法将主流的一阶段目标检测模型YOLOv5与域自适应技术相结合,利用图像转换算法交叉生成不同域的伪图像,来减小源域与目标域间的信息差异。SSDA-YOLO采用知识蒸馏结构,集成了目前比较流行的平均教师(mean teacher,MT)模型,在源域数据集上进行监督学习,同时在目标域数据集上进行无监督学习[8]。为缩小源域与目标域间的图像差异,SSDA-YOLO采用生成交叉伪图像的方法来解决不同域之间图像信息的偏移问题,并通过MT模型来获取目标域的特征信息,指导学生模型(student model,SM)进行训练。
1.3 单头视觉转换器
目前大多数视觉转换器模型都采用了多头自注意力机制(multi-head self-attention,MHSA)。MHSA在为模型带来更高的泛化性和更强的鲁棒性的同时,也大幅增加了模型的计算冗余。文献[9]基于内存高效原则设计了一种单头视觉转换器(single-head vision transformer,SHViT),该转换器采用了可节省内存的单头自注意力机制(single-head self-attention,SHSA),仅对输入通道的子集使用自注意力机制,而其他通道保持不变,从而消除多头自注意力机制带来的计算冗余,并大大降低了内存访问成本。SHSA采取了预卷积部分通道法,通过在单一的令牌混合器内并行利用两种互补特征,解决了多头自注意力机制在处理每一层通道时存在冗余的问题。
2 算法原理
2.1 整体网络结构
本文采用的多源融合目标检测模型是一个标准的平均教师模型,即教师模型与学生模型共用同一个模型网络。在检测时,只需使用学生模型训练得到的最优权重进行检测。因此,本文将忽略教师模型和学生模型在训练时的区别,重点介绍模型网络部分。基于ViT的多源融合目标检测模型网络总体结构如图1所示。
图1基于ViT的多源图像目标检测模型网络总体结构
在图1中,目标检测模型选取YOLOv5s作为基线模型,其Backbone网络直接采用YOLOv5s的主干网络。
Backbone网络包含Input模块、Conv模块、C3模块和SPPF(spatial pyramid pooling-fast)模块。Input模块将输入图像缩放到统一的网络输入尺寸;Conv模块是Backbone网络的基础模块,对输入特征图进行卷积和批标准化处理以提取图像特征;C3模块是Backbone网络的核心模块,用于增强模型的特征提取能力;SPPF模块利用池化层对多尺度特征进行融合。
在Neck网络中,用于特征提取的C3SHSA模块将最新的单头自注意力机制引入C3模块中,以增强模型的表达能力。用于特征聚合的FDPN模块通过引入特征聚合-扩散金字塔网络来改进模型的检测性能。
在Head网络中,3个Head模块也直接采用YOLOv5s中的检测头,用于生成多个预测框,并通过Output模块最终实现端到端的目标检测。
该目标检测模型的检测流程为:首先输入图像经缩放归一化处理,再通过Backbone网络提取特征;然后经Neck网络融合不同尺度的特征信息;最后输入检测头生成多个预测框,通过非极大值抑制去除重复预测框后输出检测结果,实现端到端的目标检测。
2.2 C3SHSA模块
在节省内存开销的前提下,为加强特征提取的长距离依赖关系,在Neck网络中采用C3SHSA模块进行特征提取。C3SHSA模块在YOLOv5s原有C3模块基础上,引入单头自注意力机制来动态调整不同特征的权重,使模型关注更重要的特征区域,从而提高模型的表达能力。C3SHSA模块的结构如图2所示。
图2C3SHSA模块结构图
在图2中,CBS模块由二维卷积层(Conv2d)、批量归一化层(BN)和SiLU激活函数组成,主要用于局部特征提取和网络优化;n级SHSA模块负责增强模型的特征表达能力,同时通过残差连接保持信息流流畅,以提高模型的训练效率和性能;最终通过Concat模块进行特征图的通道拼接和整合。
SHSA模块的具体结构如图3所示,设输入特征图X的特征维度为C×H×W,其中C,H,W分别为其通道数、高度与宽度。Input模块将输入图像缩放到统一的网络输入尺寸后,将C个通道按比例r(0<r<1)分为(1-r)C和rC两部分。自注意力机制仅在rC个通道中应用,进行空间特征聚合,其余(1-r)C个通道则保持不变,然后将由rC个通道计算得到的注意力权重应用到所有的通道上[9]。
图3SHSA模块结构图
LayerNorm模块对维度为rC×H×W的特征图进行归一化处理。以通道维为例,对第c个通道中坐标为(h,w)的像素特征值xc,h,w进行归一化处理,其归一化特征值的计算公式为
(1)
式中:μh,w,分别为该像素在通道维上的均值与方差;ε为小常数,防止出现除以零的异常。
归一化处理后的通道特征通过3个不同的1×1卷积模块,通过可学习的查询投影矩阵WQ、键投影矩阵WK、值投影矩阵WV,将输入特征图X分别投影到查询空间、键空间和值空间,生成查询矩阵Q、键矩阵K、值矩阵V,即
(2)
然后使用经典的自注意力机制进行处理。Q,K,V经过Self-Attention模块后,对输入特征进行加权聚合。其表达式为
(3)
式中:Attention(·)为自注意力函数;Softmax(·)为归一化指数函数;d为键矩阵K的列数,作为尺度因子以提升训练的稳健性;T为矩阵转置运算符。
通过Concat模块对C个通道的特征图进行拼接和整合,再经前馈神经网络(feed forward network,FFN)模块处理后输出。FFN模块由两个二维卷积层和一个SiLU激活函数组成,负责进一步处理提取的特征,并通过残差连接使信息流保持流畅,以提高模型的训练效率和性能。
用C3SHSA模块代替C3模块进行特征提取,可以在节省内存的同时,使模型能够自动关注输入特征图中的关键区域,并通过加强长距离依赖关系来增强模型的特征表达能力,从而提高特征表示的丰富性。
2.3 特征聚合-扩散金字塔网络
为了更好地融合Neck网络中的多尺度特征信息,设计了一种特征聚合-扩散金字塔网络来建立长距离的依赖关系,以此提升模型检测性能。该网络先对输入的特征图进行多尺度处理与特征聚合,增强上下文信息的表征能力;再通过扩散网络机制建立更强的全程长距离依赖关系,以此提升模型检测性能。特征聚合模块(focus feature block,FFB)结构如图4所示。
FFB可分为多尺度处理以及特征聚合两部分。
首先,进行多尺度处理。不同尺度的输入特征图分别经过3个不同的特征提取模块后再进行聚合。Conv1模块为多尺度处理的卷积模块,维度为2C×H/2×W/2的特征图经Conv1模块处理后,通过一次上采样(Upsample)操作及一次卷积(Conv)操作,可以在进行尺度变换的同时充分提取特征信息。维度为C×H×W的特征图直接通过Conv模块完成特征提取。下采样(ADown)模块先对维度为C/2×2H×2W的输入特征图进行一次平均池化(AvgPool)操作,再分两路分别对平均池化后的特征张量进行处理。平均池化后的特征图一部分通过3×3卷积和1×1卷积进行特征提取,另一部分通过最大池化(MaxPool)处理后,通过1×1卷积进行特征提取。两路处理结果通过Concat模块进行特征拼接。进行多尺度处理后,得到了3个形状相同但特征不同的特征图。
图4FFB结构图
然后,执行特征聚合操作。为了充分融合3个含有丰富上下文信息的特征图,首先通过Concat模块进行图像拼接,然后采用并行深度可分离卷积组(depthwise separable convolution,DSConv)[10]通过不同的感受野来捕捉不同层次的特征信息:深度卷积(depthwise convolution,DWConv)用于空间特征提取,而逐点卷积(pointwise convolution,PWConv)用于通道特征融合,二者协同以增强不同尺度特征图上下文关系的获取。
最终,特征聚合模块对不同尺度的特征图进行拼接,使输出特征图融合多层级信息。经过加权融合的语义特征与细节特征形成互补,确保模型能够获得兼具全局表征能力和局部精度的综合特征信息。
为增强模型的长距离依赖关系,基于扩散金字塔架构设计了特征扩散机制,通过跨层级特征传播将聚合后的多尺度特征信息更好地分配到不同检测层。特征聚合-扩散金字塔网络模型结构如图5所示,图中的P3,P4,P5分别是Backbone网络提取的不同尺度的特征张量。通过Neck网络的扩散机制,实现了跨层级的特征信息交互和不同尺度特征图上下文信息的传递。该机制通过整合不同层级的特征信息,有效增强了网络的特征融合能力。在特征聚合-扩散金字塔网络的信息传播过程中,C3SHSA模块增强了特征提取能力,而FFB模块保持了多尺度特征表征,实现了跨层级的特征融合和多尺度的上下文信息传递。
图5特征聚合-扩散金字塔网络模型结构
3 实验验证
3.1 评价指标
选取精确率(precision)、召回率(recalall)和平均精度(mean average precision,mAP)作为多源融合目标检测算法性能的评估指标。精确率P和召回率R的计算公式为
(4)
式中:NTP为真正例(TP)的数量,即实际为正样本且被预测为正样本的数量;NFP为假正例(FP)的数量,即实际为负样本但被预测为正样本的数量;NFN为假负例(FN)的数量,即实际为正样本但被预测为负样本的数量。
只有当检测框与真实标注框的交并比(inter-section over union,IoU)大于预设阈值时,该检测结果才被视为真正例。因此,通过设置不同的IoU阈值可绘制出精确率-召回率(precision-recall,PR)曲线,其函数用P(R)表示。该曲线下的面积即为平均精确率(average precision,AP),所有目标类别的平均精确率的平均值称为平均精度。平均精度的表达式为
(5)
其中
(6)
式中:N为目标类别数;,Pi(R)分别为第i个类别目标的平均精确率和PR函数。F1数为精确率P和召回率R的加权平均,其计算公式为
(7)
3.2 构建数据集
为了验证所提算法的有效性,选取舰船遥感数据集HRSID[11]作为目标域数据集。按官方划分标准,将数据集分为训练集和测试集,分别包含3 642,1 962张图像,并通过CUT模型将其映射为对应的伪光学图像。为了提高训练的精度,同样选取DIOR[12]、DOTA[13]以及LEVIR[14]作为源域数据集。DIOR[12]作为光学遥感图像目标检测的基准数据集,包含舰船在内的20个目标类别,共计23 463张遥感图像;DOTA[13]是用于航空图像目标检测的数据集,包含舰船在内的15个目标类别,共计2 806张遥感图像;LEVIR[14]基于高分辨率谷歌地图构建,包含舰船在内的3个目标类别,其图像分辨率为600×800像素。由于HRSID数据集中只包含舰船这一类目标,因此本文将源域数据集中不包含舰船的图像以及其他类别的标签都删除,并按8∶2的比例进行训练集和测试集划分,分别包含13 501,3 376张图像。源域数据集目标标签中心点位置及尺寸分布图如图6所示。可以看出,除一小部分尺寸较小的舰船目标外,其余目标的尺寸和中心点位置在整幅图像中分布较分散,目标检测具有一定难度。
3.3 处理性能对比实验及消融实验
为保证实验的可靠性和可重复性,所有实验都在统一的软硬件环境下完成:硬件采用Intel Xeon Gold 6226R处理器和NVIDIA GeForce RTX 4080显卡(16 GB);软件环境为Ubuntu18.04.6操作系统、Python 3.8.19、CUDA 11.8。设置实验参数:训练轮数(epoch)为300,采用Adam优化器,初始学习率为0.01,动量参数为0.973;目标检测评估指标采用mAP@0.5(IoU阈值为0.5)。在建立的SAR-光学数据集上验证所提算法的有效性。不同模型处理的性能对比实验结果如表1所示。
图6源域数据集目标标签中心点位置及尺寸分布图
表1不同模型处理的性能对比实验结果
由表1可知,在仅增加了105参数量的基础上,最终模型性能显著提升,其中mAP从64.8%提高至66.1%,F1分数从66.0%提高至67.0%。这表明,最终模型通过增加少量参数量,即可有效提升检测准确度。
消融实验的精确率-召回率曲线如图7所示。图7(a)为基线模型YOLOv5s的PR曲线,对应的mAP为64.8%;图7(b)为基线模型增加C3SHSA模块的PR曲线,mAP提升至65.4%,验证了C3SHSA模块的有效性;图7(c)为基线模型增加C3SHSA和FDPN两个模块的PR曲线,mAP进一步提升至66.1%。实验结果验证了所提算法的有效性。
图7消融实验的精确率-召回率曲线
4 结论
本文提出了一种基于ViT的域自适应SAR图像多源融合目标检测算法。该算法利用特征提取模块以及特征聚合-扩散金字塔网络提高了模型检测能力。基于自建SAR-光学舰船目标检测数据集验证了所提算法的有效性。本文所提算法在增加少量参数量的情况下,相较于基线模型实现了检测性能的提升。开发更先进的图像转化算法以进一步减少光学和SAR图像间的差异以及优化半监督学习的性能等值得后续进一步开展研究。