基于多尺度 3D 空洞卷积 Swin Transformer 的高光谱图像分类
原文:《Swin transformer with multiscale 3D atrous convolution for hyperspectral image classification》
摘要
高光谱图像(HSI)分类因其多样化的实际应用而引起了研究人员的极大兴趣。卷积神经网络 (CNN) 已广泛用于 HSI 分类。然而,基于 CNN 的方法的有效性受到卷积核的固定大小和结构以及它们无法捕获全局特征的限制。此外,这些网络不足以对数据的顺序特征进行建模。最近,出现了一种有前途的方法,即基于窗口的多头自注意力,以解决 CNN 的局限性并结合高效的序列建模功能。本文介绍了一种新颖的方法,即带有轻量级 Swin Transformer 的多尺度 3D 空洞卷积 (MACLST),该方法有效地结合了两个网络的优势,以捕获 HSI 分类中不同尺度的局部和全局特征。MACLST 旨在处理 HSI 立方体作为输入,并采用基于多尺度 3D 空洞卷积的光谱空间特征提取模块。该模块涉及具有不同空洞率的 3D 层的并行分支,从而能够在多个尺度和分辨率下提取特征。提取的光谱空间特征被融合并作为线性嵌入传递到轻量级 Swin Transformer 模块。该模块捕获远程依赖关系并学习 HSI 的有效特征表示。为了降低计算复杂度,Swin Transformer 模块经过简化,仅包含两级,提供了原始 Swin Transformer 的更高效版本。所提出的 MACLST 模型在五个广泛使用的基准 HSI 数据集上进行了广泛评估,实验结果验证了其优于最先进的方法,在Indian Pines,Pavia University,Salinas Valley,Houston University 2013和Houston University 2018数据集上的总体准确率分别为99.00%,99.59%,99.95%,98.71%和94.98%。
本文思路
- 之前的方法主要侧重于表示光谱信息,而忽略了多尺度上下文信息在捕获 HSI 光谱空间特征中的潜在利用。可以观察到,同一类型的物体的光谱特性可能存在差异,而不同类型的物体则可能表现出相似的光谱特性。因此,仅依靠光谱特征不足以进行准确的 HSI 分类。空间特征捕获有关像素的空间排列和上下文的信息,在分类过程中也发挥着至关重要的作用。通过同时考虑光谱和空间特征,HSI分类模型可以更好地区分不同类别,提高分类结果。
- 虽然基于 CNN 的技术已成功提取空间和光谱特征,但它们也有一定的局限性。这些限制之一是它们难以捕获顺序属性,特别是中长期光谱依赖性。此外,它们提取短程特征的有效性受到固定大小的感受野的阻碍,这可能无法充分捕获数据中的细粒度细节和局部变化。
文献表明,CNN 擅长提取局部光谱空间信息,但由于其固定的感受野大小,难以捕获远程光谱空间特征。另一方面,Transformer 已经显示出一种非凡的能力,可以理解远程特征之间的相互关系。集成 CNN 和 Transformer 用于 HSI 分类的有效性在很大程度上尚未得到探索。因此,在 HSI 分类的背景下结合这两种架构,通过结合短程和长程依赖关系,有可能增强光谱空间特征学习。
本文贡献
本文提出了一种新颖的方法,称为带有轻量级 Swin Transformer 的多尺度 3D 空洞卷积 (MACLST) ,该方法结合了两种最先进的技术:多尺度 3D 空洞卷积 (MAC) 和轻量级 Swin (LSwin) Transformer。目的是有效地学习 HSI 的判别性光谱空间信息。在第一个模块中,MACLST 采用具有不同空洞率的空洞卷积层的三个并行分支; 这种并行设计使模型能够学习多个尺度的特征并有效地提取丰富的光谱和空间信息。多尺度3D空洞卷积可以有效地计算密集特征图,在不显著增加参数和计算成本的情况下,使网络具有更大的感受野。这对于处理诸如 HSI 之类的高维数据尤其有利。在第二个模块中,LSwin Transformer 旨在学习特征序列之间的关系,使模型能够提取 HSI 的局部和全局特征。LSwin Transformer 采用基于窗口的多头自注意力(W-MSA)机制,有效权衡图像中不同区域的重要性并捕获远程依赖关系。LSwin Transformer 的分层性质通过允许跨窗口连接带来更高的效率,并表现出相对于图像大小的线性计算复杂性,确保高效处理。 特别是,与原来的四级 Swin Transformer 相比,所提出的 LSwinTransformer 模块被简化为仅包括两级。Stage 数量的减少可以使模型尺寸更紧凑,训练和推理时间更快,并在不影响性能的情况下减少内存和计算需求。通过集成 MAC 和 LSwin Transformer 的优势,所提出的 MACLST 模型在提取局部和全局特征方面都表现出色,从而有可能提高HSI分类的性能。本研究的主要贡献可以概括如下:
- 本研究引入了一种新的 HSI 分类方法,它集成了两种前言技术:多尺度 3D 空洞卷积和轻量级 Swin Transformer。
- MAC 模块利用并行 3D 空洞卷积,在光谱和空间维度上应用不同的空洞率,通过显着扩大网络的感受野而不影响重要的分辨率信息,在捕获包含高判别能力的鲁棒光谱和空间特征方面发挥着关键作用 。
- LSwin Transformer 模块在不影响精度的情况下显著降低了计算复杂度。它学习特征序列之间的关系,使网络能够对远程依赖性进行建模并提取强大的局部和全局特征表示。
- 通过在五个基准数据集上进行的实验,证明了所提出的 MACLST 模型相对于 HSI 分类中最先进的 (SOTA) 方法的有效性和优越性。
本文方法
本节介绍了 MACLST 的详细结构。用于 HSI 分类的 MACLST
框架的总体架构如图1所示。该框架由 MAC、LSwin
变压器和分类三个模块组成。这些模块的详细信息将在后面的章节中介绍。

总览
HSI 数据表示为
多尺度 3D 空洞卷积
在标准卷积网络中,重复应用卷积、最大池化和跨多个层的跨步会导致所得特征图的空间分辨率显着降低。这种现象称为稀疏特征提取,是由于这些操作的性质而产生的。作为部分补救措施,使用反卷积层,这需要额外的内存和时间。此外,标准卷积的感受野大小有限,网格大小固定,存在过拟合的风险。因此,网络可能无法捕获输入图像中足够的上下文,并且可能不适合对不同尺度的对象进行分类。由于参数数量较多,当训练数据集较小时,也可能出现过拟合的情况。在高分辨率高光谱遥感图像分类任务中,标准卷积网络的这种局限性导致空间信息的显著丢失,忽略了相邻区域的空间相似性。然而,空洞卷积通过引入空洞率
空洞率参数
标准的 2D 卷积运算如图2(a)所示,而图2(b)表示 2D
空洞卷积运算。图2(c)显示了 3D 空洞卷积运算,最后,图2(d)示出了多尺度 3D
空洞卷积运算。通过空洞卷积,我们可以有效地计算密集卷积特征图并根据需要扩大滤波器的视野。在现代卷积网络中,通常使用小型空间卷积核,例如
其中 ReLU 表示激活函数,第
其中,特定的特征图由