基于多尺度 3D 空洞卷积 Swin Transformer 的高光谱图像分类

发表于 2023-11-22 更新于 2024-02-06 分类于论文笔记阅读次数：本文字数： 4.3k 阅读时长 ≈ 14 分钟

原文：《Swin transformer with multiscale 3D atrous convolution for hyperspectral image classification》

摘要

高光谱图像（HSI）分类因其多样化的实际应用而引起了研究人员的极大兴趣。卷积神经网络 (CNN) 已广泛用于 HSI 分类。然而，基于 CNN 的方法的有效性受到卷积核的固定大小和结构以及它们无法捕获全局特征的限制。此外，这些网络不足以对数据的顺序特征进行建模。最近，出现了一种有前途的方法，即基于窗口的多头自注意力，以解决 CNN 的局限性并结合高效的序列建模功能。本文介绍了一种新颖的方法，即带有轻量级 Swin Transformer 的多尺度 3D 空洞卷积 (MACLST)，该方法有效地结合了两个网络的优势，以捕获 HSI 分类中不同尺度的局部和全局特征。MACLST 旨在处理 HSI 立方体作为输入，并采用基于多尺度 3D 空洞卷积的光谱空间特征提取模块。该模块涉及具有不同空洞率的 3D 层的并行分支，从而能够在多个尺度和分辨率下提取特征。提取的光谱空间特征被融合并作为线性嵌入传递到轻量级 Swin Transformer 模块。该模块捕获远程依赖关系并学习 HSI 的有效特征表示。为了降低计算复杂度，Swin Transformer 模块经过简化，仅包含两级，提供了原始 Swin Transformer 的更高效版本。所提出的 MACLST 模型在五个广泛使用的基准 HSI 数据集上进行了广泛评估，实验结果验证了其优于最先进的方法，在Indian Pines，Pavia University，Salinas Valley，Houston University 2013和Houston University 2018数据集上的总体准确率分别为99.00%，99.59%，99.95%，98.71%和94.98%。

本文思路

之前的方法主要侧重于表示光谱信息，而忽略了多尺度上下文信息在捕获 HSI 光谱空间特征中的潜在利用。可以观察到，同一类型的物体的光谱特性可能存在差异，而不同类型的物体则可能表现出相似的光谱特性。因此，仅依靠光谱特征不足以进行准确的 HSI 分类。空间特征捕获有关像素的空间排列和上下文的信息，在分类过程中也发挥着至关重要的作用。通过同时考虑光谱和空间特征，HSI分类模型可以更好地区分不同类别，提高分类结果。
虽然基于 CNN 的技术已成功提取空间和光谱特征，但它们也有一定的局限性。这些限制之一是它们难以捕获顺序属性，特别是中长期光谱依赖性。此外，它们提取短程特征的有效性受到固定大小的感受野的阻碍，这可能无法充分捕获数据中的细粒度细节和局部变化。

文献表明，CNN 擅长提取局部光谱空间信息，但由于其固定的感受野大小，难以捕获远程光谱空间特征。另一方面，Transformer 已经显示出一种非凡的能力，可以理解远程特征之间的相互关系。集成 CNN 和 Transformer 用于 HSI 分类的有效性在很大程度上尚未得到探索。因此，在 HSI 分类的背景下结合这两种架构，通过结合短程和长程依赖关系，有可能增强光谱空间特征学习。

本文贡献

本文提出了一种新颖的方法，称为带有轻量级 Swin Transformer 的多尺度 3D 空洞卷积 (MACLST) ，该方法结合了两种最先进的技术：多尺度 3D 空洞卷积 (MAC) 和轻量级 Swin (LSwin) Transformer。目的是有效地学习 HSI 的判别性光谱空间信息。在第一个模块中，MACLST 采用具有不同空洞率的空洞卷积层的三个并行分支；这种并行设计使模型能够学习多个尺度的特征并有效地提取丰富的光谱和空间信息。多尺度3D空洞卷积可以有效地计算密集特征图，在不显著增加参数和计算成本的情况下，使网络具有更大的感受野。这对于处理诸如 HSI 之类的高维数据尤其有利。在第二个模块中，LSwin Transformer 旨在学习特征序列之间的关系，使模型能够提取 HSI 的局部和全局特征。LSwin Transformer 采用基于窗口的多头自注意力（W-MSA）机制，有效权衡图像中不同区域的重要性并捕获远程依赖关系。LSwin Transformer 的分层性质通过允许跨窗口连接带来更高的效率，并表现出相对于图像大小的线性计算复杂性，确保高效处理。特别是，与原来的四级 Swin Transformer 相比，所提出的 LSwinTransformer 模块被简化为仅包括两级。Stage 数量的减少可以使模型尺寸更紧凑，训练和推理时间更快，并在不影响性能的情况下减少内存和计算需求。通过集成 MAC 和 LSwin Transformer 的优势，所提出的 MACLST 模型在提取局部和全局特征方面都表现出色，从而有可能提高HSI分类的性能。本研究的主要贡献可以概括如下：

本研究引入了一种新的 HSI 分类方法，它集成了两种前言技术：多尺度 3D 空洞卷积和轻量级 Swin Transformer。
MAC 模块利用并行 3D 空洞卷积，在光谱和空间维度上应用不同的空洞率，通过显着扩大网络的感受野而不影响重要的分辨率信息，在捕获包含高判别能力的鲁棒光谱和空间特征方面发挥着关键作用。
LSwin Transformer 模块在不影响精度的情况下显著降低了计算复杂度。它学习特征序列之间的关系，使网络能够对远程依赖性进行建模并提取强大的局部和全局特征表示。
通过在五个基准数据集上进行的实验，证明了所提出的 MACLST 模型相对于 HSI 分类中最先进的 (SOTA) 方法的有效性和优越性。

本文方法

本节介绍了 MACLST 的详细结构。用于 HSI 分类的 MACLST 框架的总体架构如图1所示。该框架由 MAC、LSwin 变压器和分类三个模块组成。这些模块的详细信息将在后面的章节中介绍。

总览

HSI 数据表示为，其中空间维度由表示，表示光谱维度中的波段数。图像中每个像素的类别概率表示为，其中对应于土地覆盖类别的数量。因此，HSI 由多个波段组成，其中包含有价值的光谱信息，导致尺寸较大并需要大量计算资源。为了解决这个问题，通过 PCA 对 HSI 进行处理，以降低光谱的高维数，减轻计算负担。通过 PCA，前几个主成分有效地保留了大量的光谱信息。应用 PCA 后，在保持空间维度不变的情况下，HSI 数据中的波段数量从减少到。因此，HSI 数据的 postPCA 表示为，其中表示光谱维度中的波段数。作为网络输入，从 PCA 简化的 HSI 数据中提取 3D patch。每个3D patch，由目标像素及其相邻像素组成，表示为，能够提取像素级特征，其中表示窗口大小。然而，当提取单个像素周围的块时，由于块提取过程的限制，无法捕获边缘像素。将这些像素进行填充操作，然后提取的补丁通过 MAC 模块作为输入。 MAC 模块在保留分辨率信息的同时，通过扩大感受野来有效地学习深层光谱空间特征。从 MAC 的不同分支获得的特征被融合以获得一个判别表示。融合后，生成的特征被重新整形并输入到 2D 空洞卷积层中。然后，2D 层生成的输出特征图被分割成 patch token，将其转换为线性嵌入。然后，将获得的嵌入用作 LSwin Transformer 块的输入，以捕获局部和全局特征，对图像内的远程依赖性进行建模，使它们特别适合 HSI 分类。利用全局平均池化和全连接层对 LSwin Transformer 的多个块学习的鲁棒特征进行下采样并转换为特征向量。最后，利用线性 Softmax 函数根据生成的特征向量预测每个像素的类标签。

多尺度 3D 空洞卷积

在标准卷积网络中，重复应用卷积、最大池化和跨多个层的跨步会导致所得特征图的空间分辨率显着降低。这种现象称为稀疏特征提取，是由于这些操作的性质而产生的。作为部分补救措施，使用反卷积层，这需要额外的内存和时间。此外，标准卷积的感受野大小有限，网格大小固定，存在过拟合的风险。因此，网络可能无法捕获输入图像中足够的上下文，并且可能不适合对不同尺度的对象进行分类。由于参数数量较多，当训练数据集较小时，也可能出现过拟合的情况。在高分辨率高光谱遥感图像分类任务中，标准卷积网络的这种局限性导致空间信息的显著丢失，忽略了相邻区域的空间相似性。然而，空洞卷积通过引入空洞率来解决这些限制，无需额外参数即可扩大感受野。这种方法通过允许不同层的空洞率来捕获光谱和空间维度的多尺度信息。空洞卷积的概念最初是作为一种有效计算未抽取小波变换的方法而出现的（Holschneider 等人，1990），并被 Chen 等人(2014b)在深度学习中采用，被 Papandreou 等人(2015) 用于生成密集特征图。同样的概念后来在 Yu 和 Koltun (2015) 中被称为膨胀卷积。顾名思义，空洞卷积通过将”孔“或零值插入到卷积滤波器中来执行卷积，从而产生更大的感受野，类似于卷积层和池化层的组合。首先考虑一维情况，在空洞卷积中，输出 𝑦[𝑖] 是根据输入信号 𝑥[𝑖] 和长度为 𝐾 的滤波器 𝑤[𝑘] 计算的，表示为：空洞率参数确定对输入信号进行采样的步长。在 2D 和 3D 卷积的情况下，标准、带孔和多尺度带孔卷积运算的视觉表示如图 2 所示。标准的 2D 卷积运算如图2(a)所示，而图2(b)表示 2D 空洞卷积运算。图2(c)显示了 3D 空洞卷积运算，最后，图2(d)示出了多尺度 3D 空洞卷积运算。通过空洞卷积，我们可以有效地计算密集卷积特征图并根据需要扩大滤波器的视野。在现代卷积网络中，通常使用小型空间卷积核，例如来优化计算时间并减少参数。然而，采用空洞率为的空洞卷积可以在不增加参数或计算时间的情况下有效地扩大内核大小。该技术有效地控制视场，允许在精确定位（具有较小视场）和上下文整合（具有较大视场）之间进行灵活权衡（Chen 等人，2017）。受到网络的启发（Zhao 等人，2021；Kumar 等人，2022），在不牺牲分辨率的情况下，采用空洞卷积从 HSI 捕获空间和光谱信息；然而，与 Zhao 等人（2021）不同的是，Kumar 等人（2022）所提出的 MAC 模块对每个分支的空间和光谱维度采用不同的空洞率。具体来说，将更大的空洞率应用于光谱维度，以便从光谱域获得更大的视图，这已被证明有助于生成更鲁棒和更具辨别力的特征。除此之外，还将 LSwin Transformer 与空洞卷积相结合来对远程依赖关系进行。MAC 模块通过在空间和光谱维度上对滤波器应用膨胀，在空间和光谱维度来实现感受野的同时放大。MAC 在 HSI 分类中起着重要的作用，它有助于提取丰富的光谱信息，并根据空洞率对齐输入特征立方体中的远距离波段。为了充分利用 HSI 丰富和改进的特征表示，所提出的 MACLST 方法结合了一个受 inception 架构启发的多分支空洞卷积模块（Szegedy 等人，2015）。这种多分支方法旨在学习多个尺度的特征并完善特征融合过程。该模型利用具有不同内核大小的并行空洞卷积，有效地结合了空间光谱信息。应用 3D 空洞卷积后，每个神经元的值将为，其中表示其在 3D 空间中的位置，对应于第层上的特定特征图，计算如下：其中 ReLU 表示激活函数，第个特征图的偏置表示为，而表示位于第层的特定特征图，该特征图与当前第层相连。连接到第个特征图的内核位置处的权重由给出，其中分别是内核的高度、宽度和长度。空洞率用于确定输入信号采样的步幅。通过这种采样，输入与上采样滤波器进行卷积，上采样滤波器是通过在每个空间和光谱维度的两个连续滤波器之间插入和零来获得的。通过 PCA 和补丁提取进行降维后，MAC 模块的第一个 3D 标准层接收大小为的输入。然后，应用 16 个大小为并填充“valid”的滤波器来提取浅层光谱空间信息，从而产生 16 个特征图的输出。之后，采用一个称为多分支空洞卷积模块的特殊结构接收结果输出。该模块包含三个并行分支，每个分支包含一个 3D 空洞卷积层。该设计旨在提取深度图像特征，降低弱信号丢失的概率，并解决网络中卷积运算滤波器最佳尺寸的选择问题。多尺度设计中的每一层都采用不同的空洞率和带有 8 个滤波器的相同数量的的内核，内核大小均为。第一层的空洞率为，第二层采用的空洞率为，第三层采用的空洞率为，填充为“same”。假设卷积核大小为，空洞率为 3，则特征图中每个元素的感受野将为。通过 MAC 模块的多个分支学习到的特征被连接起来，形成一个多尺度特征图，确保每个分支对快速有效的学习做出有效贡献。生成的输出特征图被重新排列以创建一个的图。然后，使用一个具有 64 个核、空洞率为的 2D 空洞卷积层来获取 64 个大小为大小为特征图。这些特征图被展平为 1D 特征向量，得到 64 个大小为的向量。经过MAC模块后，得到的谱空间特征等于。这意味着通过 MAC 模块学习到的引人注目的空间光谱信息可以被完全保留。该布局是根据光谱空间特征的组合而设计的，用于端到端训练。使用 ReLU 的 2D 空洞卷积层可以计算为：其中，特定的特征图由层中保留的表示，连接到当前第层，表示第特征图位置处的权重。空洞率定义为，偏差定义为，其中指的是第层中的特定特征图。