基于自适应上下文聚合网络的双高遥感影像分类

Download PDF 打印本文

文章快速检索

高级检索

引用本文

胡鑫, 王心宇, 钟燕飞. 基于自适应上下文聚合网络的双高遥感影像分类[J]. 测绘学报，2023，52(7)：1175-1186. DOI: 10.11947/j.AGCS.2023.20220237

HU Xin, WANG Xinyu, ZHONG Yanfei. Adaptive context aggregation network for H² remote sensing imagery classification[J]. Acta Geodaetica et Cartographica Sinica, 2023, 52(7): 1175-1186. DOI: 10.11947/j.AGCS.2023.20220237

基于自适应上下文聚合网络的双高遥感影像分类

胡鑫^1,2, 王心宇³, 钟燕飞²

1. 广州市城市规划勘测设计研究院，广东广州 510060;
2. 武汉大学测绘遥感信息工程国家重点实验室, 湖北武汉 430079;
3. 武汉大学遥感信息工程学院，湖北武汉 430079

收稿日期：2022-04-05；修回日期：2023-06-12

基金项目：国家重点研发计划(2022YFB3903405)；国家自然科学基金(42071350；42101327)

第一作者简介：胡鑫(1994—)，男，博士，研究方向为高光谱遥感信息处理。E-mail：whu_huxin@whu.edu.cn

通信作者：王心宇, E-mail：wangxinyu@whu.edu.cn

摘要：融合高光谱和高空间分辨率(双高)遥感的优势可以实现地物目标更为全面和精细的属性识别。然而，空间分辨率的显著提升使得双高影像中地物细节特征凸显出来，呈现出极高的空谱异质性，进而导致同物异谱现象大量发生，地物类内方差明显增大。基于此，本文提出一种局部-全局上下文信息自适应聚合的快速双高影像分类框架(adaptive context aggregation network, ACANet)，通过编码-解码的全卷积网络架构顾及全局空谱信息，在编码器中构建局部到全局的长距离上下文感知模块缓解双高影像极大的类内方差，在解码器中构建自适应上下文聚合模块进一步实现局部和全局的上下文信息自适应聚合。本文方法在WHU-Hi双高影像分类基准数据集中取得了优异的分类性能，试验表明可以很好缓解双高影像极高空谱异质性对地物精细分类的影响。

关键词：高空间高光谱分辨率影像地物精细分类深度学习上下文信息

Adaptive context aggregation network for H² remote sensing imagery classification

HU Xin^1,2, WANG Xinyu³, ZHONG Yanfei²

1. Guangzhou Urban Planning and Design Survey Research Institute, Guangzhou 510060, China;
2. State Key Laboratory of Information Engineering in Surveying, Mapping and Remote Sensing, Wuhan University, Wuhan 430079, China;
3. School of Remote Sensing and Information Engineering, Wuhan University, Wuhan 430079, China

Foundation support: The National Key Research and Development Program of China (No. 2022YFB3903405); The National Natural Science Foundation of China (Nos. 42071350; 42101327)

First author: HU Xin (1994—), male, PhD, majors in hyperspectral remote sensing information processing. E-mail: whu_huxin@whu.edu.cn.

Corresponding author: WANG Xinyu, E-mail: wangxinyu@whu.edu.cn.

Abstract: High spectral and spatial resolution (H²) remote sensing imagery can achieve more comprehensive and precise attribute recognition of ground objects. However, the details of ground objects are gradually revealed with the significant improvement of the spatial resolution, which makes the H² images show extremely high spectral variability and spatial heterogeneity, and then the phenomenon of the same class with different spectrums occurs in large numbers; the intraclass variance increases significantly. As a result, an adaptive aggregation context network was proposed for H² image classification, which uses a full convolution network with encoder-decoder architecture to achieve global spectrum-spatial fusion. A local-to-global long-distance context module was designed to alleviate the intraclass variance in the encoder module. Then an adaptive context aggregation module was constructed in the decoder module for the adaptive aggregation of local and global context information. ACANet has achieved excellent performance in the WHU-Hi benchmark dataset, and the experiments show that it can sufficiently alleviate the impact of the spatial-spectrum heterogeneity of the H² image in the precise classification.

Key words: hyperspectral image with high spatial resolution precise classification deep learning context information

高光谱遥感影像具有光谱分辨率高和图谱合一的优势，其丰富的光谱信息可对不同地物的属性信息进行精细的检测和识别^[1-2]。目前，高光谱遥感已成为地物精细区分的重要技术手段，在资源调查、农作物分类、树种识别、矿物填图等方面都有着广泛的应用^[3]。

早期的高光谱遥感地物精细分类识别主要基于星载和航空有人机载高光谱观测平台^[3]。近十年来，随着无人机的有效载荷和续航时间的不断提高，以及轻型高光谱成像传感器的快速发展，无人机高光谱遥感已经成为一种新兴的对地观测技术，实现对星载和航空有人机载高光谱成像系统的有效补充^[4]。无人机高光谱观测平台可以同时获得高光谱分辨率(纳米级)和高空间分辨率(厘米级)的遥感影像，也称为“双高影像”^[5]。双高影像不仅可以精细表征地物光谱信息，而且包含地物丰富的空间纹理信息。同时，相比于星载和航空有人机载高光谱观测平台，无人机高光谱观测平台具有操作灵活、采集成本低、作业周期短和实时数据采集的优点。

然而，相比于星载或航空有人机载的中低分辨率高光谱遥感影像，无人机双高影像极高的空间分辨率使得地物细节大量凸显出来，同物异谱现象大量发生，地物类内方差明显增大，光谱特征统计分布更加复杂，地物光谱信息的统计可分性严重减弱^[5-8]。因此，只利用光谱信息分类的方法(例如支持向量机、随机森林等方法)在双高影像分类结果中存在严重的椒盐噪声^[5]。因此，针对无人机双高影像地物分类需要同时考虑双高影像精细的光谱属性信息和丰富的空间纹理信息。传统的空-谱融合策略引入空间信息方法主要分为两种。一种是通过级联光谱信息和手工设计的空间特征作为分类器的输入，其中空间特征包括纹理、形状和对象分割等^[9]。另一种是引入空间上下文信息的后处理方法，例如引入马尔可夫随机场^[10-11]、条件随机场^[12-13]等。然而，这些方法非常依赖专家知识的手工特征设计，其手工特征面向特定分类任务，限制了其在复杂地物分布下的模型泛化能力^[14-15]。

随着人工智能的蓬勃发展，深度学习技术因其强大的特征提取和泛化能力，被越来越多的学者应用在高光谱影像分类中。目前深度学习高光谱影像分类主要基于两种策略。一种是基于“空间块”的分类策略，该策略以标记像元为中心选取邻域的三维“空间块”作为网络的输入，输出中心像元的类别标签，例如栈式自动编码器SAE-LR^[15]、深度三维卷积网络^[16]、图卷积分类网络^[17]等。然而，该类分类方法在双高影像分类中面临两个问题。一方面，“空间块”的最优尺寸受到空间分辨率和地物分布等多种因素的影响，导致“空间块”的最优尺寸难以确定，且不同影像的最优尺寸存在差异^[6]；另一方面，“空间块”仅利用了标记像元周围局部空间信息，缺乏对长距离或全局空间信息的考虑，导致在空谱异质性极高的双高影像分类结果中出现严重的错分孤立区域现象。另一种是将全局影像作为输入的“端到端”分类策略^[6]。文献[18]首次提出快速全卷积深度网络实时分类框架FPGA实现全局空谱融合，相比于“空间块”深度学习模型，其速度和精度得到了极大的提升。然而，FPGA方法受到卷积核的限制无法捕获大范围的像素依赖关系，对于类内方差较大的地物仍会存在错分现象，尤其是用于空谱异质性极高的双高影像分类。随后，一些高光谱影像分类网络引入全局上下文信息解决地物类内方差大的问题，例如空-谱全卷积高光谱分类网络SSFCN-CRF^[19]、高效非局部全卷积网络ENL-FCN^[20]、全上下文感知网络FullyContNets^[21]等。然而，仅利用全局上下文信息模型会导致计算复杂，且对一些狭窄或者弱小地物分类时局部上下文信息同样重要。

为此，针对当前高光谱影像分类方法在双高遥感影像分类时缺乏考虑局部上下文信息的情况，本文提出一种局部-全局上下文信息自适应聚合的高精度快速双高影像分类框架，本文称为ACANet(adaptive context aggregation network)。该框架基于全卷积网络架构，分为编码器和解码器。在编码器中，为了充分提取长距离上下文信息并减少网络模型参数，设计局部到全局的长距离上下文提取方式。对于高分辨的输入特征图，采用局部上下文信息模块(local context module，LCM)捕获长距离上下文信息，降低计算复杂度。对于低分辨的高层次语义特征图，采用全局上下文信息模块(global context module，GCM)从局部上下文特征中进一步捕获全局上下文信息。在解码器中，自适应上下文聚合模块(adaptive aggregation module，AAM)对编码器中的局部和全局长距离上下文特征以及解码器中的上一层高级语义特征进行自适应加权聚合，实现双高影像的准确分类。综上所述，本文的创新点如下：

(1) 本文在编码器中设计一种局部到全局上下文信息感知的网络架构，实现顾及长距离上下文信息的高级语义特征提取，缓解双高影像空谱异质性造成错分孤立区域的现象。

(2) 本文在解码器设计的自适应上下文聚合模块可以自适应地关注不同的上下文信息以应对地物尺寸对分类性能的影响。

1 本文方法

本文方法(ACANet)的总体流程如图 1所示。该网络以整张高光谱影像作为输入，可以顾及全局空谱信息。在编码器中，本文使用局部到全局的长距离上下文感知模块，可以有效缓解双高影像极高空谱异质性导致的孤立区域错分现象。在解码器中，采用自适应上下文聚合模块自适应对局部上下文特征、全局上下文语义特征和上一层网络输出的高级语义特征进行通道加权融合，最终将特征图输入到Softmax分类器中，输出每个像素的分类结果。

图 1 基于自适应上下文聚合的双高影像精细网络 Fig. 1 Flowchart of adaptive context aggregation network for H² imagery classification

图选项

1.1 局部上下文信息模块

局部上下文信息模块采用条带池化操作^[22]，网络结构如图 2所示，其主要利用条带池化操作来获取局部长距离上下文信息。对于输入特征图X∈R^C×H×W的第C个通道X_c∈R^H×W，其输出局部上下文特征图X_c∈R^H×W公式如下

(1)

图 2 局部上下文信息模块结构 Fig. 2 Network structure diagram of local context module

图选项

式中, y_h∈R^H×1和y_w∈R^1×W分别表示横向条带池化和纵向条带池化输出的特征向量，其公式可以表示为

(2)

如式(2)所示，条带池化操作是对输入特征X_c的行或列中的所有特征值进行平均，因此其可以捕获每个像素长距离横向和纵向的上下文信息。式(1)中，W_1×3和W_3×1分别表示1维卷积，其分别捕获y_h和y_w邻域的特征；E_H和E_W表示对1维卷积输出的特征在横向和纵向进行扩展，使其与输入的特征图X_c尺寸一致；W_1×1和σ表示对相加融合的扩展特征y使用1×1的卷积和Sigmod函数，最后将输出每个像素的编码权重与输入特征X_c进行逐像素加权。

1.2 全局上下文信息模块

全局上下文信息模块GCM对的网络结构如图 3所示，其假设全局上下文信息受空间位置影响较小，进而将全局上下文信息转换为通道之间的依赖^[23]。GCM分为全局上下文建模、通道依赖关系转换和特征融合3部分。对于输入特征图X∈R^C×H×W, 其输出的全局上下文特征图R^C×H×W中的任意像素x_i∈R^C×1×1，其公式可以表示为

(3)

图 3 全局上下文信息模块结构 Fig. 3 Network structure diagram of global context modul

图选项

式中，i=1, 2, …, N_p(N_p表示特征图的像素个数)；表示全局上下文建模，通道全局注意力池化的权重α_j聚合所有位置特征来获得全局上下文信息，其公式可以表示为

(4)

式中，W_k表示1个1×1的卷积。

式(3)中δ(·)表示通道依赖关系转换函数，用来捕获通道间的依赖关系，其公式可以表示为

(5)

式中，W_v1表示r个1×1的卷积；LN表示层归一化；σ_ReLU表示ReLU激活函数；W_v2表示C个1×1的卷积。

式(3)中F(., .)表示特征融合聚合全局上下文特征到每个位置的特征上，具体采用逐通道相加融合的方式。

1.3 自适应上下文信息模块

针对地物精细分类所需的场景不同，其对应的局部上下文特征和全局上下文特征对分类性能提升的重要性存在差异。基于此，本文提出自适应上下文信息模块AAM，引入通道注意力机制^[24]实现表征底层细节的全局上下文特征和表征高级语义信息的全局上下文特征自适应融合。如图 4所示，该模块的输入包括3部分，分别是局部上下文特征X₁、全局上下文特征X₂和上一层输出的高级语义信息X₃。随后，针对级联后的特征X=X₁, X₂, X₃，首先通过全局平均池化操作建模全局空间信息，输出一维特征向量S∈R^1×1×C，其公式可以表示为

(6)

图 4 自适应上下文信息聚合模块结构 Fig. 4 Network structure diagram of adaptive aggregation module

图选项

式中，X_c-th和S_c-th表示第C个通道的特征。为降低模型参数和提升特征提取能力，通过一个两层的神经网络捕获通道间的非线性关系映射，并且对第一层网络的特征通道进行降维。随后，该映射关系通过Sigmod函数输出每个通道的权重，其公式可以表示为

(7)

式中，；r为降维超参数；σ₁为ReLU激活函数；σ₂表示Sigmod激活函数。T为其输出每个每个通道的尺度缩放因子，将其应用在原始的输入数据中，输出自适应聚合的上下文特征，其公式可以表示为

(8)

2 试验数据与分析 2.1 试验数据

本文试验数据采用WHU-Hi无人机双高影像数据集。WHU-Hi数据集是由武汉大学RSIDEA团队发布的无人机高光谱影像分类基准数据集^[5]，其包含多个不同的典型地物分类场景。本文选取的WHU-Hi-HongHu和WHU-Hi-HanChuan场景，数据集信息如图 5所示，详细描述如下。

图 5 WHU-Hi双高影像分类基准数据集 Fig. 5 Wuhan UAV-borne H² imagery (WHU-Hi) dataset

图选项

(1) WHU-Hi-HongHu数据。数据采集地点为湖北省洪湖市典型的复杂农业区域，采集时间为2017年11月20日16:23—17:37，数据采集期间天气阴天多云，气温约8℃，空气相对湿度约为55%。采集平台为大疆M600pro无人机搭载的Nano-Hyperspec-VNIR成像光谱仪，成像光谱仪采用17 mm焦距的镜头，飞行高度为100 m，空间分辨率为0.043 m，影像尺寸为940×475像素，在400~1000 nm波谱范围内有270个谱段。研究区土地破碎化异常严重，单个地块面积非常小，共种植了棉花、油菜、白菜、包菜等17种作物。

(2) WHU-Hi-HanChuan数据。数据采集地点为湖北省汉川市典型的城乡接合区域，采集时间为2016年6月17日17:57—18:46，数据采集期间天气晴朗无风，气温约30℃，空气相对湿度约70%。采集平台为莱卡Aibot X6无人机搭载的Nano-Hyperspec-VNIR成像光谱仪，成像光谱仪采用17 mm焦距的镜头，飞行高度为250 m，空间分辨率为0.109 m，影像尺寸为1217×303像素，在400~1000 nm波谱范围内有274个谱段。采集区域内共包含房屋、道路、农作物和水体等16类地物，其中包含草莓、豇豆、大豆、高粱等7类农作物。由于数据集采集时间在下午，太阳高度角较低，并且研究区内存在较高的建筑物和树木等，导致影像中有很多阴影覆盖区域。

2.2 参数设置

(1) 训练样本设置。如表 1所示，从每个类中随机选取50个标记像素进行模型训练，剩余的标记样本用于模型测试。训练样本占全部标注样本的比例非常小，仅为WHU-Hi-HongHu和WHU-Hi-HanChuan标注像素比例的0.28%和0.31。

表 1 WHU-Hi数据集类别信息 Tab. 1 Class information for the WHU-Hi dataset

数据集	序号	类别名称	训练样本	测试样本
WHU-Hi-HongHu	C1	红色屋顶	50	13 991
	C2	道路	50	3462
	C3	裸土	50	21 771
	C4	棉花	50	163 235
	C5	棉花柴	50	6168
	C6	油菜	50	44 507
	C7	白菜	50	24 053
	C8	小白菜	50	4004
	C9	包菜	50	10 769
	C10	榨菜	50	12 344
	C11	菜苔	50	10 965
	C12	青菜	50	8904
	C13	小青菜	50	22 457
	C14	莴苣	50	7306
	C15	青莴苣	50	952
	C16	薄膜覆盖的莴苣	50	7212
	C17	罗马生菜	50	2960
	C18	胡萝卜	50	3167
	C19	白萝卜	50	8662
	C20	蒜苗	50	3436
	C21	蚕豆	50	1278
	C22	柿子树	50	3990
WHU-Hi-HanChuan	C1	草莓	50	44 685
	C2	豇豆	50	22 703
	C3	大豆	50	10 237
	C4	高粱	50	5303
	C5	空心菜	50	1150
	C6	西瓜	50	4483
	C7	绿色植物	50	5853
	C8	树	50	17 928
	C9	草地	50	9419
	C10	红色屋顶	50	10 466
	C11	灰色屋顶	50	16 861
	C12	塑料薄膜	50	3629
	C13	裸土	50	9066
	C14	道路	50	18 510
	C15	明亮物体	50	1086
	C16	水体	50	75 351

表选项

(2) 模型参数设置。如表 2所示，ACANet的详细架构包括3个局部上下文信息模块、一个全局上下文信息模块和3个自适应上下文聚合模块。在模型训练中，采用随机梯度下降(SGD)方法模型参数优化，其中训练最大迭代次数、初始学习率、动量、伽马和权重衰减分别设置为：1500、0.003、0.9、0.1和0.001。

表 2 ACANet网络参数 Tab. 2 Network parameters of the ACANet method

网络架构		输入尺寸	模型参数	输出尺寸
编码器	Conv 3×3	H×W×C	3×3, 64, stride 1	H×W×64
	LCM 1-Conv 3×3	H×W×64	3×3, 128, stride 1	H×W×128
	Down 2	H×W×128	-	1/2H×1/2W×128
	LCM 2-Conv 3×3	H×W×128	3×3, 192, stride 1	1/2H×1/2W×192
	Down 2	H×W×192	-	1/4H×1/4W×192
	LCM 3-Conv 3×3	1/4H×1/4W×192	3×3, 256, stride 1	1/4H×1/4W×256
	Down 2	1/4H×1/4W×256	-	1/8H×1/8W×256
	GCM	1/8H×1/8W×256	-	1/8H×1/8W×256
解码器	Conv 1×1-Up2	1/8H×1/8W×256	3×3, 256, stride 1	1/4H×1/4W×256
	Connect	1/4H×1/4W×192	1×1, 256, stride 1	1/4H×1/4W×768
		1/4H×1/4W×256	-
		1/8H×1/8W×256	1×1, 256, stride 1, Up 2
	AAM 1	1/4H×1/4W×768	r=16	1/4H×1/4W×768
	Conv1×1-Up2x	1/4H×1/4W×768	1×1, 192, stride 1	1/2H×1/2W×192
	Connect	1/2H×1/2W×128	1×1, 192, stride 1	1/2H×1/2W×576
		1/2H×1/2W×192	-
		1/8H×1/8W×256	1×1, 192, stride 1, Up 4
	AAM 2	1/2H×1/2W×576	r=16	1/2H×1/2W×576
	Conv1×1-Up2x	1/2H×1/2W×576	1×1, 128, stride 1	H×W×128
	Connect	1/2H×1/2W×64	1×1, 128, stride 1	H×W×384
		1/2H×1/2W×128	-
		1/8H×1/8W×256	1×1, 128, stride 1, Up 8
	AAM	H×W×384	1×1, 384, stride 1	H×W×384
	Conv 1×1	H×W×384	1×1, 64, stride 1	H×W×64
注：输入尺寸为H×W×C；输出尺寸为H×W。

表选项

(3) 对比方法设置。本文采用4类不同形式的7种分类方法进行对比试验。第1类方法是逐像素光谱分类的支持向量机(SVM)^[25]，其采用高斯核函数，利用五折交叉验证的方式进行选择惩罚参数C和核函数的参数g。第2类方法为基于空间取块机制的深度学习方法，包括空谱注意力网络(SSAN)^[26]、空谱残差网络(SSRN)^[27]和深度残差金字塔网络(PResNet)^[28], SSAN方法输入空间块大小和主成分个数分别设置为27×27和4，SSRN和PResNet方法输入空间块大小分别设置为7×7×C和11×11×C，其中C是波段数。第3类方法是引入光谱注意力机制的全卷积高光谱分类网络(FPGA)^[18]。第4类方法为联合卷积神经网络和条件随机场的方法，包括联合卷积神经网络和马氏距离约束的条件随机场(CNNCRF)^[5]和联合空谱全卷积网络和密集条件随机场的方法(SSFCN-CRF)^[19]。其中，CNNCRF方法输入空间块大小设置为9×9×C。最后，本文使用的定量精度评价指标包括总体精度(OA)、平均精度(AA)、Kappa系数和每类地物的生产者精度。

2.3 试验结果分析

(1) WHU-Hi-HongHu试验结果。数据集的分类结果如图 6所示，定量评价指标如表 3所示。由于不同地物之间光谱相似和双高影像严重的空谱异质性，SVM的分类结果中出现大量错分的椒盐噪声现象。相比于SVM，基于深度学习的高光谱分类方法在视觉性能和定量评估方面都有很大的提升。基于空间取块机制的SSAN、SSRN和PresNet 3种方法的OA相比于SVM分别提高了11.42%、18.52%和23.99%，但是空间取块机制只能利用局部空间信息，该类方法仍然存在严重的错分孤立区域。CNNCRF和SSFCN-CRF方法引入了空间上下文信息以极大地缓解分类图中的孤立区域，其OA相比SVM分别提升23.59%和22.79%。然而，由于该类方法条件随机场的一元势能存在误差，分类结果中仍存在少量误分类区域。FPGA方法同时顾及全局光谱和空间信息，取得了优异的视觉表现和定量评价指标，其OA相比SVM提升28.29%。但是，该类方法针对一些异质性较大的区域仍会存在一定错分。相比于FPGA, 本文提出的ACANet方法充分利用局部和全局长距离上下文依赖信息改善异质性较大区域的地物错分，取得了最优的视觉表现和定量评价指标。

图 6 WHU-Hi-HongHu数据分类结果 Fig. 6 The classification results for WHU-Hi-HongHu dataset

图选项

表 3 WHU-Hi-HongHu数据集的分类精度 Tab. 3 Classification accuracies for the WHU-Hi-HongHu dataset

Class	SVM	SSAN	SSRN	PresNet	CNNCRF	SSFCN-CRF	FPGA	ACANet
红色屋顶	85.23	96.70	95.28	95.81	95.23	96.07	96.55	96.60
道路	72.30	85.50	93.88	95.21	95.70	79.87	96.65	96.01
裸土	75.03	81.08	88.76	86.99	88.86	87.46	95.25	97.36
棉花	67.45	92.00	86.05	95.28	94.84	97.87	97.81	99.94
棉花柴	71.19	93.27	87.74	93.11	93.06	92.48	97.23	98.15
油菜	79.37	81.10	92.44	93.65	98.05	91.04	95.97	98.79
白菜	51.41	38.39	79.71	82.91	75.57	80.57	87.57	90.20
小白菜	32.74	48.28	83.74	76.27	83.97	82.27	97.45	98.25
包菜	85.50	88.95	96.68	96.56	99.64	96.42	99.24	98.58
榨菜	44.22	67.77	76.63	78.03	92.77	78.28	94.07	91.30
菜苔	38.53	47.00	76.50	82.54	74.09	54.43	92.81	90.16
青菜	56.09	64.22	59.94	80.39	79.37	70.09	95.27	96.14
小青菜	51.20	41.86	72.31	75.65	66.57	74.80	83.44	89.33
莴苣	53.22	80.88	88.17	97.22	89.65	73.79	98.51	97.33
青莴苣	82.56	89.81	96.85	100.00	100.00	95.48	99.90	100.00
薄膜覆盖的莴苣	78.49	56.70	92.79	96.10	93.59	93.95	99.92	99.51
罗马生菜	66.22	89.63	97.26	95.88	91.96	88.21	97.13	97.16
胡萝卜	69.21	86.58	96.72	97.44	98.55	92.93	99.53	99.43
白萝卜	71.96	58.84	90.35	96.54	96.96	92.61	98.74	98.19
蒜苗	76.02	85.62	95.52	98.52	96.19	95.72	99.68	99.07
蚕豆	65.96	90.61	98.20	100.00	100.00	98.04	100.00	100.00
柿子树	80.75	79.77	98.32	97.57	100.00	97.52	100.00	99.92
OA/(%)	67.47	78.89	85.99	91.46	91.06	90.26	95.76	97.42
Kappa	0.611 6	0.738 9	0.828 1	0.893 2	0.888 1	0.877 5	0.946 7	0.967 3
AA/(%)	66.12	74.75	88.36	91.44	91.12	86.81	96.49	96.88
注：最佳结果以粗体突出显示。

表选项

(2) WHU-Hi-HanChuan试验结果。数据集的分类结果如图 7所示，定量评价指标见表 4。与WHU-Hi-HongHu数据集相似，SVM的分类图中存在大量错分的椒盐噪声现象，同时由于阴影覆盖区域的辐射亮度较低，导致SVM的分类方法在该区域存在严重的错分。与SVM方法相比，SSAN、SSRN和PResNet方法的OA分别提升11.16%、10.54%和17.72%。但是，这类方法的分类图仍存在较为严重的错分，尤其在阴影覆盖区域。CNNCRF和SSFCN-CRF方法的OA相比于SVM分别提升18.24%和15.05%，但是，由于条件随机场的一元势能的不准确，CNNCRF分类结果中，豇豆阴影覆盖区域仍然表现出较差的分类性能，SSFCN-CRF分类图也包含较多孤立的错分区域。FPGA方法的OA相比于SVM提升22.26%，但对阴影覆盖区域的水和豇豆同样存在错误分类。ACANet方法在WHU-Hi-HanChuan数据集中取得了最好的分类性能，分类图中错分的孤立区域得到极大缓解。

图 7 WHU-Hi-HanChuan数据分类结果 Fig. 7 The classification results for WHU-Hi-HanChuan dataset

图选项

表 4 WHU Hi-HanChuan数据集的分类精度 Tab. 4 Classification accuracies for the WHU-Hi-HanChuan dataset

分类器	SVM	SSAN	SSRN	PresNet	CNNCRF	SSFCN-CRF	FPGA	ACANet
草莓	67.71	83.48	69.64	89.03	93.49	89.24	93.72	98.91
豇豆	46.14	85.15	83.64	83.37	76.99	71.00	90.92	98.12
大豆	70.07	75.69	65.94	95.15	93.71	88.61	98.95	97.75
高粱	92.61	88.16	95.38	95.64	97.91	87.93	97.30	99.74
空心菜	72.78	99.65	98.43	99.22	99.13	96.96	97.65	97.86
西瓜	44.77	72.36	75.28	75.49	87.31	64.20	95.05	98.75
绿色植物	87.95	88.55	82.33	94.40	95.28	90.21	96.87	99.72
树	49.10	83.09	60.88	71.45	74.75	73.67	89.63	99.35
草地	44.42	56.81	76.92	80.56	82.45	67.16	90.77	100.00
红色屋顶	82.72	79.80	87.79	98.30	97.98	88.64	94.57	100.00
灰色屋顶	95.53	83.69	96.31	92.21	98.97	96.23	97.30	95.47
塑料薄膜	59.52	95.54	71.78	97.00	99.56	91.98	98.18	96.59
裸土	49.11	64.36	70.26	81.93	60.90	74.03	90.19	99.12
道路	63.31	91.33	73.52	87.04	91.80	84.07	96.23	94.51
明亮物体	69.80	88.21	80.20	90.24	89.32	81.86	90.42	99.66
水体	90.78	87.87	99.31	97.81	96.87	98.42	96.70	99.90
OA/(%)	72.47	83.63	83.01	90.19	90.71	87.52	94.73	98.80
Kappa	0.684	0.810 9	0.802 8	0.885 8	0.891 7	0.854 7	0.938 5	0.985 9
AA/(%)	67.89	82.73	80.48	89.30	89.78	84.01	94.66	98.47
注：最佳结果以粗体突出显示。

表选项

2.4 试验参数分析

(1) 训练样本敏感性分析。图 8显示了不同训练样本数量下(25、50、100、150、200、250、300)ACANet和对比方法在WHU-Hi数据集的总体精度。由图 8可以明显看出，ACANet在所有训练样本量下都取得了最高分类精度，并且在训练样本数量较少时(25, 50)表现出更大的优势。

图 8 不同训练样本下WHU-Hi数据集的总体分类精度 Fig. 8 The Overall accuracy of different numbers of training samples on WHU-Hi dataset

图选项

(2) ACANet的消融试验。表 5显示了ACANet在WHU-Hi数据集上使用每类50个训练样本的消融试验结果。由表 5可知，在Baseline基础上添加LCM和GCM模块都会显著提升分类精度，由此可以证明长距离上下文信息对空谱异质性高的双高影像分类是有效的。在此基础上，LCM和GCM模块两者联合使用对分类精度有进一步增益，并且使用AAM进行上下文信息自适应聚合可以再次实现精度提升。因此，本文所提出的局部和全局上下文自适应聚合框架在双高影像分类具有优异的性能。

表 5 ACANet在WHU-Hi数据集上消融试验 Tab. 5 Ablation study for the ACANet method with WHU-Hi dataset

数据集	网络架构	LCM	GCM	AAM	OA/(%)	AA/(%)	Kappa
WHU-Hi-HongHu	Baseline	-	-	-	89.95	90.17	0.874 7
	+	√			97.12	96.72	0.964 6
			√		96.98	96.74	0.961 8
		√	√		97.29	96.87	0.965 6
		√	√	√	97.42	97.84	0.967 3
WHU-Hi-HanChuan	Baseline	-	-	-	90.04	88.96	0.884 0
	+	√			97.68	96.92	0.972 8
			√		96.57	96.22	0.959 9
		√	√		98.26	97.51	0.979 6
		√	√	√	98.80	98.47	0.985 9

表选项

(3) 模型计算时间复杂度分析。不同分类方法在WHU-Hi数据集上的训练和测试时间见表 6。SVM方法使用的计算机配置：3.0 GHz英特尔至强E3-1220v5CPU，运行环境为Matlab2017。SAE-LR方法使用的计算机配置为：Intel Xeon E5-2690v4 CPU，运行环境为TensorFlow1.7。SSAN、SSRN、CNNCRF、SSFCN-CRF、FPGA和ACANet方法使用的计算机配置：Intel Xeon E5-2690v4 CPU，NVIDIA TeslaP100 GPU，SSAN、SSRN、CNNCRF、SSFCN-CRF的运行环境为TensorFlow1.9，FPGA和ACANet方法的运行环境为Pytorch 1.7，CNNCRF方法中CRF模型后处理基于Matlab2017。SVM方法采用逐像素预测并且未采用GPU运算加速，因此模型推理时间较长。SSAN、SSRN、PresNet 3种方法均采用空间取块方式预测，因此模型推理时间较为相近。CNNCRF模型和SSFCN-CRF模型均需CRF模型进行后处理，因此相比于基准网络CNN和SSFCN运算时间显著增加，而SSFCN采用全卷积网络将整张影像作为模型的输入，相比于CNN方法运算时间显著降低。FPGA和ACANet采用全卷积网络的形式极大提升了模型的推理速度，其中FPGA模型更为简单，推理速度更快。

表 6 试验方法在WHU-Hi数据中的模型推理计算时间表 Tab. 6 Average inference times for the different classification methods with the WHU-Hi dataset s

数据集	SVM	SSAN	SSRN	PresNet	CNNCRF	SSFCN-CRF	FPGA	ACANet
WHU-Hi-HongHu	452.479	205.397	192.554	202.337	811.102	67.982	0.126	0.165
WHU-Hi-HanChuan	216.025	156.721	144.924	153.233	412.244	59.587	0.094	0.147

表选项

3 结论

针对双高影像极高空谱异质性的特点和当前深度学习方法在长距离上下文信息方面利用的不足，本文提出一种局部-全局上下文信息自适应聚合的快速双高影像分类框架ACANet。ACANet采用编码解码的全卷积网络架构，可以同时顾及影像的全局空谱信息。在编码器中，ACANet模仿人类视觉感知机理，构建局部到全局的长距离上下文感知模块，通过引入长距离上下文可以有效缓解双高空谱异质性造成的错分孤立现象；在解码器中，ACANet采用自适应上下文信息模块实现针对不同应用场景的长距离上下文信息自适应聚合。本文方法在WHU-Hi无人机双高数据集地物精细分类中取得了优异的性能，可以很好地缓解双高影像空谱异质性对分类的影响。

参考文献

[1]	童庆禧, 张兵, 郑兰芬. 高光谱遥感: 原理、技术与应用[M]. 北京: 高等教育出版社, 2006. TONG Qingxi, ZHANG Bing, ZHENG Lanfen. Hyperspectral remote sensing: principle, technology and application[M]. Beijing: Higher Education Press, 2006.

[2]	张良培, 张立福. 高光谱遥感[M]. 北京: 测绘出版社, 2011. ZHANG Liangpei, ZHANG Lifu. Hyperspectral remote sensing[M]. Beijing: Surveying and Mapping Press, 2011.

[3]	杜培军, 夏俊士, 薛朝辉, 等. 高光谱遥感影像分类研究进展[J]. 遥感学报, 2016, 20(2): 236-256. DU Peijun, XIA Junshi, XUE Zhaohui, et al. Review of hyperspectral remote sensing image classification[J]. Journal of Remote Sensing, 2016, 20(2): 236-256.

[4]	ZHONG Yanfei, WANG Xinyu, XU Yao, et al. Mini-UAV-borne hyperspectral remote sensing: from observation and processing to applications[J]. IEEE Geoscience and Remote Sensing Magazine, 2018, 6(4): 46-62. DOI:10.1109/MGRS.2018.2867592

[5]	ZHONG Y, HU X, LUO C, et al. WHU-Hi: UAV-borne hyperspectral with high spatial resolution (H²) benchmark datasets and classifier for precise crop identification based on deep convolutional neural network with CRF[J]. Remote Sensing of Environment, 2020, 250: 112012. DOI:10.1016/j.rse.2020.112012

[6]	HU Xin, ZHONG Yanfei, WANG Xinyu, et al. SPNet: spectral patching end-to-end classification network for UAV-borne hyperspectral imagery with high spatial and spectral resolutions[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 1-17.

[7]	HU Xin, WANG Xinyu, ZHONG Yanfei, et al. S3ANet: spectral-spatial-scale attention network for end-to-end precise crop classification based on UAV-borne H² imagery[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2022, 183: 147-163. DOI:10.1016/j.isprsjprs.2021.10.014

[8]	MIRZAPOUR F, GHASSEMIAN H. Improving hyperspectral image classification by combining spectral, texture and shape features[J]. International Journal of Remote Sensing, 2015, 36(4): 1070-1096. DOI:10.1080/01431161.2015.1007251

[9]	GHAMISI P, MAGGIORI E, LI Shutao, et al. New frontiers in spectral-spatial hyperspectral image classification: the latest advances based on mathematical morphology, Markov random fields, segmentation, sparse representation and deep learning[J]. IEEE Geoscience and Remote Sensing Magazine, 2018, 6(3): 10-43. DOI:10.1109/MGRS.2018.2854840

[10]	LI Wei, PRASAD S, FOWLER J E. Hyperspectral image classification using Gaussian mixture models and Markov random fields[J]. IEEE Geoscience and Remote Sensing Letters, 2014, 11(1): 153-157. DOI:10.1109/LGRS.2013.2250905

[11]	SUN Shujin, ZHONG Ping, XIAO Huaitie, et al. An MRF model-based active learning framework for the spectral-spatial classification of hyperspectral imagery[J]. IEEE Journal of Selected Topics in Signal Processing, 2015, 9(6): 1074-1088. DOI:10.1109/JSTSP.2015.2414401

[12]	ZHAO J, ZHONG Y, JIA T, et al. Spectral-spatial classification of hyperspectral imagery with cooperative game[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2018, 135: 31-42. DOI:10.1016/j.isprsjprs.2017.10.006

[13]	魏立飞, 余铭, 钟燕飞, 等. 空-谱融合的条件随机场高光谱影像分类方法[J]. 测绘学报, 2020, 49(3): 343-354. WEI Lifei, YU Ming, ZHONG Yanfei, et al. Hyperspectral image classification method based on space-spectral fusion conditional random field[J]. Acta Geodaetica et Cartographica Sinica, 2020, 49(3): 343-354. DOI:10.11947/j.AGCS.2020.20190042

[14]	LI Shutao, SONG Weiwei, FANG Leyuan, et al. Deep learning for hyperspectral image classification: an overview[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(9): 6690-6709. DOI:10.1109/TGRS.2019.2907932

[15]	CHEN Yushi, LIN Zhouhan, ZHAO Xing, et al. Deep learning-based classification of hyperspectral data[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2014, 7(6): 2094-2107. DOI:10.1109/JSTARS.2014.2329330

[16]	刘冰, 余旭初, 张鹏强, 等. 联合空-谱信息的高光谱影像深度三维卷积网络分类[J]. 测绘学报, 2019, 48(1): 53-63. LIU Bing, YU Xuchu, ZHANG Pengqiang, et al. Deep 3D convolutional network combined with spatial-spectral features for hyperspectral image classification[J]. Acta Geodaetica et Cartographica Sinica, 2019, 48(1): 53-63. DOI:10.11947/j.AGCS.2019.20170578

[17]	左溪冰, 刘冰, 余旭初, 等. 高光谱影像小样本分类的图卷积网络方法[J]. 测绘学报, 2021, 50(10): 1358-1369. ZUO Xibing, LIU Bing, YU Xuchu, et al. Graph convolutional network method for small sample classification of hyperspectral images[J]. Acta Geodaetica et Cartographica Sinica, 2021, 50(10): 1358-1369. DOI:10.11947/j.AGCS.2021.20200155

[18]	ZHENG Zhuo, ZHONG Yanfei, MA Ailong, et al. FPGA: fast patch-free global learning framework for fully end-to-end hyperspectral image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 58(8): 5612-5626. DOI:10.1109/TGRS.2020.2967821

[19]	XU Yonghao, DU Bo, ZHANG Liangpei. Beyond the patchwise classification: spectral-spatial fully convolutional networks for hyperspectral image classification[J]. IEEE Transactions on Big Data, 2020, 6(3): 492-506. DOI:10.1109/TBDATA.2019.2923243

[20]	SHEN Yu, ZHU Sijie, CHEN Chen, et al. Efficient deep learning of nonlocal features for hyperspectral image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 59(7): 6029-6043. DOI:10.1109/TGRS.2020.3014286

[21]	WANG Di, DU Bo, ZHANG Liangpei. Fully contextual network for hyperspectral scene parsing[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 1-16.

[22]	HOU Qibin, ZHANG Li, CHENG Mingming, et al. Strip pooling: rethinking spatial pooling for scene parsing[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle: IEEE, 2020: 4002-4011.

[23]	CAO Yue, XU Jiarui, LIN S, et al. GCNet: non-local networks meet squeeze-excitation networks and beyond[C]//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision Workshop (ICCVW). Seoul: IEEE, 2020: 1971-1980.

[24]	HU Jie, SHEN Li, ALBANIE S, et al. Squeeze-and-excitation networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(8): 2011-2023. DOI:10.1109/TPAMI.2019.2913372

[25]	CHANG C C, LIN C J. LIBSVM: a library for support vector machines[J]. ACM Transactions on Intelligent Systems and Technology, 2011, 2(3): 1-27.

[26]	MEI Xiaoguang, PAN Erting, MA Yong, et al. Spectral-spatial attention networks for hyperspectral image classification[J]. Remote Sensing, 2019, 11(8): 963. DOI:10.3390/rs11080963

[27]	ZHONG Zilong, LI J, LUO Zhiming, et al. Spectral-spatial residual network for hyperspectral image classification: a 3-D deep learning framework[J]. IEEE Transactions on Geoscience and Remote Sensing, 2018, 56(2): 847-858. DOI:10.1109/TGRS.2017.2755542

[28]	PAOLETTI M E, HAUT J M, FERNANDEZ-BELTRAN R, et al. Deep pyramidal residual networks for spectral-spatial hyperspectral image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(2): 740-754. DOI:10.1109/TGRS.2018.2860125

http://dx.doi.org/10.11947/j.AGCS.2023.20220237
中国科学技术协会主管、中国测绘地理信息学会主办。

文章信息

胡鑫，王心宇，钟燕飞

HU Xin, WANG Xinyu, ZHONG Yanfei

基于自适应上下文聚合网络的双高遥感影像分类

Adaptive context aggregation network for H² remote sensing imagery classification

测绘学报，2023，52(7)：1175-1186

Acta Geodaetica et Cartographica Sinica, 2023, 52(7): 1175-1186

http://dx.doi.org/10.11947/j.AGCS.2023.20220237

文章历史

收稿日期：2022-04-05

修回日期：2023-06-12

文章信息

文章历史

相关文章

工作空间