文章快速检索  
  高级检索
顾及样本优化选择的多核支持向量机滑坡灾害易发性分析评价
刘纪平1,2,3, 梁恩婕1,2, 徐胜华1,2, 刘猛猛1,2, 王勇1, 张福浩1, 罗安1     
1. 中国测绘科学研究院, 北京 100036;
2. 辽宁工程技术大学测绘与地理科学学院, 辽宁 阜新 123000;
3. 河南省科学院地理研究所, 河南 郑州 450052
摘要:滑坡灾害易发性分析评价对地质灾害的防治与管理具有重要意义。针对滑坡灾害样本选择策略, 单核支持向量机多特征映射不合理的问题, 本文提出顾及样本优化选择的多核支持向量机(multiple kernel support vector machine, MKSVM)滑坡灾害易发性分析评价方法。为了保证样本平衡性并提高负样本的合理性, 采用相对频率比(relative frequency, RF)综合评价各状态对于滑坡灾害易发性影响的重要程度, 实现各评价因子状态的合理划分; 利用确定性系数法(certainty factor, CF)计算各评价因子各状态分级影响滑坡灾害的敏感性, 并在此基础上进行加权求和得到各栅格单元的滑坡灾害易发性指数, 在滑坡灾害易发性指数极低和低易发区内随机选择与滑坡灾害点数目一致的非滑坡灾害点作为负样本数据。利用MKSVM对各特征空间最优核函数进行线性组合, 解决了单一核函数映射不合理的问题, 提高了模型的分类准确率和预测精度。以湖南省湘西土家族苗族自治州为研究区, 从滑坡灾害易发性分区图、分区统计及评价模型精度3个方面对CF样本策略的MKSVM模型、CF样本策略的单核SVM模型、随机样本策略的MKSVM模型、随机样本策略的单核SVM模型进行了对比分析。结果表明, 4种模型的受试者工作特征曲线(receiver operating characteristic, ROC)下的面积(area under curve, AUC)分别为0.859、0.809、0.798、0.766, 验证了CF样本策略的合理性、有效性及MKSVM模型的可靠性。
关键词滑坡    易发性    确定性系数    多核    支持向量机    
Multi-kernel support vector machine considering sample optimization selection for analysis and evaluation of landslide disaster susceptibility
LIU Jiping1,2,3, LIANG Enjie1,2, XU Shenghua1,2, LIU Mengmeng1,2, WANG Yong1, ZHANG Fuhao1, LUO An1     
1. Chinese Academy of Surveying & Mapping, Beijing 100036, China;
2. School of Geomatics, Liaoning Technology University, Fuxin 123000, China;
3. Institute of Geography, Henan Academy of Sciences, Zhengzhou 450052, China
Abstract: The analysis and evaluation of landslide disaster susceptibility is of great significance to the prevention and management of geological disasters. In view of the sample selection strategy and the unreasonable multi-feature mapping in single-kernel vector machine, this paper proposes the landslide susceptibility analysis and evaluation method of multiple kernel support vector machine (MKSVM) considering the sample optimization selection. To ensure sample balance and improve the plausibility of negative samples, using the relative frequency ratio (relative frequency, RF) comprehensively evaluate the importance degree of each state in the influence of landslide disaster susceptibility, the purpose is to realize the reasonable division of each evaluation factor state; Using the deterministic coefficient method (certainty factor, CF) calculates the sensitivity of each state of each evaluation factor, the weighted sum has obtained the landslide disaster susceptibility index of each grid cell, non-landslide disaster points consistent with the number of landslide disaster points were randomly selected in the very low and low landslide disaster prone index as the negative sample data. Then, multi-kernel learning is used to select the SVM optimal kernel function and to linear combine the optimal kernel functions in each feature space to avoid unreasonable mapping of a single kernel function, and it improve the classification accuracy and prediction accuracy of the model. Taking Xiangxi Tujia and Miao Autonomous Prefecture of Hunan province as the research area, MKSVM model of CF sample strategy, single-kernel SVM model of CF sample strategy, MKSVM model of random sample strategy and single-kernel SVM model of random sample strategy were compared analyzed from three aspects of landslide disaster prone zoning map, partition statistics and evaluation model accuracy. The results indicate that the subject operating characteristic curves of the four models (receiver operating characteristic, area under the ROC) (area under curve, AUC) were 0.859, 0.809, 0.798, 0.766, the rationality and validity of the CF sample strategy and the reliability of the MKSVM model are verified.
Key words: landslide    susceptibility    certainty factor    multi-kernel    support vector machine    

实施科学有效的滑坡监测预警是防灾减灾工作的重要前提,而智能化、精准化和普适化的先进测绘技术为地质灾害监测预警工作提供了重要保障。目前,以InSAR[1]、地基SAR[2]为代表的遥感技术在滑坡大范围识别和监测中大展身手,以北斗[3]为代表的卫星导航技术正快速推动滑坡高精度实时监测应用的发展。卫星、无人机、测量机器人及地下光纤测量技术等构建的空天地内一体化立体监测网络,能实时获取多层次多尺度滑坡关键监测指标[4]。基于地理空间大数据、机器学习等方法的滑坡易发性分析评价,结合历史滑坡灾情隐患数据可以实现滑坡灾害风险等级的精准反演与快速划分,为地质灾害风险调查和重点隐患排查提供快速有效的依据。

基于地理空间大数据的滑坡易发性分析评价通过构建滑坡灾害点与滑坡影响因素之间的关系,反演区域的滑坡风险等级。滑坡灾害成因复杂,其影响因素主要分为两种:引起滑坡的内部孕灾因子(地形地貌、地质构造、交通水系等)与外部诱发因子(降雨、地震、人类工程活动等)[5]。随着3S技术日益发展,滑坡灾害分析评价模型正逐步从单一模型到组合模型探索研究[6]。单一模型方法可分为统计分析法和机器学习法。统计分析法有证据权法[7]、信息量法[8]、确定系数法[9-11]。常用的机器学习法主要有逻辑回归法[12]、人工神经网络法[13]、随机森林法[14]和支持向量机法[15-17]等。

机器学习分析模型对数据质量有较强的依赖性,数据的质量影响模型预测精度[18]。滑坡易发性分析输入数据包括正负样本数据,一般将滑坡历史清单作为正样本数据,负样本数据包括人工现场选取和数据构建[19]。文献[2021]提出通过空间距离限制负样本,该方法数据随机性较强,负样本选取质量可靠性低,影响易发性模型训练精度。文献[9]采用下采样法对非地质灾害的栅格单元进行聚类,在聚类中心处选择与灾害点数目一致的非灾害点数据,但该方法受到区域差异的约束。文献[22]结合模糊聚类和支持向量机优化样本选择策略选择非滑坡样本,模型迭代周期长、计算复杂度较高。文献[18]研究发现,SVM由于计算速度快精度高,作为易发性最常用的模型,但是通常采用单一核函数SVM,忽略了多特征之间差异大的问题。文献[23]通过对比不同核函数SVM易发性分析,发现多核RBF函数SVM滑坡易发性精度最高。本文选取9种特征因子构建分类特征,特征之间差异明显,例如年降雨量和坡度表现不同的分布特征,解决了单一核函数SVM模型预测不能表达多特征映射影响预测精度的问题。

针对上述经典的方法没有考虑各孕灾因子各分级状态的滑坡敏感性及单一核函数难以解决多特征映射的差异问题,本文提出顾及样本优化选择的多核支持向量机(multiple kernel support vector machine,MKSVM)滑坡易发性分析评价方法。样本优化选择利用确定性系数法计算各评价因子各分级状态下影响滑坡灾害的敏感性,对敏感值进行加权求和得到各栅格单元的滑坡灾害易发性指数,将滑坡灾害易发性指数的极低和低易发区作为非滑坡点范围约束的同时,结合滑坡点与非滑坡点之间的距离、非滑坡点与非滑坡点之间的距离作为距离约束条件,随机选择与滑坡灾害点数目一致的非滑坡灾害点,可以得到准确性较高的训练负样本数据,该方法通过最大化非滑坡点与滑坡点特征之间差异,并结合一定空间约束,提高负样本选择的合理性;然后在此数据基础上提出MKSVM滑坡灾害易发性分析评价模型,对各特征空间核函数进行线性组合,避免单个核函数映射不合理,提高模型的适用性。

1 研究区概况及数据源 1.1 研究区概况

湘西土家族苗族自治州位于湖南省西北部,坐标为109°10′E—110°22.5′E,27°44.5′N—29°38′N,地处武陵山区与云贵高原过渡带,山间有小型盆地和沿河谷地(图 1)。武陵山主脉绵亘中部,呈东北—西南走向,东南部属沅江河谷低山丘陵区,沅江支流武水、酉水为主要河流。全州总面积为15 462 km2[24]。地势由西北向东南倾斜,平均海拨800~1200 m,东西部为低山丘陵区,平均海拔200~500 m,溪河纵横其间,两岸多冲积平原。地貌形态的总体轮廓以山原山地为主,兼有丘陵和小平原,并向西北突出弧形山区地貌。年降雨量1300~1500 mm,雨量集中在春、夏两季。湘西州地质灾害类型以滑坡为主,其次为崩塌、泥石流、地面塌陷等地质灾害,灾害规模均以中小型为主,主要分布于降雨强度大及人类工程活动强烈的区域,其中,暴雨期间仍是地质灾害的高发频发期。

图 1 研究区滑坡灾害点分布 Fig. 1 Distribution of landslide disaster points in the study area

1.2 数据源

湘西州滑坡灾害点来源于中国科学院资源环境科学数据中心资源环境数据云平台(http://www.resdc.cn/Default.aspx),获取时间为2017年,分辨率为30 m。数字高程模型(digital elevation model, DEM)数据来源于美国NASA地球数据网站的ASTER GDEMDEM 30 m分辨率数字高程数据(https://search.earthdata.nasa.gov/search),获取时间为2018年。地质岩性数据来源于中国科学院资源环境科学数据中心资源环境数据云平台(http://www.resdc.cn/Default.aspx),获取时间为2018年,分辨率为30 m。NDVI数据来源于Landsat 8 OLI_TIRS卫星数字产品数据30 m空间分辨率(https://search.earthdata.nasa.gov/search),获取时间为2018年。年降水量数据来源于美国NASA网站的全球降水测量数据level3(https://pmm.nasa.gov/precipitation-measurement-missions),获取时间为2018年。距离道路数据、距离河流数据、距离居民点数据来自于地理国情普查成果数据,获取时间为2018年。为便于统计与分析,结合DEM、遥感影像数据分辨率,将湘西州区按照30×30 m的栅格大小进行划分,划分后的研究区共有31 374 840个栅格单元。

1.3 指标因子选取

根据研究区实际情况以及对影响滑坡灾害发生的地形地貌、地层岩性、地质构造、降雨、地表水及人为因素进行分析[24-29],选取了高程、坡度、坡向、地层岩性、植被覆盖指数(NDVI)、年累计降雨量、距道路距离、距河流距离及距居民点距离9个评价因子,如图 2所示。利用逐步回归法对所选特征因子进行多重共线性检验,通过容忍度(T)和方差膨胀因子(VIF)检验各个特征因子之间的相关性。结果显示,所选特征因子T均大于0.1,且VIF均小于10,说明各个因子共线性程度低,具有较好的独立性。

图 2 特征因子 Fig. 2 Feature factors

2 研究方法

本文提出顾及样本优化选择的MKSVM的滑坡灾害易发性评价方法,通过确定性系数进行样本选择,在训练样本数据集基础上采用MKSVM方法对滑坡灾害易发性模型进行训练与建模,进而实现研究区滑坡灾害易发性评价。技术流程如图 3所示。

图 3 技术流程 Fig. 3 The technological flowchart

2.1 样本优化选择

样本优化选择首先通过相对频率比综合评价各状态对于滑坡易发性影响的重要程度,实现各评价因子状态的合理划分,然后采用确定性系数法计算各评价因子各状态分级的敏感值和各栅格单元的滑坡灾害易发性指数,在滑坡灾害易发性指数的极低和低易发区随机选择与正样本(即滑坡灾害点数据)数目一致的负样本数据(非滑坡灾害点数据),二者共同组成滑坡灾害易发性评价训练样本数据集。

2.1.1 相对频率比

相对频率比表示连续型特征因子对滑坡易发性影响的重要程度,其公式如下

(1)

式中,PL为各特征因子各分级状态下滑坡栅格百分比,即为某特征因子条件下各状态分级的含有滑坡灾害点的栅格单元数与整个研究区的滑坡灾害点栅格单元总数之比;PG为各特征因子各分级状态的分级栅格百分比,即为某特征因子条件下各状态分级的栅格单元数与整个研究区的栅格单元总数之比。如果RF为正数,则说明该分级状态下较易发生滑坡灾害;如果RF为负数,则说明该分级状态下不易发生滑坡灾害。

2.1.2 确定性系数法

确定性系数法是一种分析影响事件的各种因素的敏感性的概率函数,在滑坡易发性分析评价中得到广泛的应用[30-32]。CF模型的原理公式如下

(2)

式中,Pc为各特征因子条件下各状态分级的滑坡灾害点发生概率,即为某评价因子条件下各状态分级的含有滑坡灾害点的栅格单元数与栅格单元总数的之比;Pr为整个湘西区内滑坡灾害点发生的概率,即为整个研究区内的灾害点数与栅格单元总数的之比。

在利用CF模型计算出各分级的CF值的基础上进行加权求和,得到各单元滑坡灾害易发性指数,其计算公式如下

(3)

式中,Fj为第j个评价单元的易发性指数;CFi为第i个特征因子各分级的CF值。

2.2 多核支持向量机

支持向量机是一种基于统计学习理论的监督学习方法[33],核心是构造一个最优超平面,通过最大化样本之间的间隔来区分不同的样本,这经常被用于解决二值分类问题。依据输入数据的特征,SVM通常选取4种核函数[34], 见表 1

表 1 核函数类型介绍 Tab. 1 Introduction of type of nuclear function
核函数 公式 参数
线性核函数 K(x, x)=xTx -
多项式核
函数
K(x, x)=(γxTx+r)d γ为gamma值,表示内核宽度,γ>0;d为多项式次数;r设置核函数中的coef0
RBF核
函数
K(x, x)=
eγ||xx||2
||xx||2为两个特征向量之间的平方欧氏距离;γ>0
sigmoid
核函数
K(x, x)=tanh
(γxTx+r)
γ为gamma值,表示内核宽度,γ>0;r设置核函数中的coef0

MKSVM利用多个基本核函数的线性组合来代替传统的单一核函数,能够克服传统单核函数多特征映射不合理的问题[35]。假设有一特征空间{T1, T2, T3, …, Tn},它们分别从分类问题中最常用的4个核函数(表 1)中选取SVM最优核函数。在多核映射的背景下,采用多核线性组合法将各特征空间最优核函数进行线性组合,其公式为

(4)

式中,n为基核函数的个数;Kn为基核函数。常用的核函数有线性核函数、多项式核函数、Sigmoid核函数和高斯核函数,本文采用多个RBF核函数作为基核函数。

MKSVM的优化问题需要同时求解超平面权重和核函数权重。通过两步交替优化的方式求解,首先固定核函数权重求解基本的SVM问题;然后构造关于dm的目标函数,固定超平面权重;最后用梯度下降法求解。

3 试验分析与验证

本文通过CF法进行负样本优化选择得到CF法选择样本,利用文献[18]随机选取负样本得到随机选择样本,分别利用单核SVM模型、MKSVM模型进行试验分析,从易发性结果图、分区结果统计和模型精度验证3个方面,验证本文方法的准确性和可靠性。

3.1 样本构建

在计算各评价因子各状态分级的CF值和各栅格单元的滑坡灾害易发性指数前需完成对各评价因子状态的合理划分。通过等级划分后计算出各特征因子的相对频率比,然后通过确定性系数选取非滑坡灾害点。

3.1.1 特征因子状态分级

对于同一因子的不同状态而言,若对滑坡易发性影响的重要程度相同,则可被划分为同一级别。对于离散型数据,由于本身各个等级就代表了明确的物理意义或不同的用途,因此不必进行等级划分[36]。对于连续型数据,首先将其离散化,对比分析分级栅格百分比、滑坡栅格百分比及相对频率比,综合评价各状态对于滑坡易发性影响的重要程度,对RF值相近的区间进行合并,实现各评价因子状态的合理划分[37-38],分级结果见图 4

图 4 特征因子状态分级 Fig. 4 Feature factor state grading

(1) 高程。高程是孕育滑坡灾害的条件之一。由图 4(a)可知,湘西州的滑坡主要分布在海拔较低的区域,尤其在高程为200~800 m的地区,分布了90%的滑坡灾害点;在高程为58~400 m的地区,滑坡RF值>0,利于滑坡的发生。故将研究区的高程分为5类,分类级别为58~200 m、200~400 m、400~600 m、600~800 m及大于800 m。

(2) 坡度。坡度是造成滑坡的主要特征因子。由图 4(b)统计发现,滑坡主要分布在0~30°的坡度范围内,所包含的历史滑坡灾害点占总数的95%以上,尤其在坡度为10~30°的坡度范围内,RF值>0,说明滑坡灾害多发生在10~30°的不稳定斜坡。将研究区内坡度分为4类,分类级别为0~10°、10°~20°、20°~30°及大于30°。

(3) 坡向。不同坡向,光照条件不同,导致植被覆盖度和地表径流等存在差异,从而影响斜坡的稳定性。坡向属于离散型数据,故将研究区坡度分为9类,分类级别为平面、北、东北、东、东南、南、西南、西及西北。

(4) 距道路距离。道路是人类活动因素之一,它体现了人类活动对滑坡灾害的影响。以500 m为步长将距道路距离的数据离散化,如图 4(c)所示。由图 4(c)可以看出,相较于等步长的区间,在距离道路0~500 m的区域内滑坡灾害点分布数量最多,且RF值最高,说明在该区间内人类工程活动对滑坡灾害的影响程度较大;在距离道路2000~4500 m的区域内,滑坡的RF值相近,故将区间合并;当距离道路5000 m以上时,滑坡的RF值几乎为负数或近于0,说明该区间道路对滑坡灾害的影响程度不大。故本文将道路缓冲区分为7类,分类级别为0~500 m、500~1000 m、1000~1500 m、1500~2000 m、2000~4500 m、4500~5000 m及大于5000 m。

(5) 距河流距离。地表水和地下水的活动容易引起滑坡灾害,这两个因素将直接影响滑坡的稳定性。以200 m为步长将距河流距离的数据离散化,如图 4(d)所示。由图 4(d)可以看出,在距离河流0~400 m的区间内RF值相对较高,较易发生滑坡灾害;在距离河流1800~2400 m的区间内,滑坡的RF值相近,故将区间合并;当距离河流2400 m以上时,滑坡的RF值全为负数,说明该区间河流对滑坡灾害的影响程度不大。故本文将河流缓冲区分为11个类,分类级别为0~200 m、200~400 m、400~600 m、600~800 m、800~1000 m、1000~1200 m、1200~1400 m、1400~1600 m、1600~1800 m、1800~2400 m及大于2400 m。

(6) 距居民点距离。人类工程活动的增多使得相关的滑坡灾害也日益增多,大部分滑坡与建筑物开挖和道路工程有直接关系。以5000 m为步长将距居民点距离的数据离散化,如图 4(e)所示。由图 4(e)可以看出,在距离居民点0~30 000 m的区域,分布了82%以上的滑坡灾害点,且在距离居民点0~5000 m的区域内RF值最高,说明在该区间人类工程活动对滑坡灾害的影响程度较大。故将居民点缓冲区分为7类,分类级别为0~5000 m、5000~10 000 m、10 000~15 000 m、15 000~20 000 m、20 000~ 25 000 m、25 000~30 000 m及大于30 000 m。

(7) 植被指数。植被种类和覆盖情况可以降低滑坡灾害的发生的概率。由图 4(f)可以看出,植被指数在-0.1~0时,RF值最高,说明该植被指数范围内较易发生滑坡灾害;植被指数在0~0.4或0.4~0.6时,滑坡的RF值相近,故将区间合并;植被指数在-0.26~-0.1且>0.6时,无滑坡灾害发生。故本文将归一化的植被指数分为5类,分类级别为-0.26~-0.1、-0.1~0、0~0.4、0.4~0.6及大于0.6。

(8) 岩性。地层岩性的物质状态是滑坡发生的可能性和发育成长时间长短的决定性因素。岩性属于离散性数据,故将地层岩性分为7类,分别是第四纪、白垩纪、三叠纪、二叠纪、泥盆纪、志留纪、奥陶纪及寒武纪。

(9) 年累计降雨量。降雨是滑坡发生的主要外部原因。据分析,大雨或连续降雨时期是滑坡灾害发生频次最多的时期。以10 mm为步长将年累计降雨量的数据离散化,由图 4(g)可知年累计降雨量在1356~1366 mm和1376~1386 mm时,RF值较高;年累计降雨量分别在1406~1426 mm、1426~1456 mm、1456~1476 mm时,RF值相近,故将区间合并。故将年累计降雨量分为10类,分类级别为1346~ 1356 mm、1356~1366 mm、1366~ 1376 mm、1376~1386 mm、1386~1396 mm、1396~ 1406 mm、1406~1426 mm、1426~1456 mm、1456~1476 mm及1476~1486 mm。

3.1.2 样本选择结果

正样本(滑坡灾害点)数据如图 5(a)所示,随机选择负样本(非滑坡灾害点)空间分布如图 5(b)所示,CF法选择负样本空间分布如图 5(c)所示。结合图 6负样本在各类高程中数量可以看出,随机选择负样本方法获取的样本不受高程影响,在空间中分布较为均匀;CF法选择的负样本数量在400~600 m、大于800 m的高程区域明显高于随机选择方法,选取的样本具有较强的稳健性。

图 5 样本分布情况 Fig. 5 Distribution of samples sites

图 6 负样本分布情况 Fig. 6 Distribution of samples sites

3.2 滑坡易发性分区结果分析

为了验证CF法样本选择策略的有效性和MKSVM模型的可靠性。本文对随机选择样本和CF法选择样本分别利用单核SVM模型和MKSVM模型进行试验分析,开展了随机选择样本的单核SVM模型(random slect-support vector mechine, RS-SVM)、随机选择样本的MKSVM模型(random slect-multiple kernel support vector machine, RS-MKSVM)、CF法选择样本的单核SVM模型(certainty factor-support vector mechine, CF-SVM)、CF法选择样本的MKSVM模型(certainty factor-multiple kernel support vector machine, CF-MKSVM)的易发性评价结果。将4种方法的易发性结果分成极低易发区、低易发区、中易发区、高易发区及极高易发区5个分区,结果如图 7所示。

图 7 滑坡易发性分析评价结果 Fig. 7 Evaluation results of landslide susceptibility

图 7可知,极高易发区主要分布在湘西州东南部和西北部,这是因为该区域沟壑纵横、坡度陡峭,地质构造复杂,且被两条主要河流贯穿,再加上日益增多的人类工程活动(如道路工程),使得该区域极易发生滑坡灾害。对比图 7的易发性评价结果可以发现,4种模型的极高易发区和高易发区所占面积逐渐增大,所包含的滑坡灾害点个数逐渐增加,说明相比于图 7(a)图 7(c)图 7(d)的CF-MKSVM模型易发性评价结果与滑坡灾害点实际分布规律较为吻合。

3.3 易发分区统计分析

为了便于统计与分析,统一9个特征因子图层的空间参考坐标、栅格大小和栅格行列数。分析并统计训练样本中滑坡灾害点、非滑坡灾害点分别落入5个易发分区的数量以及它们占滑坡灾害点总数、非滑坡灾害点总数的比例。由表 2可知,4种方法随着灾害易发性的提高,各分区滑坡灾害点占比亦逐渐增加,在极高易发区达到最大,所占比例依次为55.72%、51.24%、38.31%、31.34%;同时在极低易发区内非滑坡灾害点数量占比比各分区大,所占比例依次为48.01%、40.30%、37.06%、35.07%。可以看出,4种模型方法均能够对滑坡灾害的易发性进行很好的预测,但相比RS-SVM和RS-MKSVM模型,CF-SVM和CF-MKSVM模型精度更高;且相比单核SVM模型,MKSVM模型精度更高。所以,相比其他3种方法,CF-MKSVM模型具备相对较高的预测能力和精度。

表 2 统计分析表 Tab. 2 Statistical tables
模型 易发区
分类
滑坡
灾害点
个数
灾害点占
总数的比
例/(%)
非滑坡
灾害点
个数
非灾害点占
总数的比
例/(%)
CF- MKSVM 极低易发区 7 1.74 193 48.01
低易发区 25 6.22 87 21.64
中易发区 42 10.45 64 15.92
高易发区 104 25.87 44 10.95
极高易发区 224 55.72 14 3.48
CF-SVM 极低易发区 5 1.24 162 40.30
低易发区 32 7.96 111 27.61
中易发区 60 14.93 67 16.67
高易发区 99 24.63 53 13.18
极高易发区 206 51.24 9 2.24
RS- MKSVM 极低易发区 22 5.47 149 37.06
低易发区 45 11.19 125 31.09
中易发区 81 20.15 60 14.93
高易发区 121 30.10 40 9.95
极高易发区 154 38.31 7 1.74
RS-SVM 极低易发区 26 6.47 141 35.07
低易发区 51 12.69 127 31.59
中易发区 88 21.89 84 20.90
高易发区 111 27.61 33 8.21
极高易发区 126 31.34 17 4.23

3.4 模型精度验证

为评估本文方法和单核SVM模型的预测精度,本文采用受试者工作特征(receiver operating characteristic, ROC)曲线进行验证[39],它实际上反映了特异性与灵敏度的关系,是真阳性率与假阳性率的关系图。其背后的逻辑是,如果一项测试没有诊断能力,那么它产生真阳性或假阳性的可能性是相同的。随着诊断能力的增加,即特异性的提升,真阳性率上升,假阳性下降。ROC曲线下的面积(area under curve,AUC)大小代表评价模型精度的大小,面积值越接近1表示评价模型的预测效果越好,面积值等于0.5时无应用价值。4种模型的ROC曲线与AUC值如图 8表 3所示。

图 8 ROC曲线 Fig. 8 ROC curve

表 3 AUC值 Tab. 3 AUC value
模型 AUC值(曲线下方的区域)
RS-SVM 0.766
RS-MKSVM 0.798
CF-SVM 0.809
CF-MKSVM 0.859

图 8可知,4种模型都有较好的预测准确率,从细节上来看,CF-MKSVM模型中,离左上角最近的点要比另3种模型ROC曲线中的点距离参考线更远,在一定程度上说明了CF-MKSVM模型要优于另3种模型。

表 3可知,CF-MKSVM模型、CF-SVM模型、RS-MKSVM模型及RS-SVM模型曲线下的面积(AUC值)分别为0.859、0.809、0.798、0.766。由此可见,CF-MKSVM模型相比其余3种评价模型有较高的预测精度,对湘西地区的滑坡易发性分析评价更准确和可靠,为湘西州滑坡灾害治理与决策提供参考依据。

4 结论

滑坡灾害易发性分析可以为滑坡监测提供重点目标和区域,提高监测效率[40-41]。本文以湖南省湘西州为研究区,分析选取了高程、坡度、坡向、植被指数、距道路距离、距水系距离、距居民点距离、年降雨量及地层岩性9个特征影响因子,验证了滑坡样本质量对滑坡易发性的影响,利用确定性系数法改进了样本选择策略。同时利用多核学习选取SVM最优核函数,对各特征空间最优核函数进行线性组合,提出了顾及样本优化选择的MKSVM滑坡易发性分析评价方法;从滑坡灾害易发性分区图、分区统计及评价模型精度3个方面对CF-MKSVM模型、CF-SVM模型、RS-MKSVM模型、RS-SVM模型进行了对比分析。试验结果表明:①负样本选择质量影响滑坡易发性分析精度;②本文提出的CF样本选择策略提高了负样本选择质量,改进了滑坡灾害易发性评价模型训练精度;③相比单一核函数的SVM模型,MKSVM模型通过多特征映射选取最优线性核函数,从而提高了模型的分类准确率和预测精度;④CF-MKSVM模型预测精度优于其他3种模型的预测精度,具有较高的准确性、可靠性,对减少滑坡灾害带来的损失,提高滑坡灾害防治工作的效率具有重要理论意义与实际价值。


参考文献
[1]
朱建军, 李志伟, 胡俊. InSAR变形监测方法与研究进展[J]. 测绘学报, 2017, 46(10): 1717-1733.
ZHU Jianjun, LI Zhiwei, HU Jun. Research progress and methods of InSAR for deformation monitoring[J]. Acta Geodaetica et Cartographica Sinica, 2017, 46(10): 1717-1733. DOI:10.11947/j.AGCS.2017.20170350
[2]
赵超英, 刘晓杰, 张勤, 等. 甘肃黑方台黄土滑坡InSAR识别、监测与失稳模式研究[J]. 武汉大学学报(信息科学版), 2019, 44(7): 996-1007.
ZHAO Chaoying, LIU Xiaojie, ZHANG Qin, et al. Research on loess landslide identification, monitoring and failure mode with InSAR technique in Heifangtai, Gansu[J]. Geomatics and Information Science of Wuhan University, 2019, 44(7): 996-1007.
[3]
白正伟, 张勤, 黄观文, 等. "轻终端+行业云"的实时北斗滑坡监测技术[J]. 测绘学报, 2019, 48(11): 1424-1429.
BAI Zhengwei, ZHANG Qin, HUANG Guanwen, et al. Real-time BeiDou landslide monitoring technology of "light terminal plus industry cloud"[J]. Acta Geodaetica et Cartographica Sinica, 2019, 48(11): 1424-1429. DOI:10.11947/j.AGCS.2019.20190167
[4]
李振洪, 宋闯, 余琛, 等. 卫星雷达遥感在滑坡灾害探测和监测中的应用: 挑战与对策[J]. 武汉大学学报(信息科学版), 2019, 44(7): 967-979.
LI Zhenhong, SONG Chuang, YU Chen, et al. Application of satellite radar remote sensing to landslide detection and monitoring: challenges and solutions[J]. Geomatics and Information Science of Wuhan University, 2019, 44(7): 967-979.
[5]
LIU Chun, LI Weiyue, WU Hangbin, et al. Susceptibility evaluation and mapping of China's landslides based on multi-source data[J]. Natural Hazards, 2013, 69(3): 1477-1495. DOI:10.1007/s11069-013-0759-y
[6]
刘璐瑶, 高惠瑛. 基于证据权与Logistic回归模型耦合的滑坡易发性评价[J/OL]. 工程地质学报: 1-11[2022-10-26]. DOI: 10.13544/j.cnki.jeg.2020-482.
LIU Luyao, GAO Huiying. Evaluation of the landslide susceptibility based on the coupling of the evidence weights and the Logistic regression model[J/OL]. Engineering Geological Journal: 1-11. [2022-10-26]. DOI: 10.13544/j.cnki.jeg.2020-482.
[7]
胡燕, 李德营, 孟颂颂, 等. 基于证据权法的巴东县城滑坡灾害易发性评价[J]. 地质科技通报, 2020, 39(3): 187-194.
HU Yan, LI Deying, MENG Songsong, et al. Landslide susceptibility evaluation in Badong county based on weights of evidence method[J]. Bulletin of Geological Science and Technology, 2020, 39(3): 187-194.
[8]
王佳佳, 殷坤龙, 肖莉丽. 基于GIS和信息量的滑坡灾害易发性评价——以三峡库区万州区为例[J]. 岩石力学与工程学报, 2014, 33(4): 797-808.
WANG Jiajia, YIN Kunlong, XIAO Lili. Landslide susceptibility assessment based on GIS and weighted information value: a case study of Wanzhou district, Three Gorges Reservoir[J]. Chinese Journal of Rock Mechanics and Engineering, 2014, 33(4): 797-808. DOI:10.13722/j.cnki.jrme.2014.04.012
[9]
李远远, 梅红波, 任晓杰, 等. 基于确定性系数和支持向量机的地质灾害易发性评价[J]. 地球信息科学学报, 2018, 20(12): 1699-1709.
LI Yuanyuan, MEI Hongbo, REN Xiaojie, et al. Geological disaster susceptibility evaluation based on certainty factor and support vector machine[J]. Journal of Geo-Information Science, 2018, 20(12): 1699-1709. DOI:10.12082/dqxxkx.2018.180349
[10]
LONG N, DE SMEDT F. Analysis and mapping of rainfall-induced landslide susceptibility in A Luoi district, Thua Thien Hue province, Vietnam[J]. Water, 2018, 11(1): 51. DOI:10.3390/w11010051
[11]
WU Yanli, LI Wenping, WANG Qiqing, et al. Landslide susceptibility assessment using frequency ratio, statistical index and certainty factor models for the Gangu county, China[J]. Arabian Journal of Geosciences, 2016, 9(2): 1-16.
[12]
张俊, 殷坤龙, 王佳佳, 等. 三峡库区万州区滑坡灾害易发性评价研究[J]. 岩石力学与工程学报, 2016, 35(2): 284-296.
ZHANG Jun, YIN Kunlong, WANG Jiajia, et al. Evaluation of landslide susceptibility for Wanzhou district of Three Gorges Reservoir[J]. Chinese Journal of Rock Mechanics and Engineering, 2016, 35(2): 284-296.
[13]
田乃满, 兰恒星, 伍宇明, 等. 人工神经网络和决策树模型在滑坡易发性分析中的性能对比[J]. 地球信息科学学报, 2020, 22(12): 2304-2316.
TIAN Naiman, LAN Hengxing, WU Yuming, et al. Performance comparison of BP artificial neural network and CART decision tree model in landslide susceptibility prediction[J]. Journal of Geo-Information Science, 2020, 22(12): 2304-2316. DOI:10.12082/dqxxkx.2020.190766
[14]
刘坚, 李树林, 陈涛. 基于优化随机森林模型的滑坡易发性评价[J]. 武汉大学学报(信息科学版), 2018, 43(7): 1085-1091.
LIU Jian, LI Shulin, CHEN Tao. Landslide susceptibility assesment based on optimized random forest model[J]. Geomatics and Information Science of Wuhan University, 2018, 43(7): 1085-1091.
[15]
毛伊敏, 周昭飞, 彭喆, 等. 基于不确定多分类支持向量机在滑坡危险性预测的应用[J]. 江西理工大学学报, 2016, 37(3): 102-108.
MAO Yimin, ZHOU Zhaofei, PENG Zhe, et al. Landslide hazard prediction based on uncertain multi-classification support vector machine method[J]. Journal of Jiangxi University of Science and Technology, 2016, 37(3): 102-108.
[16]
BENDAHMANE A, BENYETTOU A. Learning to generate optimized term weighting for web documents classification: a parallel mimetic approach based on support vector machines[J]. International Review on Computers and Software (IRECOS), 2016, 11(12): 1147.
[17]
GACHOKI P, MBURU M, MURAYA M. Predictive modelling of benign and malignant tumors using binary logistic, support vector machine and extreme gradient boosting models[J]. American Journal of Applied Mathematics and Statistics, 2019, 7(6): 196-204.
[18]
REICHENBACH P, ROSSI M, MALAMUD B D, et al. A review of statistically-based landslide susceptibility models[J]. Earth-Science Reviews, 2018, 180: 60-91.
[19]
HU Qiao, ZHOU Yi, WANG Shixing, et al. Machine learning and fractal theory models for landslide susceptibility mapping: case study from the Jinsha River basin[J]. Geomorphology, 2020, 351: 106975.
[20]
徐胜华, 刘纪平, 王想红, 等. 熵指数融入支持向量机的滑坡灾害易发性评价方法——以陕西省为例[J]. 武汉大学学报(信息科学版), 2020, 45(8): 1214-1222.
XU Shenghua, LIU Jiping, WANG Xianghong, et al. Landslide susceptibility assessment method incorporating index of entropy based on support vector machine: a case study of Shaanxi province[J]. Geomatics and Information Science of Wuhan University, 2020, 45(8): 1214-1222.
[21]
林荣福, 刘纪平, 徐胜华, 等. 随机森林赋权信息量的滑坡易发性评价方法[J]. 测绘科学, 2020, 45(12): 131-138.
LIN Rongfu, LIU Jiping, XU Shenghua, et al. Evaluation method of landslide susceptibility based on random forest weighted information[J]. Science of Surveying and Mapping, 2020, 45(12): 131-138.
[22]
LIU Mengmeng, LIU Jiping, XU Shenghua, et al. Landslide susceptibility mapping with the fusion of multi-feature SVM model based FCM sampling strategy: a case study from Shaanxi province[J]. International Journal of Image and Data Fusion, 2021, 12(4): 349-366.
[23]
FANG Zhice, WANG Yi, DUAN Hexiang, et al. Comparison of general kernel, multiple kernel, infinite ensemble and semi-supervised support vector machines for landslide susceptibility prediction[J]. Stochastic Environmental Research and Risk Assessment, 2022, 36(3): 1-22.
[24]
易波琳. 大湘西地区滑坡地质灾害影响因素及形成机制分析[J]. 地球, 2016(11): 390-391.
Yi Bolin. Analysis of influencing factors and formation mechanism of landslide geological disasters in Great Xiangxi region[J]. The Earth, 2016(11): 390-391.
[25]
张福浩, 朱月月, 赵习枝, 等. 地理因子支持下的滑坡隐患点空间分布特征及识别研究[J]. 武汉大学学报(信息科学版), 2020, 45(8): 1233-1244.
ZHANG Fuhao, ZHU Yueyue, ZHAO Xizhi, et al. Spatial distribution and identification of hidden danger points of landslides based on geographical factors[J]. Geomatics and Information Science of Wuhan University, 2020, 45(8): 1233-1244.
[26]
刘璐瑶, 高惠瑛, 李照. 基于CF与Logistic回归模型耦合的永嘉县滑坡易发性评价[J]. 中国海洋大学学报(自然科学版), 2021, 51(10): 121-129.
LIU Luyao, GAO Huiying, LI Zhao. Landslide susceptibility assessment based on coupling of CF model and logistic regression model in Yongjia county[J]. Periodical of Ocean University of China, 2021, 51(10): 121-129.
[27]
LEE Saro, HONG Soomin, JUNG Hyungsup. A support vector machine for landslide susceptibility mapping in Gangwon province, Korea[J]. Sustainability, 2017, 9(1): 48.
[28]
孙德亮. 基于机器学习的滑坡易发性区划与降雨诱发滑坡预报预警研究[D]. 上海: 华东师范大学, 2019.
SUN Deliang. Mapping landslide susceptibility based on machine learning and forecast warning of landslide induced by rainfall[D]. Shanghai: East China Normal University, 2019.
[29]
XU Shenghua, ZHANG Meng, MA Yu, et al. Multiclassification method of landslide risk assessment in consideration of disaster levels: a case study of Xianyang city, Shaanxi province[J]. ISPRS International Journal of Geo-Information, 2021, 10(10): 646.
[30]
刘月, 王宁涛, 周超, 等. 基于ROC曲线与确定性系数法集成模型的三峡库区奉节县滑坡易发性评价[J]. 安全与环境工程, 2020, 27(4): 61-70.
LIU Yue, WANG Ningtao, ZHOU Chao, et al. Evaluation of landslide susceptibility based on ROC and certainty factor method in Fengjie county, Three Gorges Reservoir[J]. Safety and Environmental Engineering, 2020, 27(4): 61-70.
[31]
CHEN Zhuo, LIANG Shouyun, KE Yutian, et al. Landslide susceptibility assessment using evidential belief function, certainty factor and frequency ratio model at Baxie River basin, NW China[J]. Geocarto International, 2019, 34(4): 348-367.
[32]
FAN Wen, WEI Xinsheng, CAO Yanbo, et al. Landslide susceptibility assessment using the certainty factor and analytic hierarchy process[J]. Journal of Mountain Science, 2017, 14(5): 906-925.
[33]
MAHAJAN S, RAINA A, GAO Xiaozhi, et al. Plant recognition using morphological feature extraction and transfer learning over SVM and AdaBoost[J]. Symmetry, 2021, 13(2): 356.
[34]
陈军. 全极化SAR分类若干关键技术研究[D]. 徐州: 中国矿业大学, 2015.
CHEN Jun. Research on some key techniques for fully polarimetric SAR image classification[D]. Xuzhou: China University of Mining and Technology, 2015.
[35]
张宪法, 郝矿荣, 陈磊. 免疫多域特征融合的多核学习SVM运动想象脑电信号分类[J]. 自动化学报, 2020, 46(11): 2417-2426.
ZHANG Xianfa, HAO Kuangrong, CHEN Lei. Motor imagery EEG classification based on immune multi-domain-feature fusion and multiple kernel learning SVM[J]. Acta Automatica Sinica, 2020, 46(11): 2417-2426.
[36]
郭子正, 殷坤龙, 付圣, 等. 基于GIS与WOE-BP模型的滑坡易发性评价[J]. 地球科学, 2019, 44(12): 4299-4312.
GUO Zizheng, YIN Kunlong, FU Sheng, et al. Evaluation of landslide susceptibility based on GIS and WOE-BP model[J]. Earth Science, 2019, 44(12): 4299-4312.
[37]
张晓敏. 基于GIS的陕西省滑坡灾害危险性评价及分区研究[D]. 西安: 长安大学, 2019.
ZHANG Xiaomin. Hazard assessment and zoning research of landslide in Shaanxi province based on GIS[D]. Xi'an: Changan University, 2019.
[38]
闫举生, 谭建民. 基于不同因子分级法的滑坡易发性评价——以湖北远安县为例[J]. 中国地质灾害与防治学报, 2019, 30(1): 52-60.
YAN Jusheng, TAN Jianmin. Landslide susceptibility assessment based on different factor classification methods: a case study in Yuan'an county of Hubei province[J]. The Chinese Journal of Geological Hazard and Control, 2019, 30(1): 52-60.
[39]
武雪玲, 任福, 牛瑞卿. 多源数据支持下的三峡库区滑坡灾害空间智能预测[J]. 武汉大学学报(信息科学版), 2013, 38(8): 963-968.
WU Xueling, REN Fu, NIU Ruiqing. Spatial intelligent prediction of landslide hazard based on multi-source data in Three Gorges Reservoir area[J]. Geomatics and Information Science of Wuhan University, 2013, 38(8): 963-968.
[40]
许强, 朱星, 李为乐, 等. "天-空-地"协同滑坡监测技术进展[J]. 测绘学报, 2022, 51(7): 1416-1436.
XU Qiang, ZHU Xing, LI Weile, et al. Technical progress of space-air-ground collaborative monitoring of landslide[J]. Acta Geodaetica et Cartographica Sinica, 2022, 51(7): 1416-1436. DOI:10.11947/j.AGCS.2022.20220320
[41]
张勤, 赵超英, 陈雪蓉. 多源遥感地质灾害早期识别技术进展与发展趋势[J]. 测绘学报, 2022, 51(6): 885-896.
ZHANG Qin, ZHAO Chaoying, CHEN Xuerong. Technical progress and development trend of geological hazards early identification with multi-source remote sensing[J]. Acta Geodaetica et Cartographica Sinica, 2022, 51(6): 885-896. DOI:10.11947/j.AGCS.2022.20220132
http://dx.doi.org/10.11947/j.AGCS.2022.20220326
中国科学技术协会主管、中国测绘地理信息学会主办。
0

文章信息

刘纪平,梁恩婕,徐胜华,刘猛猛,王勇,张福浩,罗安
LIU Jiping, LIANG Enjie, XU Shenghua, LIU Mengmeng, WANG Yong, ZHANG Fuhao, LUO An
顾及样本优化选择的多核支持向量机滑坡灾害易发性分析评价
Multi-kernel support vector machine considering sample optimization selection for analysis and evaluation of landslide disaster susceptibility
测绘学报,2022,51(10):2034-2045
Acta Geodaetica et Cartographica Sinica, 2022, 51(10): 2034-2045
http://dx.doi.org/10.11947/j.AGCS.2022.20220326

文章历史

收稿日期:2022-05-16
修回日期:2022-07-12

相关文章

工作空间