刘耀林1, 刘启亮2, 邓敏2, 石岩2     
1. 武汉大学资源与环境学院, 湖北 武汉 430079;
2. 中南大学地球科学与信息物理学院, 湖南 长沙 410083
摘要:大数据时代, 全面涵盖人类活动与地理环境信息的地理大数据为更全面认识“人-地”关系提供了新的机遇。数据挖掘是地理大数据产生“大价值”的关键。与传统目的性采样数据(或“小数据”)相比, 地理大数据具有更细的时空粒度、更广的时空范围、更丰富的人地关系信息、更高的时空有偏性及更低的时空精度。地理大数据的独特性使得地理大数据挖掘面临新的挑战。本文首先对地理大数据挖掘与空间数据挖掘的区别与联系进行分析; 然后, 对当前地理大数据挖掘方法、应用及软件的研究进展进行回顾和总结; 最后, 对地理大数据挖掘面临的挑战和发展趋势进行了展望。通过对地理大数据挖掘研究进展进行系统的分析, 有望为地理大数据挖掘理论与方法的完善提供一定的参考和借鉴。
关键词地理大数据    数据挖掘    时空模式    尺度    
Recent advance and challenge in geospatial big data mining
LIU Yaolin1, LIU Qiliang2, DENG Min2, SHI Yan2     
1. School of Resource and Environmental Science, Wuhan University, Wuhan 430079, China;
2. School of Geosciences and Info-physics, Central South University, Changsha 410083, China
Abstract: In the era of big data, geospatial big data provide new opportunities for understanding complex human-land relationships. Data mining is essential for revealing valuable spatio-temporal patterns (e.g., clusters, outliers, association rules, etc.) hidden in geospatial big data. Geospatial big data has some unique characteristics, e.g., fine spatio-temporal granularity, wide spatio-temporal scope, rich information on human-land relationships, high spatio-temporal bias, and low spatio-temporal precision. Geospatial big data requires specially designed data mining methods given its unique characteristics. In this study, we first analyzed the relationships between spatial data mining and geospatial big data mining, then reviewed recent advances in geospatial big data mining, and finally summarized the challenges and further research directions of geospatial big data mining. This review is expected to provide some valuable reference for the improvement of theories and methods of geospatial big data mining.
Key words: geospatial big data    data mining    spatio-temporal pattern    scale    


地理大数据实现大价值的关键在于数据分析和挖掘[13]。当前,来自地理信息科学、信息科学及复杂系统领域的诸多学者已经针对地理大数据分析和挖掘开展了大量的研究,一些重要的成果相继涌现,如采用搜索引擎数据预测流感暴发[14]、采用手机数据预测人类行为[15]和制定新冠疫情防控措施[16]等;一些新的地理大数据分析和挖掘概念被相继提出,如社会感知计算(socially aware computing)[17]、城市计算(urban computing)[18]、社会感知(social sensing)[19]等。经过20多年的发展,地理大数据挖掘已经由一个新生概念逐渐成长发展,在智慧城市[20]、交通管控[21]、公共安全[22]、环境保护[23]、气候变化[24]、流行病防控[16]、矿产资源勘查[25]等领域发挥了重要价值。在取得这些进展的同时,也需要我们进一步思考:地理大数据为数据挖掘带来了哪些新的机遇和挑战?地理大数据挖掘方法相比传统的空间数据挖掘方法到底有哪些独特性?未来地理大数据挖掘需要突破哪些关键问题?本文尝试从3个方面回答上述问题:首先,从地理大数据的特点出发对地理大数据挖掘的独特性与继承性进行剖析;然后,对当前代表性的地理大数据挖掘方法与应用案例进行分类和评述;最后,对地理大数据挖掘未来的发展方向进行展望。

1 地理大数据挖掘的变与不变

地理大数据挖掘面临的挑战和机遇本质上是由于地理大数据具有与传统目的性采样“小数据”不同的独有特征。通常认为大数据具有“5V”特征[26],即海量(volume)、更新速度快(velocity)、多样性(variety)、价值密度低(value)和真实性差(veracity)。实际上,上述“5V”特征自20世纪90年代提出空间数据挖掘的概念以来,也被认为是空间数据的重要特征[27]。地理大数据真正区别于传统空间数据的特征是什么?笔者认为其关键区别体现在采集手段、信息内涵与尺度特征3个方面(表 1)。

表 1 地理大数据与传统空间数据的区别 Tab. 1 Differences between geospatial big data and traditional spatial data
数据 抽样设计 代表性 可靠性 信息来源 分辨率 范围 精度
地理大数据 广 广

1.1 地理大数据的特殊性




1.2 地理大数据挖掘的继承性




2 地理大数据挖掘研究进展


2.1 地理大数据挖掘方法研究


2.1.1 地理大数据聚类分析

地理大数据聚类分析旨在依据地理实体间的相似性,将地理实体划分为一系列内部相似、外部相异的簇结构。地理大数据聚类是发现地理时空格局的重要手段。当前地理大数据聚类分析方法主要还是分为3种类型[45]:划分的方法(簇可以用其中心表示,且簇内实体与簇的中心尽可能接近,而尽可能远离其他簇的中心)、层次的方法(簇由实体通过相互间的邻近关系构成)及基于密度的方法(簇被定义为被低密度区域分隔的连通高密度区域)。地理大数据聚类分析在3个方面具有新的变化:①新的聚类特征。人类移动轨迹、手机信令等数据蕴含的人类互动特征需要一定的特征表征方法进行量化,当前学者们已经从出行OD数据中构造了不同类型的特征向量进行聚类分析[46-47],能够更好地发现人类活动的时空分异特征,可以从人类活动的视角对从城市空间结构进行认知和反演;也有一些学者采用矩阵分解、词嵌入等方法发现人类活动的隐含特征[48-49]。②流数据的聚类分析。地理流描述了两个空间位置间的人流活动、物质交换等信息,改变了以距离度量空间相关性的传统认知(例如两个很远的地点,如果二者人流联系紧密也可能具有较高的相关性)[50-51]。近年来学者们针对流数据的距离度量、密度定义开展了大量的研究工作,并拓展了当前局部空间相关性统计量、层次聚类和基于密度的聚类方法,发展了一系列针对聚合流数据和单个流数据的聚类方法[52-58]。流数据的聚类分析能够定量化地描述人群移动模式的时空分布规律,有利于深入理解人群移动行为与城市空间结构的耦合关系[59-60]图 1展示了采用共享邻近密度聚类方法[58]发现的北京市出租车OD流在早高峰的聚类模式,可以清晰发现不同区域间的强交互作用及OD流的聚散模式。③空间嵌入图的聚类分析。地理单元之间通过人流、物流、信息流体现出的交互作用构成了一种空间嵌入图(节点为地理单元,节点间边的权重表示了空间交互的强度)。空间嵌入图聚类旨在发现空间嵌入图中联系紧密的子图结构(或空间社团),对于城市空间结构理解具有重要价值[61]。当前兴起于复杂网络领域的社团检测方法[62-63]已被拓展应用于空间嵌入图聚类,其主要工作集中于如何在聚类过程中考虑空间相关性(如在聚类过程中施加空间邻近性约束[64-66]或在聚类目标函数中建模空间衰减效应[67-68])。近年来,在聚类分析中融入先验知识亦开始引起国内外学者的注意,一些研究开始尝试借助知识图谱表达领域知识,并建模于聚类模型之中[69]。融入先验知识的聚类模型更有利于发现数据驱动模型难以发现的聚集模式[70],是未来地理大数据聚类分析研究的一个重要方向。

图 1 北京市五环内2016年5月23日早高峰(8:00—10:00)出租车OD流聚类分析[58] Fig. 1 OD flow clusters detected during morning rush hours (8:00—10:00) within the 5th ring road of Beijing, May 23rd, 2016[58]

2.1.2 地理大数据异常探测

地理大数据异常探测旨在发现非观测误差导致的、偏离整体或局部分布特征的少部分地理实体。当前的地理大数据异常探测方法仍主要分为3种类型[40],即全局的方法(发现偏离全体数据分布的异常数据)、局部的方法(发现偏离局部数据分布的异常数据)及考虑背景信息(发现违背已知常识的异常数据)的方法。传统的空间数据异常探测主要是针对时空位置信息与专题属性信息的异常数据识别[71-72]。地理大数据异常探测将位空间邻近性度量的概念扩展至“动态流空间”与“多维场景空间”[50, 73],从地理流过程相似性、地理场景综合相似性等多视角刻画地理实体在演化过程中的突变程度。地理大数据异常探测在3个方面具有新的变化:①在移动对象几何形态、行为特征等变量的相似性约束下,探测移动对象在时空演化过程中表现出的异常行为或属性状态。例如:时空轨迹大数据中的离群对象与异常移动行为[74-75]、空间交互出行流异常载荷与流量热点[76-77]等。②在移动对象动态演化过程相似性条件约束下(如车辆时空可达约束、人群移动强度相似性约束等), 发现呈现出的稀有分异格局或发展态势[78-81]。③在高时空分辨率地理大数据支持下,土地利用信息、城市景观分布、水土气污染分布、人类行为活动等复杂地理过程被抽象为随时间持续动态变化的流数据,多元地理要素的关联性可以在异常识别过程中被定量建模,提升了异常识别准确性与可解释性[82-84]。例如:集成多源人群移动数据中的异常活动信息可以有效增强对人类活动异常信号的表征能力,提升异常识别的灵敏度。

2.1.3 地理大数据关联关系挖掘

地理大数据关联关系挖掘旨在定量或定性地发现地理实体间的联系。回归分析是地理大数据关联关系定量挖掘的代表性方法,近年来学者们在如何建模时空相关性、异质性与变量间非线性关系等方面取得了一些重要的进展,例如:时空地理加权回归[85]、时空回归克里金[86]等。关联规则挖掘是地理大数据关联关系定性挖掘的代表性方法,旨在发现在相邻时空区域内频繁出现的地理对象关系。早期的空间关联规则挖掘方法主要是采用空间剖分的方法构建空间事务,然后应用事务型关联规则挖掘方法(如Apriori)发现空间关联规则[87-88],此类方法割裂了地理现象间的时空联系。当前地理大数据关联规则挖掘方法多不采用空间事务化的策略,而是基于邻近性与频繁性思路发现连续时空区域内的关联关系[89],主要取得了以下3方面进展:①局部关联规则挖掘模型。由于空间异质性的影响,关联规则经常在不同区域具有不同的表现形式,近年来学者们重点基于图划分和聚类分析的思想,发展了一系列局部关联规则挖掘模型[90-96],可以更加全面地发现关联规则。例如:全局与局部的城市兴趣点关联规则对于全面地理解城市功能组合规律具有重要价值[97]。②关联规则统计推断。空间关联规则挖掘往往需要人为设置频繁度阈值对规则有效性进行评价,而在大规模地理大数据关联规则挖掘任务中,阈值参数很难设定。近年来,学者们基于随机重排检验的思想,通过融入关联规则的认知规律(如空间自相关对关联规则的影响)发展了一系列全局和局部关联规则统计推断方法[98-102]。这些方法提升了关联规则挖掘的可靠性和可操作性, 例如通过对犯罪事件与地理因子间关联规则进行统计推断,可以排除一些虚假的关联模式,从而能够更好地辅助决策。③考虑额外约束的关联规则挖掘模型。地理大数据通常具有时空属性,而且人类活动受到道路网络等约束。近年来,学者们已经开始在地理大数据关联规则挖掘中,通过修改邻近关系识别方法建模时空耦合关系与路网约束[103-107],可以进一步提升挖掘结果的可靠性与可解释性。图 2展示了采用时空事件级联关联规则挖掘方法[106]发现的我国京津冀地区2014年冬季与2015年春季PM2.5污染事件时空传播规律,对于空气污染物溯源及空气污染物传播规律理解具有指导价值。图中,箭头为传播路径,点为空气质量监测站点。

图 2 京津冀地区PM2.5污染事件时空传播规律[106] Fig. 2 Spatio-temporal propagation of PM2.5 pollution events in Beijing-Tianjin-Hebei region

2.1.4 地理大数据预测建模


2.2 地理大数据挖掘应用研究


城市规划领域是当前地理大数据挖掘应用最广泛、最深入的领域[129]。地理大数据使得从微观、动态的视角发现城市中“人-地”耦合关系成为可能,促进了“以人为本”的城市规划设计,为分析城市发展现状、理解城市发展机制及科学规划城市发展提供了最基础的素材[130]。地理大数据挖掘已广泛应用于区域联系与等级体系研究、城市居民活动模式反演、城市功能与空间结构识别等方面,为城市规划提供了重要的决策信息[18, 59, 131]。在区域联系与等级体系研究方面,互联网数据、社交媒体数据、人口迁徙、手机信令、车辆轨迹等数据已用于定量衡量不同研究粒度上区域间的联系强度[7],重力模型、社团检测方法及层级分析等方法已被广泛应用于识别城市的等级体系[68, 132-133]。在城市居民活动模式反演方面,对不同类型人群活动数据反映的个体移动规律已经有了较为深刻的认识(如移动步长规律、重访概率等);地理大数据挖掘方法已经可以有效支持人群移动的“韵律性”规律、时空聚散规律及活动类型的识别[134-137];当前已经可以实现城市人口分布的精细化制图与动态预测[37, 138]。在城市功能与空间结构识别方面,国内外学者已经采用多种类型人类活动轨迹数据、社交媒体数据、城市街景数据、城市兴趣点及夜光遥感数据,借助聚类分析、关联规则挖掘、词嵌入等方法,开展了城市功能区划、城市中心区识别与土地利用反演等研究[47-48, 97, 139-141];近年来,采用多源地理大数据进行场所语义推测及场所情感感知等方面也取得了重要进展[142-143],可以进一步反映人类对城市物质空间的认知和感受。

地理大数据挖掘在智能交通领域的应用已经得到了广泛关注。海量、多源、动态、细粒度的车辆轨迹数据在道路信息提取、交通状态感知及交通流预测方面发挥了重要作用,有力提升了城市交通运营、管理与规划的水平[144]。在交通道路信息提取方面,地理大数据挖掘方法(如聚类分析)已经可以实现从多源车辆轨迹数据中生成高精度城市路网及道路语义信息(如方向、速度、车道数等)[145-148],有效服务于车辆导航等实际应用。在交通状态感知方面,地理大数据挖掘方法(如异常探测、矩阵分解等方法)已经被应用于交通拥堵与异常模式识别[149-150]、通行时间估计[151]、交通能耗估计[152]及交通调度和路径优化[153-154]等方面,有利于提升交通系统的运行效率,缓解交通拥堵等城市病问题。在交通流预测方面,基于机器学习的预测模型已经被广泛应用于交通流量预测与道路速度预测[116-118, 155],可为交通管理提供重要的决策信息。

地理大数据挖掘在环境保护方面的应用价值逐渐受到重视,已在城市空气、水质及噪声污染防控等实际应用中发挥了重要作用。在城市空气污染防控方面,地理大数据挖掘不仅可以被用于发现空气污染的时空变化规律,而且可以实现高精度、高时空分辨率空气质量预测[123-124, 156]。例如采用历史PM2.5浓度数据及城市兴趣点、交通、气象等数据,基于机器学习方法构建的预测模型可以实现千米格网、小时分辨率的高精度连续预测,对于控制污染与保护人民健康具有重要价值[112]。在城市水资源保护中,融合水质检测历史数据与多类型影响变量(如降水、兴趣点等)构建的智能预测模型可以实现城市水质的高精度连续预测[157-158],可为水污染预警预报提供重要的决策信息。在城市噪声污染防控方面,现有研究已采用多源地理大数据协同分析不同区域、不同时段的噪声污染情况,可以克服噪声污染监测的稀疏性问题,服务于城市噪声污染防控[159-160]

地理大数据在公共安全方面也取得了重要的应用成果,尤其在城市犯罪预防、人群聚集风险评估与流行病防控方法发挥了重要作用。在城市犯罪防控方面,地理大数据挖掘不仅可以被用于识别犯罪热点区域与时空分布规律,而且可以发现影响犯罪的空间因素,对于预防犯罪具有重要价值[102, 161]。在人群聚集风险评估方面,地理大数据挖掘方法可以从多源人群活动数据中发现人群异常的聚集现象,可为管理部门提供预警信息,降低人群踩踏等公共安全事件发生的风险[135, 162]。地理大数据挖掘在流行病防控方面已经发挥了重要作用,例如通过对病例人群轨迹数据进行时空聚集分析,可以有效地进行传染病溯源,发现潜在的易感染人群[163];新冠疫情防控中,结合手机信令数据和病例数据可以发现不同因素对疾病传播的影响,并预测新冠病例的地域分布与传播规律,为政府制定防疫政策提供了科学的依据[16, 164]

2.3 地理大数据挖掘软件研发

海量、多源地理大数据的存储、管理和高效计算对传统的空间数据挖掘软件提出了新的挑战。地理大数据挖掘需要分布式、并行计算的支持[165]。以Apache Hadoop为代表的开源大数据框架为大数据高性能存储和计算提供了重要支撑[166]。Hadoop框架采用Hadoop分布式文件系统(Hadoop distributed file system, HDFS)实现了对大规模数据集的分布式存储,采用MapReduce[167]计算框架实现了对大规模数据集的并行处理。MapReduce将每次处理的过程数据存入磁盘,由此产生的反复磁盘I/O操作影响计算效率。为了解决这一问题,Spark计算引擎采用抽象弹性分布式数据集(resilient distributed datasets, RDD),将中间运算结果保存在内存中,避免了对分布式文件的反复读写,其运算效率显著高于MapReduce[168]。Hadoop与Spark没有考虑地理大数据的空间属性,从而限制了其地理大数据存储与计算的能力。近年来,一些专门的地理大数据计算框架已经出现,例如SpatialHadoop[169]对Hadoop的每一层(语言层、存储层、MapReduce层和操作层)均进行了空间扩展,实现了对地理大数据的空间数据索引和空间操作功能;GeoSpark[170]对RDD进行了空间拓展,实现了地理大数据的几何操作和空间查询能力。除了以Hadoop和Spark为代表的地理大数据计算框架,近年来,一些地理大数据集成技术平台也受到了广泛关注,例如CyberGIS[171]平台集成信息基础设施(Cyber infrastructure)、地理大数据资源与数据挖掘方法,可为数据密集型与计算密集型应用提供有效的解决方案。HiGIS[172]基于高性能计算技术(HPC),提供了地理大数据存储服务、计算服务与制图服务。

当前主流的商业地理信息软件已经开始集成地理大数据挖掘功能。例如ESRI公司基于Spark框架推出了ArcGIS GeoAnalytics Server和ArcGIS Image Server用于支持地理大数据挖掘,其可以支持云存储、HDFS、Hive数据仓库等多种来源的大数据,并提供了地理大数据挖掘工具箱(https://enterprise.arcgis.com/zh-cn/)。MapGIS基于Hadoop、Spark等分布式计算框架支持地理大数据管理与计算(https://www.mapgis.com/index.php?a=shows&catid=8&id=139):结合PostgreSQL、Elasticsearch、HDFS等多种存储引擎构建MapGIS DataStore组件,实现地理大数据存储;开发了云服务集群引擎IGServer和大数据计算引擎IGServer-X,提供地理大数据挖掘服务。SuperMap采用HBase和HDFS提供大规模矢量数据的存储服务,同时通过Elasticsearch引擎提供大规模流数据的存储服务,三者共同构成了SuperMap内置的地理大数据存储引擎(https://www.supermap.com/zh-cn/a/product/10i-tec-2-2021.html);此外,SuperMap对Spark框架进行了拓展,集成了大量地理大数据挖掘方法,并通过集成开源地图开发库(OpenLayers、Leaflet、MapboxGL JS等)、可视化库(ECharts、MapV、DECK.GL等)提供地理大数据可视化服务。

3 地理大数据挖掘研究存在的问题


3.1 地理大数据丰富的信息内涵尚未被充分利用


3.2 地理大数据挖掘结果多是验证性


3.3 地理大数据挖掘结果的可信性难以评价


4 地理大数据挖掘的发展趋势


4.1 多尺度聚类分析是地理大数据认知的突破口

聚类分析是人类认识世界最基本、最有效的能力之一[178]。聚类分析可以从纷繁复杂的大数据中有效地总结规律性信息,是大数据认知要解决的首要问题[179]。地理大数据聚类分析不仅可以作为一种从地理大数据中发现地理格局的有力工具,同时也可以作为其他地理大数据挖掘任务的重要预处理步骤。尺度依赖性是地学研究中不可回避的关键科学问题,对地理大数据内蕴的各种“人-地”关系特征进行发现,必须对尺度依赖性具有清晰的认知。地理大数据聚类必须恰当地建模地理现象的尺度依赖性[9, 45, 180]。人类视觉系统具备天然的多尺度聚类分析能力,模拟人类视觉系统的多尺度聚类方法近年来受到了重要关注,并发展了一些尺度驱动的空间聚类分析模型[181-182]。未来地理大数据多尺度聚类分析研究在尺度效应的深层地学机理解析、多种尺度(如数据尺度、分析尺度)联合效应建模及尺度有效性评价等方面需要开展持续的研究工作。

4.2 多源地理大数据聚合与深度融合


4.3 知识与数据双重驱动的地理大数据挖掘方法

自20世纪90年代初以来,数据驱动的空间数据挖掘模型(尤其是以深度网络为代表的机器学习方法)虽然取得了重要的进展,但是其不可解释、稳健性差、难以扩展的弊端亦不可忽视[187]。人类经过几千年的文明发展,已经积累了针对地学现象的大量重要认知知识。这些知识一方面有助于对地理大数据蕴含的地理规律进行理解,促进对地理大数据的有偏性、不完备性的认知;另一方面可以缓解数据误差的影响,提升地理大数据挖掘模型的可靠性与精度。在遥感影像分类模型中融入地物间的空间关系先验知识,可以有效降低分类误差。知识与数据双重驱动的地理大数据挖掘方法有望成为未来地理大数据挖掘的一个重要研究方向[188]。地学知识图谱是地理知识表达、提取、管理的重要工具,建立知识与数据双重驱动的地理大数据挖掘方法需要兼顾地理现象的多尺度时空特征, 融合图、文、数等多种信息载体表征, 构建开放式、可扩展的地理空间知识图谱[189]

5 结论与展望


LIU Yaolin, LIU Qiliang, DENG Min, SHI Yan
Recent advance and challenge in geospatial big data mining
Acta Geodaetica et Cartographica Sinica, 2022, 51(7): 1544-1560



