文章快速检索  
  高级检索
地理大数据挖掘研究进展与挑战
刘耀林1, 刘启亮2, 邓敏2, 石岩2     
1. 武汉大学资源与环境学院, 湖北 武汉 430079;
2. 中南大学地球科学与信息物理学院, 湖南 长沙 410083
摘要:大数据时代, 全面涵盖人类活动与地理环境信息的地理大数据为更全面认识“人-地”关系提供了新的机遇。数据挖掘是地理大数据产生“大价值”的关键。与传统目的性采样数据(或“小数据”)相比, 地理大数据具有更细的时空粒度、更广的时空范围、更丰富的人地关系信息、更高的时空有偏性及更低的时空精度。地理大数据的独特性使得地理大数据挖掘面临新的挑战。本文首先对地理大数据挖掘与空间数据挖掘的区别与联系进行分析; 然后, 对当前地理大数据挖掘方法、应用及软件的研究进展进行回顾和总结; 最后, 对地理大数据挖掘面临的挑战和发展趋势进行了展望。通过对地理大数据挖掘研究进展进行系统的分析, 有望为地理大数据挖掘理论与方法的完善提供一定的参考和借鉴。
关键词地理大数据    数据挖掘    时空模式    尺度    
Recent advance and challenge in geospatial big data mining
LIU Yaolin1, LIU Qiliang2, DENG Min2, SHI Yan2     
1. School of Resource and Environmental Science, Wuhan University, Wuhan 430079, China;
2. School of Geosciences and Info-physics, Central South University, Changsha 410083, China
Abstract: In the era of big data, geospatial big data provide new opportunities for understanding complex human-land relationships. Data mining is essential for revealing valuable spatio-temporal patterns (e.g., clusters, outliers, association rules, etc.) hidden in geospatial big data. Geospatial big data has some unique characteristics, e.g., fine spatio-temporal granularity, wide spatio-temporal scope, rich information on human-land relationships, high spatio-temporal bias, and low spatio-temporal precision. Geospatial big data requires specially designed data mining methods given its unique characteristics. In this study, we first analyzed the relationships between spatial data mining and geospatial big data mining, then reviewed recent advances in geospatial big data mining, and finally summarized the challenges and further research directions of geospatial big data mining. This review is expected to provide some valuable reference for the improvement of theories and methods of geospatial big data mining.
Key words: geospatial big data    data mining    spatio-temporal pattern    scale    

近20年来,伴随着传感器技术与移动定位技术的飞速发展,人类对地表系统的刻画能力空前提升,地理学研究已经进入大数据时代[1-2]。地理大数据主要分为两类[3]:①对地观测大数据,对地观测能力的不断进步使得我们对自然界各种要素的描述越来越全面、越来越精细,各种遥感、观测台站数据不仅能够详细刻画地理环境,夜光遥感等数据还蕴含了丰富的社会经济活动信息[4-5]。②人类行为大数据,传感网络的发展使得“人人都是传感器”,志愿者定位数据、浮动车行驶轨迹、移动终端定位与通信记录数据、社交网络签到数据、公交IC卡和自行车租赁信息等从社会生活的方方面面记录了大量个体粒度的人类活动信息[6-7]。全面涵盖人类活动与地理环境信息的地理大数据突破了传统目的性采样数据(或“小数据”)在数据范围、时空粒度与信息内涵等方面的局限,为更全面认识“人-地”关系提供了新的机遇[8-9]。地理大数据在推动科技进步与社会经济发展等方面的巨大价值已经引起了各国政府、工业界及学术界的广泛关注[10]。美国、英国等国家相继将大数据列为战略性技术,我国也已明确做出加快国家大数据战略发展的重要部署。谷歌、微软、华为、阿里等重要高技术企业一直在积极推动大数据产业发展。《Nature》和《Science》也分别在2008年和2011年组织专刊探讨大数据学术研究[11-12]

地理大数据实现大价值的关键在于数据分析和挖掘[13]。当前,来自地理信息科学、信息科学及复杂系统领域的诸多学者已经针对地理大数据分析和挖掘开展了大量的研究,一些重要的成果相继涌现,如采用搜索引擎数据预测流感暴发[14]、采用手机数据预测人类行为[15]和制定新冠疫情防控措施[16]等;一些新的地理大数据分析和挖掘概念被相继提出,如社会感知计算(socially aware computing)[17]、城市计算(urban computing)[18]、社会感知(social sensing)[19]等。经过20多年的发展,地理大数据挖掘已经由一个新生概念逐渐成长发展,在智慧城市[20]、交通管控[21]、公共安全[22]、环境保护[23]、气候变化[24]、流行病防控[16]、矿产资源勘查[25]等领域发挥了重要价值。在取得这些进展的同时,也需要我们进一步思考:地理大数据为数据挖掘带来了哪些新的机遇和挑战?地理大数据挖掘方法相比传统的空间数据挖掘方法到底有哪些独特性?未来地理大数据挖掘需要突破哪些关键问题?本文尝试从3个方面回答上述问题:首先,从地理大数据的特点出发对地理大数据挖掘的独特性与继承性进行剖析;然后,对当前代表性的地理大数据挖掘方法与应用案例进行分类和评述;最后,对地理大数据挖掘未来的发展方向进行展望。

1 地理大数据挖掘的变与不变

地理大数据挖掘面临的挑战和机遇本质上是由于地理大数据具有与传统目的性采样“小数据”不同的独有特征。通常认为大数据具有“5V”特征[26],即海量(volume)、更新速度快(velocity)、多样性(variety)、价值密度低(value)和真实性差(veracity)。实际上,上述“5V”特征自20世纪90年代提出空间数据挖掘的概念以来,也被认为是空间数据的重要特征[27]。地理大数据真正区别于传统空间数据的特征是什么?笔者认为其关键区别体现在采集手段、信息内涵与尺度特征3个方面(表 1)。

表 1 地理大数据与传统空间数据的区别 Tab. 1 Differences between geospatial big data and traditional spatial data
数据 抽样设计 代表性 可靠性 信息来源 分辨率 范围 精度
传统空间数据
地理大数据 广 广

1.1 地理大数据的特殊性

与传统空间数据相比,地理大数据的采集由专业化走向大众化。传统空间数据或“小数据”一般是专业人员针对具体的地理现象或应用目的,设计专门的数据采集方法(如抽样框架)[28]。这些数据的采集精度、代表性和可靠性具有严格的控制标准,可以直接反映地理现象的特征[9]。地理大数据的提供者不仅包括测绘地理信息领域专业人员,还包括大量的非专业机构和人员。这些非专业机构提供的地理大数据往往是其主营业务的副产品,并不能保证(往往也不关心)数据采集的精度、代表性和可靠性[29]。例如:出租车轨迹数据由于GPS定位误差、车辆运营及高层建筑的影响,其大量轨迹点偏离城市道路且不同行驶方向轨迹点交错混杂[30];微博的用户中46岁以上的人群比例极低,且女性用户比例更高[31];搜索引擎中搜索“流感”关键词的用户并不一定已经患上流感[32]。地理大数据中包含的这些缺乏质量控制与抽样设计的成分,对传统针对“小数据”设计的挖掘方法提出了挑战[33]

相比传统空间数据,地理大数据的内涵更加丰富,尤其是包含了大量的人类活动信息。传统空间数据更多关注地表自然地理要素,海量的对地观测数据与观测台站数据可以对地表物理空间进行较好地反映,但是人类活动信息较为缺乏,难以全面刻画地理学核心的“人-地”关系问题[19]。例如:城市土地利用是人类活动的综合体,以往多是采用遥感影像进行土地利用分类,这种方法仅考虑了土地利用的物理特征,而难以估计人类活动的社会经济属性,导致一些无人居住的“鬼城”仍然会被识别为住宅区[34]。大数据时代,手机信令、公交/地铁智能卡数据、车辆轨迹数据等新兴地理大数据蕴含了丰富的人类活动信息,可以从更全面的视角探索“人-地”关系[3]。例如:手机信令数据在新冠疫情防控和流调中发挥了重要的作用[35]

地理大数据与传统空间数据相比,具有更精细的尺度。地理大数据的尺度也可以用一组参数进行描述,如分辨率、范围等[36]。地理大数据具有更加精细的时空分辨率。例如传统的人口调查数据通常是以人口普查小区为基本单元,数据更新时间以年为单位,而采用手机信令数据几乎可以估计城市中每个个体的位置,时间分辨率以分钟为单位[37]。地理大数据具有更广的时空范围。针对传统空间数据而言,虽然遥感数据可以对地表进行大范围的观测,但是涉及人类社会经济属性的数据,由于采集成本与采集能力的限制,往往难以进行大范围的观测。例如传统的城市居民出行数据多是采用问卷调查的形式,难以进行大范围的人类出行规律识别,而当前百度人口迁徙数据(https://qianxi.baidu.com/)与腾讯提供的用户定位信息(https://heat.qq.com/bigdata/index.htm)等数据可以反映全国范围的人口活动及流动模式,可以从更加宏观的视角探索“人-地”关系。

1.2 地理大数据挖掘的继承性

虽然地理大数据的独特性对地理大数据挖掘方法提出了新的挑战,但是地理大数据挖掘方法与起源于计量地理学革命时期的空间统计分析方法及20世纪90年代以来的空间数据挖掘方法具有继承和发展的关系。笔者认为,与空间数据挖掘相比,现有地理大数据挖掘的根本任务与挖掘方法的设计思路仍然具有明显的继承性。

地理大数据挖掘与空间数据挖掘的任务和内容是基本相同的。针对挖掘的目的而言,二者都是希望发现数据中隐含的、未知的、潜在有用的模式或知识。这些挖掘结果本质上是为了辅助对地理现象时空格局、关联关系和演化过程的理解[38]。针对挖掘内容而言,对于时空格局的挖掘,二者都是采用聚类分析与异常探测的方法发现时空分布的规律性与例外性;对于关联关系的挖掘,二者均是采用关联规则挖掘、回归分析等方法发现地理变量间定性与定量的联系;对于演化过程挖掘,二者均是采用统计方法或神经网络的方法,依据历史数据和/或外部影响变量间的联系,对地理现象未来的发展变化状态进行预测。

地理大数据挖掘方法与空间数据挖掘方法的设计思路是基本相同的。就挖掘方法而言,二者主要还是依赖聚类分析、异常探测、关联规则挖掘、机器学习等方法。就聚类分析而言,地理大数据聚类对簇的认知没有发生改变,仍然是基于中心的簇、基于连接的簇和基于密度的簇3种类型[39];针对异常探测方法,全局异常、局部异常、背景异常的认识在地理大数据异常探测中仍然适用[40];地理大数据关联规则挖掘方法的设计仍是基于频繁度与邻近性的思想[41]。地理大数据挖掘方法与空间数据挖掘方法的主要设计难点都是针对时空相关性、异质性及尺度依赖性的建模[42-44]

2 地理大数据挖掘研究进展

地理大数据的特殊性为地理大数据挖掘带来了新的机遇与挑战。本文将主要针对地理大数据挖掘方法、应用及软件的研究进展进行回顾。

2.1 地理大数据挖掘方法研究

虽然地理大数据的任务、内容及方法设计继承了空间数据挖掘的研究成果,但是由于地理大数据的独特性,近年来国内外学者已经在空间数据挖掘的基础上,发展了一系列针对性的地理大数据挖掘方法。下面将针对地理大数据聚类分析、异常探测、关联关系挖掘及预测建模的主要进展进行分析和总结。

2.1.1 地理大数据聚类分析

地理大数据聚类分析旨在依据地理实体间的相似性,将地理实体划分为一系列内部相似、外部相异的簇结构。地理大数据聚类是发现地理时空格局的重要手段。当前地理大数据聚类分析方法主要还是分为3种类型[45]:划分的方法(簇可以用其中心表示,且簇内实体与簇的中心尽可能接近,而尽可能远离其他簇的中心)、层次的方法(簇由实体通过相互间的邻近关系构成)及基于密度的方法(簇被定义为被低密度区域分隔的连通高密度区域)。地理大数据聚类分析在3个方面具有新的变化:①新的聚类特征。人类移动轨迹、手机信令等数据蕴含的人类互动特征需要一定的特征表征方法进行量化,当前学者们已经从出行OD数据中构造了不同类型的特征向量进行聚类分析[46-47],能够更好地发现人类活动的时空分异特征,可以从人类活动的视角对从城市空间结构进行认知和反演;也有一些学者采用矩阵分解、词嵌入等方法发现人类活动的隐含特征[48-49]。②流数据的聚类分析。地理流描述了两个空间位置间的人流活动、物质交换等信息,改变了以距离度量空间相关性的传统认知(例如两个很远的地点,如果二者人流联系紧密也可能具有较高的相关性)[50-51]。近年来学者们针对流数据的距离度量、密度定义开展了大量的研究工作,并拓展了当前局部空间相关性统计量、层次聚类和基于密度的聚类方法,发展了一系列针对聚合流数据和单个流数据的聚类方法[52-58]。流数据的聚类分析能够定量化地描述人群移动模式的时空分布规律,有利于深入理解人群移动行为与城市空间结构的耦合关系[59-60]图 1展示了采用共享邻近密度聚类方法[58]发现的北京市出租车OD流在早高峰的聚类模式,可以清晰发现不同区域间的强交互作用及OD流的聚散模式。③空间嵌入图的聚类分析。地理单元之间通过人流、物流、信息流体现出的交互作用构成了一种空间嵌入图(节点为地理单元,节点间边的权重表示了空间交互的强度)。空间嵌入图聚类旨在发现空间嵌入图中联系紧密的子图结构(或空间社团),对于城市空间结构理解具有重要价值[61]。当前兴起于复杂网络领域的社团检测方法[62-63]已被拓展应用于空间嵌入图聚类,其主要工作集中于如何在聚类过程中考虑空间相关性(如在聚类过程中施加空间邻近性约束[64-66]或在聚类目标函数中建模空间衰减效应[67-68])。近年来,在聚类分析中融入先验知识亦开始引起国内外学者的注意,一些研究开始尝试借助知识图谱表达领域知识,并建模于聚类模型之中[69]。融入先验知识的聚类模型更有利于发现数据驱动模型难以发现的聚集模式[70],是未来地理大数据聚类分析研究的一个重要方向。

图 1 北京市五环内2016年5月23日早高峰(8:00—10:00)出租车OD流聚类分析[58] Fig. 1 OD flow clusters detected during morning rush hours (8:00—10:00) within the 5th ring road of Beijing, May 23rd, 2016[58]

2.1.2 地理大数据异常探测

地理大数据异常探测旨在发现非观测误差导致的、偏离整体或局部分布特征的少部分地理实体。当前的地理大数据异常探测方法仍主要分为3种类型[40],即全局的方法(发现偏离全体数据分布的异常数据)、局部的方法(发现偏离局部数据分布的异常数据)及考虑背景信息(发现违背已知常识的异常数据)的方法。传统的空间数据异常探测主要是针对时空位置信息与专题属性信息的异常数据识别[71-72]。地理大数据异常探测将位空间邻近性度量的概念扩展至“动态流空间”与“多维场景空间”[50, 73],从地理流过程相似性、地理场景综合相似性等多视角刻画地理实体在演化过程中的突变程度。地理大数据异常探测在3个方面具有新的变化:①在移动对象几何形态、行为特征等变量的相似性约束下,探测移动对象在时空演化过程中表现出的异常行为或属性状态。例如:时空轨迹大数据中的离群对象与异常移动行为[74-75]、空间交互出行流异常载荷与流量热点[76-77]等。②在移动对象动态演化过程相似性条件约束下(如车辆时空可达约束、人群移动强度相似性约束等), 发现呈现出的稀有分异格局或发展态势[78-81]。③在高时空分辨率地理大数据支持下,土地利用信息、城市景观分布、水土气污染分布、人类行为活动等复杂地理过程被抽象为随时间持续动态变化的流数据,多元地理要素的关联性可以在异常识别过程中被定量建模,提升了异常识别准确性与可解释性[82-84]。例如:集成多源人群移动数据中的异常活动信息可以有效增强对人类活动异常信号的表征能力,提升异常识别的灵敏度。

2.1.3 地理大数据关联关系挖掘

地理大数据关联关系挖掘旨在定量或定性地发现地理实体间的联系。回归分析是地理大数据关联关系定量挖掘的代表性方法,近年来学者们在如何建模时空相关性、异质性与变量间非线性关系等方面取得了一些重要的进展,例如:时空地理加权回归[85]、时空回归克里金[86]等。关联规则挖掘是地理大数据关联关系定性挖掘的代表性方法,旨在发现在相邻时空区域内频繁出现的地理对象关系。早期的空间关联规则挖掘方法主要是采用空间剖分的方法构建空间事务,然后应用事务型关联规则挖掘方法(如Apriori)发现空间关联规则[87-88],此类方法割裂了地理现象间的时空联系。当前地理大数据关联规则挖掘方法多不采用空间事务化的策略,而是基于邻近性与频繁性思路发现连续时空区域内的关联关系[89],主要取得了以下3方面进展:①局部关联规则挖掘模型。由于空间异质性的影响,关联规则经常在不同区域具有不同的表现形式,近年来学者们重点基于图划分和聚类分析的思想,发展了一系列局部关联规则挖掘模型[90-96],可以更加全面地发现关联规则。例如:全局与局部的城市兴趣点关联规则对于全面地理解城市功能组合规律具有重要价值[97]。②关联规则统计推断。空间关联规则挖掘往往需要人为设置频繁度阈值对规则有效性进行评价,而在大规模地理大数据关联规则挖掘任务中,阈值参数很难设定。近年来,学者们基于随机重排检验的思想,通过融入关联规则的认知规律(如空间自相关对关联规则的影响)发展了一系列全局和局部关联规则统计推断方法[98-102]。这些方法提升了关联规则挖掘的可靠性和可操作性, 例如通过对犯罪事件与地理因子间关联规则进行统计推断,可以排除一些虚假的关联模式,从而能够更好地辅助决策。③考虑额外约束的关联规则挖掘模型。地理大数据通常具有时空属性,而且人类活动受到道路网络等约束。近年来,学者们已经开始在地理大数据关联规则挖掘中,通过修改邻近关系识别方法建模时空耦合关系与路网约束[103-107],可以进一步提升挖掘结果的可靠性与可解释性。图 2展示了采用时空事件级联关联规则挖掘方法[106]发现的我国京津冀地区2014年冬季与2015年春季PM2.5污染事件时空传播规律,对于空气污染物溯源及空气污染物传播规律理解具有指导价值。图中,箭头为传播路径,点为空气质量监测站点。

图 2 京津冀地区PM2.5污染事件时空传播规律[106] Fig. 2 Spatio-temporal propagation of PM2.5 pollution events in Beijing-Tianjin-Hebei region

2.1.4 地理大数据预测建模

地理大数据预测建模旨在构建反映地理变量间时空联系的模型,对地理实体未来的状态或属性进行估计。地理大数据预测建模是发现地理现象演化规律的重要手段。地理大数据预测建模的主要方法分为两类:基于统计学的方法与基于机器学习的方法[108]。基于统计学的方法主要是依据历史数据的时空相关性建模实现预测,代表性方法如时空自回归移动平均模型、时空地统计模型等[109]。基于统计学的方法难以建模变量间的非线性关系,基于机器学习的方法在地理大数据预测建模任务中逐渐得到重视。伴随着深度学习技术在近十年来的突破性进展,各种深度网络已经成为当前地理大数据预测的主要手段,广泛应用于空气质量预测、交通流量/速度预测、人流量预测等领域[110]。地理大数据预测建模的主要进展可以总结为以下两个方面:①时空耦合的地理大数据预测建模方法。现有研究主要采用两种策略整合时间和空间相关性信息提升预测精度,一种是通过整合空间和时间预测模型[111-113];另一种是将空间和时间预测模型进行嵌套[114-118]。常用的空间预测模型主要包括卷积神经网络(CNN)及其变种(用于建模规则数据)[119]、图卷积神经网络(GCN)[120]及其变种(用于建模非规则数据)。常用的时间预测模型主要采用长短期记忆网络(LSTM)[121]及其变种,亦有研究对时间序列进行分解,针对相邻时间点、周期时段和趋势部分的建模结果进行融合[114]。②地理大数据时空异质性建模。地理变量间的关系通常是时空非平稳的,例如:风速、风向、地形、污染源等空气质量影响因素与空气污染物浓度间的关系在不同时间和地点经常是不同的。时空异质性具有两种表现形式:分层异质性与局部异质性[122]。现有研究主要采用两种策略建模时空异质性,针对分层异质性,首先对时空数据进行聚类分析,进而在每个较为均匀的分区内建立预测模型[123-124];针对局部异质性,主要借鉴地理加权回归的思想,针对每个时空位置分别建立预测模型[125-126]。数据驱动的预测模型虽然已经取得了重要进展,但是也存在预测结果与实际地理现象变化规律不符的缺陷,直接导致预测结果难以解释、稳定性差[127]。近年来,有学者开始探索将地理现象的物理变化规律融入预测模型,提升了预测模型的可解释性与泛化性能,具体策略包括物理规律引导的初始化、物理规律引导的网络损失函数及物理规律引导的网络架构设计等[128]

2.2 地理大数据挖掘应用研究

当前,地理大数据挖掘在应用方面也取得了重要的成果,尤其是在城市规划、智能交通、环境保护、公共安全等领域受到广泛关注。下面将重点针对地理大数据在以上4个方面的应用成果进行回顾和总结。

城市规划领域是当前地理大数据挖掘应用最广泛、最深入的领域[129]。地理大数据使得从微观、动态的视角发现城市中“人-地”耦合关系成为可能,促进了“以人为本”的城市规划设计,为分析城市发展现状、理解城市发展机制及科学规划城市发展提供了最基础的素材[130]。地理大数据挖掘已广泛应用于区域联系与等级体系研究、城市居民活动模式反演、城市功能与空间结构识别等方面,为城市规划提供了重要的决策信息[18, 59, 131]。在区域联系与等级体系研究方面,互联网数据、社交媒体数据、人口迁徙、手机信令、车辆轨迹等数据已用于定量衡量不同研究粒度上区域间的联系强度[7],重力模型、社团检测方法及层级分析等方法已被广泛应用于识别城市的等级体系[68, 132-133]。在城市居民活动模式反演方面,对不同类型人群活动数据反映的个体移动规律已经有了较为深刻的认识(如移动步长规律、重访概率等);地理大数据挖掘方法已经可以有效支持人群移动的“韵律性”规律、时空聚散规律及活动类型的识别[134-137];当前已经可以实现城市人口分布的精细化制图与动态预测[37, 138]。在城市功能与空间结构识别方面,国内外学者已经采用多种类型人类活动轨迹数据、社交媒体数据、城市街景数据、城市兴趣点及夜光遥感数据,借助聚类分析、关联规则挖掘、词嵌入等方法,开展了城市功能区划、城市中心区识别与土地利用反演等研究[47-48, 97, 139-141];近年来,采用多源地理大数据进行场所语义推测及场所情感感知等方面也取得了重要进展[142-143],可以进一步反映人类对城市物质空间的认知和感受。

地理大数据挖掘在智能交通领域的应用已经得到了广泛关注。海量、多源、动态、细粒度的车辆轨迹数据在道路信息提取、交通状态感知及交通流预测方面发挥了重要作用,有力提升了城市交通运营、管理与规划的水平[144]。在交通道路信息提取方面,地理大数据挖掘方法(如聚类分析)已经可以实现从多源车辆轨迹数据中生成高精度城市路网及道路语义信息(如方向、速度、车道数等)[145-148],有效服务于车辆导航等实际应用。在交通状态感知方面,地理大数据挖掘方法(如异常探测、矩阵分解等方法)已经被应用于交通拥堵与异常模式识别[149-150]、通行时间估计[151]、交通能耗估计[152]及交通调度和路径优化[153-154]等方面,有利于提升交通系统的运行效率,缓解交通拥堵等城市病问题。在交通流预测方面,基于机器学习的预测模型已经被广泛应用于交通流量预测与道路速度预测[116-118, 155],可为交通管理提供重要的决策信息。

地理大数据挖掘在环境保护方面的应用价值逐渐受到重视,已在城市空气、水质及噪声污染防控等实际应用中发挥了重要作用。在城市空气污染防控方面,地理大数据挖掘不仅可以被用于发现空气污染的时空变化规律,而且可以实现高精度、高时空分辨率空气质量预测[123-124, 156]。例如采用历史PM2.5浓度数据及城市兴趣点、交通、气象等数据,基于机器学习方法构建的预测模型可以实现千米格网、小时分辨率的高精度连续预测,对于控制污染与保护人民健康具有重要价值[112]。在城市水资源保护中,融合水质检测历史数据与多类型影响变量(如降水、兴趣点等)构建的智能预测模型可以实现城市水质的高精度连续预测[157-158],可为水污染预警预报提供重要的决策信息。在城市噪声污染防控方面,现有研究已采用多源地理大数据协同分析不同区域、不同时段的噪声污染情况,可以克服噪声污染监测的稀疏性问题,服务于城市噪声污染防控[159-160]

地理大数据在公共安全方面也取得了重要的应用成果,尤其在城市犯罪预防、人群聚集风险评估与流行病防控方法发挥了重要作用。在城市犯罪防控方面,地理大数据挖掘不仅可以被用于识别犯罪热点区域与时空分布规律,而且可以发现影响犯罪的空间因素,对于预防犯罪具有重要价值[102, 161]。在人群聚集风险评估方面,地理大数据挖掘方法可以从多源人群活动数据中发现人群异常的聚集现象,可为管理部门提供预警信息,降低人群踩踏等公共安全事件发生的风险[135, 162]。地理大数据挖掘在流行病防控方面已经发挥了重要作用,例如通过对病例人群轨迹数据进行时空聚集分析,可以有效地进行传染病溯源,发现潜在的易感染人群[163];新冠疫情防控中,结合手机信令数据和病例数据可以发现不同因素对疾病传播的影响,并预测新冠病例的地域分布与传播规律,为政府制定防疫政策提供了科学的依据[16, 164]

2.3 地理大数据挖掘软件研发

海量、多源地理大数据的存储、管理和高效计算对传统的空间数据挖掘软件提出了新的挑战。地理大数据挖掘需要分布式、并行计算的支持[165]。以Apache Hadoop为代表的开源大数据框架为大数据高性能存储和计算提供了重要支撑[166]。Hadoop框架采用Hadoop分布式文件系统(Hadoop distributed file system, HDFS)实现了对大规模数据集的分布式存储,采用MapReduce[167]计算框架实现了对大规模数据集的并行处理。MapReduce将每次处理的过程数据存入磁盘,由此产生的反复磁盘I/O操作影响计算效率。为了解决这一问题,Spark计算引擎采用抽象弹性分布式数据集(resilient distributed datasets, RDD),将中间运算结果保存在内存中,避免了对分布式文件的反复读写,其运算效率显著高于MapReduce[168]。Hadoop与Spark没有考虑地理大数据的空间属性,从而限制了其地理大数据存储与计算的能力。近年来,一些专门的地理大数据计算框架已经出现,例如SpatialHadoop[169]对Hadoop的每一层(语言层、存储层、MapReduce层和操作层)均进行了空间扩展,实现了对地理大数据的空间数据索引和空间操作功能;GeoSpark[170]对RDD进行了空间拓展,实现了地理大数据的几何操作和空间查询能力。除了以Hadoop和Spark为代表的地理大数据计算框架,近年来,一些地理大数据集成技术平台也受到了广泛关注,例如CyberGIS[171]平台集成信息基础设施(Cyber infrastructure)、地理大数据资源与数据挖掘方法,可为数据密集型与计算密集型应用提供有效的解决方案。HiGIS[172]基于高性能计算技术(HPC),提供了地理大数据存储服务、计算服务与制图服务。

当前主流的商业地理信息软件已经开始集成地理大数据挖掘功能。例如ESRI公司基于Spark框架推出了ArcGIS GeoAnalytics Server和ArcGIS Image Server用于支持地理大数据挖掘,其可以支持云存储、HDFS、Hive数据仓库等多种来源的大数据,并提供了地理大数据挖掘工具箱(https://enterprise.arcgis.com/zh-cn/)。MapGIS基于Hadoop、Spark等分布式计算框架支持地理大数据管理与计算(https://www.mapgis.com/index.php?a=shows&catid=8&id=139):结合PostgreSQL、Elasticsearch、HDFS等多种存储引擎构建MapGIS DataStore组件,实现地理大数据存储;开发了云服务集群引擎IGServer和大数据计算引擎IGServer-X,提供地理大数据挖掘服务。SuperMap采用HBase和HDFS提供大规模矢量数据的存储服务,同时通过Elasticsearch引擎提供大规模流数据的存储服务,三者共同构成了SuperMap内置的地理大数据存储引擎(https://www.supermap.com/zh-cn/a/product/10i-tec-2-2021.html);此外,SuperMap对Spark框架进行了拓展,集成了大量地理大数据挖掘方法,并通过集成开源地图开发库(OpenLayers、Leaflet、MapboxGL JS等)、可视化库(ECharts、MapV、DECK.GL等)提供地理大数据可视化服务。

3 地理大数据挖掘研究存在的问题

通过上述分析可以发现,当前地理大数据挖掘研究已经取得了重要的进展。针对地理大数据的新特征,一些针对性的地理大数据挖掘方法已经被提出,并在“人-地”关系研究中发挥了重要价值。例如可以从人类活动的视角对城市土地利用进行新的审视;可以定量地发现人类在城市中的活动规律并且可以据此对城市空间结构进行深层次的解析;犯罪事件与城市兴趣点间的关联关系对于犯罪机理解释与犯罪预防具有重要价值;利用城市交通流量、地理背景及空气污染历史数据构建的预测模型已经可以实现高时空分辨率的空气质量预测。地理大数据理论方法与应用的重要进展正在改变地理学的研究范式,为地理规律的发现提供了重要的工具和手段。在取得这些进展的同时,同样需要对当前地理大数据挖掘面临的问题进行冷静的思考。笔者认为以下3个问题需要引起充分的重视。

3.1 地理大数据丰富的信息内涵尚未被充分利用

地理大数据包含了丰富的“人”“地”信息,这些信息存在于不同来源、不同类型的地理大数据,例如城市人群交通活动信息蕴含于出租车、公交车、地铁、私家车等不同交通方式。现有的地理大数据挖掘研究还多是仅基于单一类型数据进行的分析应用,其挖掘结果多存在片面性。现有研究大量采用出租车轨迹数据研究城市人群的空间移动模式,而实际上城市居民出行大量依赖地铁、公交等交通方式。当前,尚难以回答不同来源地理大数据如何共同地对某一地理事实进行反映和表征[173-174]。如何融合多源地理大数据全面探索人类对城市空间实际功能的理解及城市物质空间与人类活动间的适宜度依然是一个难题。导致这一困境的原因源于两个方面,一方面是多源地理大数据协同挖掘的模型与方法尚较为缺乏;另一方面是多源地理大数据的交换和共享机制尚不成熟,不同领域、部门间的地理大数据难以真正贯通和协同。

3.2 地理大数据挖掘结果多是验证性

地理大数据挖掘虽然在人类移动模式定量度量等方面取得了一些新的认知成果(如人类移动模式的步长分布规律[175]),但是现有地理大数据挖掘成果尚难以真正实现“未知知识”的发现。地理大数据挖掘成果虽然使我们对“人-地”关系有了更加细化、定量化的认识,但是这些挖掘结果多是验证性、常识性的。例如采用各类移动轨迹数据发现的城市人群通勤模式、人群活动热点、城市多中心结构等多是被领域专家所熟知的;采用大范围位置大数据发现的人口分布模式实际上仅仅是对20世纪30年代发现的“胡焕庸线”的验证[3]。如何真正发现地理大数据背后隐含的、未知的知识,取得类似“胡焕庸线”这样的地理发现,是地理大数据挖掘方法面临的严峻挑战。

3.3 地理大数据挖掘结果的可信性难以评价

现有地理大数据挖掘方法虽然针对地理大数据的新特征进行了部分适应性的改进,但是针对地理大数据样本质量无控、采样有偏等问题尚缺乏有效的解决方案。现有地理大数据挖掘研究对数据产生机制、数据质量控制、数据可用性缺乏足够的重视。实际上,现有的大部分地理大数据挖掘方法依然假设数据源可以直接反映地理现象的特征,虽然可以对数据挖掘给出一定的解释,但是很少关注挖掘结果的可信性。地理大数据挖掘的尺度依赖效应仍然不可忽视,虽然地理大数据的尺度信息更加精细,但是实际分析中仍然需要确定合适的数据尺度(地理大数据通常需要聚合到一定的单元)和分析尺度。近年来尺度驱动的地理大数据挖掘模型取得了一定的进展[177],但是尺度依赖性的内在机理及最优尺度选择等问题依然悬而未决[36]。地理大数据挖掘结果的可信性问题直接影响了地理大数据挖掘的实际应用效果。

4 地理大数据挖掘的发展趋势

面对当前地理大数据挖掘面临的机遇与挑战,笔者认为未来地理大数据挖掘可能需要在以下3个方面开展进一步的深入研究。

4.1 多尺度聚类分析是地理大数据认知的突破口

聚类分析是人类认识世界最基本、最有效的能力之一[178]。聚类分析可以从纷繁复杂的大数据中有效地总结规律性信息,是大数据认知要解决的首要问题[179]。地理大数据聚类分析不仅可以作为一种从地理大数据中发现地理格局的有力工具,同时也可以作为其他地理大数据挖掘任务的重要预处理步骤。尺度依赖性是地学研究中不可回避的关键科学问题,对地理大数据内蕴的各种“人-地”关系特征进行发现,必须对尺度依赖性具有清晰的认知。地理大数据聚类必须恰当地建模地理现象的尺度依赖性[9, 45, 180]。人类视觉系统具备天然的多尺度聚类分析能力,模拟人类视觉系统的多尺度聚类方法近年来受到了重要关注,并发展了一些尺度驱动的空间聚类分析模型[181-182]。未来地理大数据多尺度聚类分析研究在尺度效应的深层地学机理解析、多种尺度(如数据尺度、分析尺度)联合效应建模及尺度有效性评价等方面需要开展持续的研究工作。

4.2 多源地理大数据聚合与深度融合

地理大数据实现大价值的关键是如何实现多源地理大数据的信息综合和协同增强,具体包括两个方面的核心问题:多源地理大数据聚合与深度融合。多源地理大数据聚合需要以具体的应用需求为驱动,统一不同来源地理大数据的时空框架与基准,协调观测尺度差异,实现不同尺度、不同时态、不同语义地理大数据的协同、信息派生与增值,为多源地理大数据提供基础的数据支撑[183]。多源地理大数据深度融合需要在语义层次上实现多源地理大数据内蕴特征的协同增强,发现不同来源地理大数据的一致性与互补性,实现对地理现象更加深入和全面的理解。多源地理大数据聚合与深度融合对于提升挖掘结果的可靠性和全面性具有重要价值。近年来,一些研究尝试引入多视角学习的方法对多源移动轨迹数据进行聚类分析,可以更全面地反演城市土地利用[184-185]。此外,地理大数据同样需要与传统“小数据”进行深度聚合和融合,一方面可以加深对地理大数据有偏性的理解[186],另一方面“小数据”可以对地理大数据进行一定程度的“校正”和“纠偏”,使得地理大数据挖掘结果更具代表性。

4.3 知识与数据双重驱动的地理大数据挖掘方法

自20世纪90年代初以来,数据驱动的空间数据挖掘模型(尤其是以深度网络为代表的机器学习方法)虽然取得了重要的进展,但是其不可解释、稳健性差、难以扩展的弊端亦不可忽视[187]。人类经过几千年的文明发展,已经积累了针对地学现象的大量重要认知知识。这些知识一方面有助于对地理大数据蕴含的地理规律进行理解,促进对地理大数据的有偏性、不完备性的认知;另一方面可以缓解数据误差的影响,提升地理大数据挖掘模型的可靠性与精度。在遥感影像分类模型中融入地物间的空间关系先验知识,可以有效降低分类误差。知识与数据双重驱动的地理大数据挖掘方法有望成为未来地理大数据挖掘的一个重要研究方向[188]。地学知识图谱是地理知识表达、提取、管理的重要工具,建立知识与数据双重驱动的地理大数据挖掘方法需要兼顾地理现象的多尺度时空特征, 融合图、文、数等多种信息载体表征, 构建开放式、可扩展的地理空间知识图谱[189]

5 结论与展望

地理大数据挖掘已经成为地理信息科学、信息科学共同关注的前沿热点问题,对于深入探索地理学“人-地”关系这一核心问题具有重要价值。本文对近20年来地理大数据挖掘研究的主要进展进行了回顾,分析了地理大数据挖掘与空间数据挖掘相比的独特性和继承性,使得从空间数据挖掘到地理大数据挖掘的发展脉络更加清晰;系统梳理了地理大数据挖掘方法、应用与软件的主要研究进展,总结了当前地理大数据挖掘需要进一步突破的主要问题,并对地理大数据挖掘发展趋势进行了展望,对于未来地理大数据挖掘理论完善与方法设计具有指导意义。地理大数据挖掘是一个复杂的、综合性的研究领域,本文仅仅起到抛砖引玉的作用,希望能够推动地理大数据挖掘在地理学“人-地”关系研究中发挥更大作用。


参考文献
[1]
吴志峰, 柴彦威, 党安荣, 等. 地理学碰上"大数据":热反应与冷思考[J]. 地理研究, 2015, 34(12): 2207-2221.
WU Zhifeng, CHAI Yanwei, DANG Anrong, et al. Geography interact with big data:dialogue and reflection[J]. Geographical Research, 2015, 34(12): 2207-2221.
[2]
LI Songnian, DRAGICEVIC S, CASTRO F A, et al. Geospatial big data handling theory and methods:a review and research challenges[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2016, 115: 119-133. DOI:10.1016/j.isprsjprs.2015.10.012
[3]
裴韬, 刘亚溪, 郭思慧, 等. 地理大数据挖掘的本质[J]. 地理学报, 2019, 74(3): 586-598.
PEI Tao, LIU Yaxi, GUO Sihui, et al. Principle of big geodata mining[J]. Acta Geographica Sinica, 2019, 74(3): 586-598.
[4]
李德仁, 张良培, 夏桂松. 遥感大数据自动分析与数据挖掘[J]. 测绘学报, 2014, 43(12): 1211-1216.
LI Deren, ZHANG Liangpei, XIA Guisong. Automatic analysis and mining of remote sensing big data[J]. Acta Geodaetica et Cartographica Sinica, 2014, 43(12): 1211-1216. DOI:10.13485/jc.nki1.1-20892.0140.187
[5]
余柏蒗, 王丛笑, 宫文康, 等. 夜间灯光遥感与城市问题研究:数据、方法、应用和展望[J]. 遥感学报, 2021, 25(1): 342-364.
YU Bailang, WANG Congxiao, GONG Wenkang, et al. Nighttime light remote sensing and urban studies:data, methods, applications, and prospects[J]. National Remote Sensing Bulletin, 2021, 25(1): 342-364.
[6]
陆锋, 刘康, 陈洁. 大数据时代的人类移动性研究[J]. 地球信息科学学报, 2014, 16(5): 665-672.
LU Feng, LIU Kang, CHEN Jie. Research on human mobility in big data era[J]. Journal of Geo-Information Science, 2014, 16(5): 665-672.
[7]
刘瑜, 姚欣, 龚咏喜, 等. 大数据时代的空间交互分析方法和应用再论[J]. 地理学报, 2020, 75(7): 1523-1538.
LIU Yu, YAO Xin, GONG Yongxi, et al. Analytical methods and applications of spatial interactions in the era of big data[J]. Acta Geographica Sinica, 2020, 75(7): 1523-1538.
[8]
傅伯杰. 地理学:从知识、科学到决策[J]. 地理学报, 2017, 72(11): 1923-1932.
FU Bojie. Geography:from knowledge, science to decision making support[J]. Acta Geographica Sinica, 2017, 72(11): 1923-1932. DOI:10.11821/dlxb201711001
[9]
宋长青. 地理学研究范式的思考[J]. 地理科学进展, 2016, 35(1): 1-3.
SONG Changqing. On paradigms of geographical research[J]. Progress in Geography, 2016, 35(1): 1-3.
[10]
李德仁. 论时空大数据的智能处理与服务[J]. 地球信息科学学报, 2019, 21(12): 1825-1831.
LI Deren. The intelligent processing and service of spatiotemporal big data[J]. Journal of Geo-Information Science, 2019, 21(12): 1825-1831. DOI:10.12082/dqxxkx.2019.190694
[11]
GOLDSTON D. Big data:data wrangling[J]. Nature, 2008, 455(7209): 15. DOI:10.1038/455015a
[12]
STEVEN J B. Dealing with data[J]. Science, 2011, 331(6018): 639-806.
[13]
YANG Chaowei, CLARKE K, SHEKHAR S, et al. Big spatiotemporal data analytics:a research and innovation frontier[J]. International Journal of Geographical Information Science, 2020, 34(6): 1075-1088. DOI:10.1080/13658816.2019.1698743
[14]
GINSBERG J, MOHEBBI M H, PATEL R S, et al. Detecting influenza epidemics using search engine query data[J]. Nature, 2009, 457(7232): 1012-1014. DOI:10.1038/nature07634
[15]
SONG Chaoming, QU Zehui, BLUMMM N, et al. Limits of predictability in human mobility[J]. Science, 2010, 327(5968): 1018-1021. DOI:10.1126/science.1177170
[16]
HUANG Bo, WANG Jionghua, CAI Jixuan, et al. Integrated vaccination and physical distancing interventions to prevent future COVID-19 waves in Chinese cities[J]. Nature Human Behaviour, 2021, 5(6): 695-705. DOI:10.1038/s41562-021-01063-2
[17]
於志文, 於志勇, 周兴社. 社会感知计算:概念、问题及其研究进展[J]. 计算机学报, 2012, 35(1): 16-26.
YU Zhiwen, YU Zhiyong, ZHOU Xingshe. Socially aware computing[J]. Chinese Journal of Computers, 2012, 35(1): 16-26.
[18]
郑宇. 城市计算概述[J]. 武汉大学学报(信息科学版), 2015, 40(1): 1-13.
ZHENG Yu. Introduction to urban computing[J]. Geomatics and Information Science of Wuhan University, 2015, 40(1): 1-13.
[19]
LIU Yu, LIU Xi, GAO Song, et al. Social sensing:a new approach to understanding our socioeconomic environments[J]. Annals of the Association of American Geographers, 2015, 105(3): 512-530. DOI:10.1080/00045608.2015.1018773
[20]
姚晓婧, 王喆, 王大成, 等. 智慧城市空间信息公共平台:城市数据价值之源[J]. 中国科学院院刊, 2019, 34(10): 1165-1175.
YAO Xiaojing, WANG Zhe, WANG Dacheng, et al. Spatial information common platform of smart cites:root of urban data value blooming[J]. Bulletin of the Chinese Academy of Sciences, 2019, 34(10): 1165-1175.
[21]
CHENG Shifen, LU Feng, PENG Peng, et al. Multi-task and multi-view learning based on particle swarm optimization for short-term traffic forecasting[J]. Knowledge-Based Systems, 2019, 180: 116-132. DOI:10.1016/j.knosys.2019.05.023
[22]
LIU Lin, FENG Jiaxin, REN Fang, et al. Examining the relationship between neighborhood environment and residential locations of juvenile and adult migrant burglars in China[J]. Cities, 2018, 82: 10-18. DOI:10.1016/j.cities.2018.04.014
[23]
SHAN Jingbo, ZHENG Yu, TONG Wenzhu, et al. Inferring gas consumption and pollution emission of vehicles throughout a city[C]//Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, NY:Association for Computing Machinery, 2014:1027-1036.
[24]
LIESS S, AGRAWAL S, CHATTERJEE S, et al. A teleconnection between the west siberian plain and the ENSO region[J]. Journal of Climate, 2017, 30(1): 301-315. DOI:10.1175/JCLI-D-15-0884.1
[25]
GUAN Qingfeng, REN Shuliang, CHEN Lirong, et al. A spatial-compositional feature fusion convolutional autoencoder for multivariate geochemical anomaly recognition[J]. Computers & Geosciences, 2021, 156: 104890.
[26]
MARR B. Big data:using smart big data, analytics and metrics to make better decisions and improve performance[M]. Chichester: John Wiley & Sons, 2015.
[27]
李德仁, 王树良, 李德毅. 空间数据挖掘理论与应用[M]. 3版. 北京: 科学出版社, 2019.
LI Deren, WANG Shuliang, LI Deyi. Theory and method research on spatial data mining[M]. 3rd ed. Beijing: Science Press, 2019.
[28]
王劲峰, 姜成晟, 李连发, 等. 空间抽样与统计推断[M]. 北京: 科学出版社, 2009.
WANG Jinfeng, JIANG Chengsheng, LI Lianfa, et al. Spatial sampling and statistical inference[M]. Beijing: Science Press, 2009.
[29]
LIU Jianzheng, LI Jie, LI Weifeng, et al. Rethinking big data:a review on the data quality and usage issues[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2016, 115: 134-142. DOI:10.1016/j.isprsjprs.2015.11.006
[30]
TANG Luliang, YANG Xue, KAN Zihan, et al. Lane-level road information mining from vehicle GPS trajectories based on nave bayesian classification[J]. ISPRS International Journal of Geo-Information, 2015, 4(4): 2660-2680. DOI:10.3390/ijgi4042660
[31]
YUAN Yihong, WEI Guixing, LU Yongmei. Evaluating gender representativeness of location-based social media:a case study of Weibo[J]. Annals of GIS, 2018, 24(3): 163-176. DOI:10.1080/19475683.2018.1471518
[32]
LAZER D, KENNEDY R, KING G, et al. The parable of Google flu:traps in big data analysis[J]. Science, 2014, 343(6176): 1203-1205. DOI:10.1126/science.1248506
[33]
王劲峰, 葛咏, 李连发, 等. 地理学时空数据分析方法[J]. 地理学报, 2014, 69(9): 1326-1345.
WANG Jinfeng, GE Yong, LI Lianfa, et al. Spatiotemporal data analysis in geography[J]. Acta Geographica Sinica, 2014, 69(9): 1326-1345.
[34]
CHI Guanghua, LIU Yu, WU Zhengwei, et al. Ghost cities analysis based on positioning data in China[EB/OL].[2015-11-12]. https://arxiv.org/abs/1510.08505v2.
[35]
周成虎, 裴韬, 杜云艳, 等. 新冠肺炎疫情大数据分析与区域防控政策建议[J]. 中国科学院院刊, 2020, 35(2): 200-203.
ZHOU Chenghu, PEI Tao, DU Yunyan, et al. Big data analysis on COVID-19 epidemic and suggestions on regional prevention and control policy[J]. Bulletin of the Chinese Academy of Sciences, 2020, 35(2): 200-203.
[36]
李志林, 王继成, 谭诗腾, 等. 地理信息科学中尺度问题的30年研究现状[J]. 武汉大学学报(信息科学版), 2018, 43(12): 2233-2242.
LI Zhilin, WANG Jicheng, TAN Shiteng, et al. Scale in geo-information science:an overview of thirty-year development[J]. Geomatics and Information Science of Wuhan University, 2018, 43(12): 2233-2242.
[37]
CHEN Jie, PEI Tao, SHAW S L, et al. Fine-grained prediction of urban population using mobile phone location data[J]. International Journal of Geographical Information Science, 2018, 32(9): 1770-1786. DOI:10.1080/13658816.2018.1460753
[38]
邓敏, 蔡建南, 杨文涛, 等. 多模态地理大数据时空分析方法[J]. 地球信息科学学报, 2020, 22(1): 41-56.
DENG Min, CAI Jiannan, YANG Wentao, et al. Spatio-temporal analysis methods for multi-modal geographic big data[J]. Journal of Geo-Information Science, 2020, 22(1): 41-56.
[39]
TAN Pangning, STEINBACH M, KUMAR V. Introduction to data mining[M]. Boston: Addison Wesley Press, 2005.
[40]
HAN Jiawei, KAMBER M, PEI Jian. Data mining:concepts and techniques[M]. 3rd ed. Amsterdam: Elsevier Press, 2012.
[41]
SHEKHAR S, HUANG Yan. Discovering spatial co-location patterns:a summary of results[C]//Proceedings of the 7th International Symposium on Spatial and Temporal Databases. Redondo Beach, CA:Springer, 2001:236-256.
[42]
YUE Yang, YEH A G O. Spatiotemporal traffic-flow dependency and short-term traffic forecasting[J]. Environment and Planning B:Urban Analytics and City Science, 2008, 35(5): 762-771.
[43]
CHENG Shifen, LU Feng, PENG Peng, et al. Short-term traffic forecasting:an adaptive ST-KNN model that considers spatial heterogeneity[J]. Computers, Environment and Urban Systems, 2018, 71: 186-198. DOI:10.1016/j.compenvurbsys.2018.05.009
[44]
CHENG Ximeng, WANG Zhiqian, YANG Xuexi, et al. Multi-scale detection and interpretation of spatio-temporal anomalies of human activities represented by time-series[J]. Computers, Environment and Urban Systems, 2021, 88: 101627. DOI:10.1016/j.compenvurbsys.2021.101627
[45]
李志林, 刘启亮, 唐建波. 尺度驱动的空间聚类理论[J]. 测绘学报, 2017, 46(10): 1534-1548.
LI Zhilin, LIU Qiliang, TANG Jianbo. Towards a scale-driven theory for spatial clustering[J]. Acta Geodaetica et Cartographica Sinica, 2017, 46(10): 1534-1548. DOI:10.11947/j.AGCS.2017.20170275
[46]
PAN Gang, QI Guande, WU Zhaohui, et al. Land-use classification using taxi GPS traces[J]. IEEE Transactions on Intelligent Transportation Systems, 2013, 14(1): 113-123. DOI:10.1109/TITS.2012.2209201
[47]
PEI Tao, SOBOLEVSKY S, RATTI C, et al. A new insight into land use classification based on aggregated mobile phone data[J]. International Journal of Geographical Information Science, 2014, 28(9): 1988-2007. DOI:10.1080/13658816.2014.913794
[48]
YAO Yao, LI Xia, LIU Xiaoping, et al. Sensing spatial distribution of urban land use by integrating points-of-interest and Google Word2Vec model[J]. International Journal of Geographical Information Science, 2017, 31(4): 825-848. DOI:10.1080/13658816.2016.1244608
[49]
KANG Chaogui, SHI Li, WANG Fahui, et al. How urban places are visited by social groups? Evidence from matrix factorization on mobile phone data[J]. Transactions in GIS, 2020, 24(6): 1504-1525. DOI:10.1111/tgis.12654
[50]
李小文, 曹春香, 常超一. 地理学第一定律与时空邻近度的提出[J]. 自然杂志, 2007, 29(2): 69-71.
LI Xiaowen, CAO Chunxiang, CHANG Chaoyi. The first law of geography and spatial-temporal proximity[J]. Chinese Journal of Nature, 2007, 29(2): 69-71. DOI:10.3969/j.issn.0253-9608.2007.02.002
[51]
裴韬, 舒华, 郭思慧, 等. 地理流的空间模式:概念与分类[J]. 地球信息科学学报, 2020, 22(1): 30-40.
PEI Tao, SHU Hua, GUO Sihui, et al. The concept and classification of spatial patterns of geographical flow[J]. Journal of Geo-Information Science, 2020, 22(1): 30-40.
[52]
LIU Yu, TONG Daoqin, LIU Xi. Measuring spatial autocorrelation of vectors[J]. Geographical Analysis, 2015, 47(3): 300-319. DOI:10.1111/gean.12069
[53]
SHU Hua, PET Tao, SONG Ci, et al. L-function of geographical flows[J]. International Journal of Geographical Information Science, 2021, 35(4): 689-716. DOI:10.1080/13658816.2020.1749277
[54]
ADRIENKO N, ADRIENKO G. Spatial generalization and aggregation of massive movement data[J]. IEEE Transactions on Visualization and Computer Graphics, 2011, 17(2): 205-219. DOI:10.1109/TVCG.2010.44
[55]
TAO Ran, THILL J C. FlowAMOEBA:identifying regions of anomalous spatial interactions[J]. Geographical Analysis, 2019, 51(1): 111-130. DOI:10.1111/gean.12161
[56]
GUO Diansheng, ZHU Xi. Origin-destination flow data smoothing and mapping[J]. IEEE Transactions on Visualization and Computer Graphics, 2014, 20(12): 2043-2052. DOI:10.1109/TVCG.2014.2346271
[57]
SONG Ci, PEI Tao, MA Ting, et al. Detecting arbitrarily shaped clusters in origin-destination flows using ant colony optimization[J]. International Journal of Geographical Information Science, 2019, 33(1): 134-154. DOI:10.1080/13658816.2018.1516287
[58]
LIU Qiliang, YANG Jie, DENG Min, et al. SNN_flow:a shared nearest-neighbor-based clustering method for inhomogeneous origin-destination flows[J]. International Journal of Geographical Information Science, 2022, 36(2): 253-279. DOI:10.1080/13658816.2021.1899184
[59]
杨喜平, 方志祥. 移动定位大数据视角下的人群移动模式及城市空间结构研究进展[J]. 地理科学进展, 2018, 37(7): 880-889.
YANG Xiping, FANG Zhixiang. Recent progress in studying human mobility and urban spatial structure based on mobile location big data[J]. Progress in Geography, 2018, 37(7): 880-889.
[60]
FANG Zhixiang, YANG Xiping, XU Yang, et al. Spatiotemporal model for assessing the stability of urban human convergence and divergence patterns[J]. International Journal of Geographical Information Science, 2017, 31(11): 2119-2141. DOI:10.1080/13658816.2017.1346256
[61]
LIU Xi, GONG Li, GONG Yongxi, et al. Revealing travel patterns and city structure with taxi trip data[J]. Journal of Transport Geography, 2015, 43: 78-90. DOI:10.1016/j.jtrangeo.2015.01.016
[62]
NEWMAN M E J. Modularity and community structure in networks[J]. Proceedings of the National Academy of Sciences of the United States of America, 2006, 103(23): 8577-8582. DOI:10.1073/pnas.0601602103
[63]
CHAKRABORTY T, DALMIA A, MUKHERJEE A, et al. Metrics for community analysis:a survey[J]. ACM Computing Surveys, 2018, 50(4): 54.
[64]
GUO Diansheng, JIN Hai, GAO Peng, et al. Detecting spatial community structure in movements[J]. International Journal of Geographical Information Science, 2018, 32(7): 1326-1347. DOI:10.1080/13658816.2018.1434889
[65]
WAN You, LIU Yaolin. DASSCAN:a density and adjacency expansion-based spatial structural community detection algorithm for networks[J]. ISPRS International Journal of Geo-Information, 2018, 7(4): 159. DOI:10.3390/ijgi7040159
[66]
LIU Qiliang, ZHU Sancheng, DENG Ming, et al. A spatial scan statistic to detect spatial communities of vehicle movements on urban road networks[J]. Geographical Analysis, 2022, 54(1): 124-148. DOI:10.1111/gean.12278
[67]
EXPERT P, EVANS T S, BLONDEL V V, et al. Uncovering space-independent communities in spatial networks[J]. Proceedings of the National Academy of Sciences of the United States of America, 2011, 108(19): 7663-7668. DOI:10.1073/pnas.1018962108
[68]
GAO Song, LIU Yu, WANG Yaoli, et al. Discovering spatial interaction communities from mobile phone data[J]. Transactions in GIS, 2013, 17(3): 463-481. DOI:10.1111/tgis.12042
[69]
BLATTI Ⅲ C, EMAD A, BERRY M J, et al. Knowledge-guided analysis of "omics" data using the KnowEnG cloud platform[J]. PLoS Biology, 2020, 18(1): e3000583. DOI:10.1371/journal.pbio.3000583
[70]
SINHA S, SONG J, WEINSHILBOUM R, et al. KnowEnG: a knowledge engine for genomics[J]. Journal of the American Medical Informatics Association, 2015, 22(6): 1115-1119. DOI:10.1093/jamia/ocv090
[71]
邓敏, 石岩, 杨学习, 等. 地理空间异常探测理论与方法[M]. 北京: 科学出版社, 2021.
DENG Min, SHI Yan, YANG Xuexi, et al. Theory and method of geo-spatial anomaly detection[M]. Beijing: Science Press, 2021.
[72]
HODGE V, AUSTIN J. A survey of outlier detection methodologies[J]. Artificial Intelligence Review, 2004, 22(2): 85-126. DOI:10.1023/B:AIRE.0000045502.10941.a9
[73]
朱阿兴, 闾国年, 周成虎, 等. 地理相似性:地理学的第三定律?[J]. 地球信息科学学报, 2020, 22(4): 673-679.
ZHU Axing, LV Guonian, ZHOU Chenghu, et al. Geographic similarity:third law of geography?[J]. Journal of Geo-Information Science, 2020, 22(4): 673-679.
[74]
HUANG Hai. Anomalous behavior detection in single-trajectory data[J]. International Journal of Geographical Information Science, 2015, 29(12): 2075-2094. DOI:10.1080/13658816.2015.1063640
[75]
XIAO Ding, SONG Li, WANG Ruijia, et al. Embedding geographic information for anomalous trajectory detection[J]. World Wide Web, 2020, 23(5): 2789-2809. DOI:10.1007/s11280-020-00812-z
[76]
LIU Baoju, DENG Min, YANG Jingyi, et al. Detecting anomalous spatial interaction patterns by maximizing urban population carrying capacity[J]. Computers, Environment and Urban Systems, 2021, 87: 101616. DOI:10.1016/j.compenvurbsys.2021.101616
[77]
GAO Yizhao, LI Ting, WANG Shaowen, et al. A multidimensional spatial scan statistics approach to movement pattern comparison[J]. International Journal of Geographical Information Science, 2018, 32(7): 1304-1325. DOI:10.1080/13658816.2018.1426859
[78]
SHI Yan, DENG Min, YANG Xuexi, et al. Detecting anomalies in spatio-temporal flow data by constructing dynamic neighbourhoods[J]. Computers, Environment and Urban Systems, 2018, 67: 80-96. DOI:10.1016/j.compenvurbsys.2017.08.010
[79]
JEONG M H, YIN Junjun, WANG Shaowen. Outlier detection and comparison of origin-destination flows using data depth[C]//Proceedings of the 10th International Conference on Geographic Information Science. Melbourne, Australia:[s.n.], 2018:6.
[80]
CHAWLA A, ZHENG Yu, HU Jiafeng. Inferring the root cause in road traffic anomalies[C]//Proceedings of the 12th IEEE International Conference on Data Mining. Brussels, Belgium:IEEE, 2012:141-150.
[81]
石岩, 王达, 陈袁芳, 等. 流空间邻近关系约束下的流行病分布空间异常探测方法[J]. 测绘学报, 2021, 50(6): 777-788.
SHI Yan, WANG Da, CHEN Yuanfang, et al. An anomaly detection approach from spatio distributions of epidemic based on adjacency constraints in flow space[J]. Acta Geodaetica et Cartographica Sinica, 2021, 50(6): 777-788. DOI:10.11947/j.AGCS.2021.20200350
[82]
宋宏权, 王丰, 刘学军, 等. 地理环境下的群体运动分析与异常行为检测[J]. 地理与地理信息科学, 2015, 31(4): 1-5.
SONG Hongquan, WANG Feng, LIU Xuejun, et al. Crowd movement analysis and abnormal behavior detection under geographical environment[J]. Geography and Geo-Information Science, 2015, 31(4): 1-5. DOI:10.3969/j.issn.1672-0504.2015.04.001
[83]
LAM P, WANG Lili, NGAN H Y T, et al. Outlier detection in large-scale traffic data by nave Bayes method and Gaussian mixture model method[J]. Electronic Imaging, 2017, 29: 73-78.
[84]
ZHENG Yu, ZHANG Huichu, YU Yong. Detecting collective anomalies from multiple spatio-temporal datasets across different domains[C]//Proceedings of the 23rd SIGSPATIAL International Conference on Advances in Geographic Information Systems. Seattle, WA:Association for Computing Machinery, 2015:2.
[85]
HUANG Bo, WU Bo, BARRY M. Geographically and temporally weighted regression for modeling spatio-temporal variation in house prices[J]. International Journal of Geographical Information Science, 2010, 24(3): 383-401. DOI:10.1080/13658810802672469
[86]
DU Zhenhong, WU Sensen, KWAN M P, et al. A spatiotemporal regression-kriging model for space-time interpolation:a case study of chlorophyll-a prediction in the coastal areas of Zhejiang, China[J]. International Journal of Geographical Information Science, 2018, 32(10): 1927-1947. DOI:10.1080/13658816.2018.1471607
[87]
HUANG Yan, SHEKHAR S, XIONG Hui. Discovering colocation patterns from spatial data sets:a general approach[J]. IEEE Transactions on Knowledge and Data Engineering, 2004, 16(12): 1472-1485. DOI:10.1109/TKDE.2004.90
[88]
KOPERSKI K, HAN Jiawei. Discovery of spatial association rules in geographic information databases[C]//Proceedings of the 4th International Symposium on Spatial Databases. Portland, ME:Springer, 1995:47-66.
[89]
李光强, 邓敏, 朱建军. 基于Voronoi图的空间关联规则挖掘方法研究[J]. 武汉大学学报(信息科学版), 2008, 33(12): 1242-1245.
LI Guangqiang, DENG Min, ZHU Jianjun. Spatial association rules mining methods based on voronoi diagram[J]. Geomatics and Information Science of Wuhan University, 2008, 33(12): 1242-1245.
[90]
DING Wei, EICK C F, YUAN Xiaojing, et al. A framework for regional association rule mining and scoping in spatial datasets[J]. GeoInformatica, 2011, 15(1): 1-28. DOI:10.1007/s10707-010-0111-6
[91]
MOHAN P, SHEKHAR S, SHINE J A, et al. A neighborhood graph based approach to regional co-location pattern discovery:a summary of results[C]//Proceedings of the 19th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems. Chicago, IL:Association for Computing Machinery, 2011:122-132.
[92]
QIAN Feng, CHIEW K, HE Qinming, et al. Mining regional co-location patterns with k NNG[J]. Journal of Intelligent Information Systems, 2014, 42(3): 485-505. DOI:10.1007/s10844-013-0280-5
[93]
YU Wenhao. Regional co-location pattern scoping on a street network considering distance decay effects of spatial interaction[J]. PLoS One, 2017, 12(8): e0181959. DOI:10.1371/journal.pone.0181959
[94]
DENG Min, CAI Jiannan, LIU Qiliang, et al. Multi-level method for discovery of regional co-location patterns[J]. International Journal of Geographical Information Science, 2017, 31(9): 1846-1870. DOI:10.1080/13658816.2017.1334890
[95]
LI Yan, SHEKHAR S. Local co-location pattern detection: a summary of results[C]//Proceedings of the 10th International Conference on Geographic Information Science. Dagstuhl, Germany:Schloss Dagstuhl-Leibniz-Zentrum fuer Informatik, 2018:10.
[96]
LIU Qiliang, LIU Wenkai, DENG Min, et al. An adaptive detection of multilevel co-location patterns based on natural neighborhoods[J]. International Journal of Geographical Information Science, 2021, 35(3): 556-581. DOI:10.1080/13658816.2020.1775235
[97]
CHEN Yimin, CHEN Xinyue, LIU Zihui, et al. Understanding the spatial organization of urban functions based on co-location patterns mining:a comparative analysis for 25 Chinese cities[J]. Cities, 2020, 97: 102563. DOI:10.1016/j.cities.2019.102563
[98]
BARUA S, SANDER J. Mining statistically significant co-location and segregation patterns[J]. IEEE Transactions on Knowledge and Data Engineering, 2014, 26(5): 1185-1199. DOI:10.1109/TKDE.2013.88
[99]
WANG Fahui, HU Yujie, WANG Shuai, et al. Local indicator of colocation quotient with a statistical significance test:examining spatial association of crime and facilities[J]. The Professional Geographer, 2017, 69(1): 22-31. DOI:10.1080/00330124.2016.1157498
[100]
CAI Jiannan, DENG Min, LIU Qiliang, et al. Nonparametric significance test for discovery of network-constrained spatial co-location patterns[J]. Geographical Analysis, 2019, 51(1): 3-22. DOI:10.1111/gean.12155
[101]
LIU Wenkai, LIU Qiliang, DENG Min, et al. Discovery of statistically significant regional co-location patterns on urban road networks[J]. International Journal of Geographical Information Science, 2022, 36(4): 749-772. DOI:10.1080/13658816.2021.1981335
[102]
HE Zhanjun, DENG Min, XIE Zhong, et al. Discovering the joint influence of urban facilities on crime occurrence using spatial co-location pattern mining[J]. Cities, 2020, 99: 102612. DOI:10.1016/j.cities.2020.102612
[103]
LIU Wei, ZHENG Yu, CHAWLA S, et al. Discovering spatio-temporal causal interactions in traffic data streams[C]//Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Diego, CA:Association for Computing Machinery, 2011:1010-1018.
[104]
MOHAN P, SHEKHAR S, SHINE J A, et al. Cascading spatio-temporal pattern discovery[J]. IEEE Transactions on Knowledge and Data Engineering, 2012, 24(11): 1977-1992. DOI:10.1109/TKDE.2011.146
[105]
ZHANG Haiping, ZHOU Xingxing, TANG Guoan, et al. Detecting colocation flow patterns in the geographical interaction data[J]. Geographical Analysis, 2022, 54(1): 84-103. DOI:10.1111/gean.12274
[106]
HE Zhanjun, DENG Min, CAI Jiannan, et al. Mining spatiotemporal association patterns from complex geographic phenomena[J]. International Journal of Geographical Information Science, 2020, 34(6): 1162-1187. DOI:10.1080/13658816.2019.1566549
[107]
KAN Zihan, KWAN M P, TANG Luliang. Ripley's K-function for network-constrained flow data[J]. Geographical Analysis, 2021. DOI:10.1111/gean.12300
[108]
CHENG Tao, HAWORTH J, ANBAROGLU B, et al. Spatiotemporal data mining[M]//FISCHER M M, NIJKAMP P. Handbook of Regional Science. Berlin, Heidelberg:Springer, 2014:1173-1193.
[109]
王佳璆, 邓敏, 程涛, 等. 时空序列数据分析和建模[M]. 北京: 科学出版社, 2012.
WANG Jiaqiu, DENG Min, CHENG Tao, et al. Spatio-temporal series data analysis and modeling[M]. Beijing: Science Press, 2012.
[110]
ZHENG Yu, YU E, MATTHES F, et al. Urban computing[M]. London: MIT Press, 2019.
[111]
SHI Xingjian, CHEN Zhourong, WANG Hao, et al. Convolutional LSTM network:a machine learning approach for precipitation nowcasting[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems. Montreal, Canada:MIT Press, 2015:802-810.
[112]
ZHENG Yu, YI Xiuwen, LI Ming, et al. Forecasting fine-grained air quality based on big data[C]//Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Sydney, NSW:Association for Computing Machinery, 2015:2267-2276.
[113]
CHENG Shifen, PENG Peng, LU Feng. A lightweight ensemble spatiotemporal interpolation model for geospatial data[J]. International Journal of Geographical Information Science, 2020, 34(9): 1849-1872. DOI:10.1080/13658816.2020.1725016
[114]
ZHANG Junbo, ZHENG Yu, QI Dekang, et al. Predicting citywide crowd flows using deep spatio-temporal residual networks[J]. Artificial Intelligence, 2018, 259: 147-166. DOI:10.1016/j.artint.2018.03.002
[115]
REN Yibin, CHEN Huanfa, HAN Yong, et al. A hybrid integrated deep learning model for the prediction of citywide spatio-temporal flow volumes[J]. International Journal of Geographical Information Science, 2020, 34(4): 802-823. DOI:10.1080/13658816.2019.1652303
[116]
ZHAO Ling, SONG Yujiao, ZHANG Chao, et al. T-GCN: a temporal graph convolutional network for traffic prediction[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 21(9): 3848-3858. DOI:10.1109/TITS.2019.2935152
[117]
YU Bing, YIN Haoteng, ZHU Zhanxing. Spatio-temporal graph convolutional networks:a deep learning framework for traffic forecasting[C]//Proceedings of the 27th International Joint Conference on Artificial Intelligence. Stockholm:IJCAI.org, 2018:3634-3640.
[118]
WU Zonghan, PAN Shirui, LONG Guodong, et al. Graph wavenet for deep spatial-temporal graph modeling[C]//Proceedings of the 28th International Joint Conference on Artificial Intelligence. Macao, China:AAAI Press, 2019:1907-1913.
[119]
LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436-444. DOI:10.1038/nature14539
[120]
KIPF T N, WELLING M. Semi-supervised classification with graph convolutional networks[C]//Proceedings of the 5th International Conference on Learning Representations. Toulon:OpenReview.net, 2017.
[121]
HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780. DOI:10.1162/neco.1997.9.8.1735
[122]
WANG Jinfeng, ZHANG Tonglin, FU Bojie. A measure of spatial stratified heterogeneity[J]. Ecological Indicators, 2016, 67: 250-256. DOI:10.1016/j.ecolind.2016.02.052
[123]
DENG Min, YANG Wentao, LIU Qiliang, et al. Heterogeneous space-time artificial neural networks for space-time series prediction[J]. Transactions in GIS, 2018, 22(1): 183-201. DOI:10.1111/tgis.12302
[124]
YANG Wentao, DENG Min, XU Feng, et al. Prediction of hourly PM2.5 using a space-time support vector regression mode[J]. Atmospheric Environment, 2018, 181: 12-19. DOI:10.1016/j.atmosenv.2018.03.015
[125]
DU Zhenhong, WANG Zhongyi, WU Sensen, et al. Geographically neural network weighted regression for the accurate estimation of spatial non-stationarity[J]. International Journal of Geographical Information Science, 2020, 34(7): 1353-1377. DOI:10.1080/13658816.2019.1707834
[126]
DENG Min, YANG Wentao, LIU Qiliang. Geographically weighted extreme learning machine:a method for space-time prediction[J]. Geographical Analysis, 2017, 49(4): 433-450. DOI:10.1111/gean.12127
[127]
KARPATNE A, ATLURI G, FAGHMOUS J H, et al. Theory-guided data science:a new paradigm for scientific discovery from data[J]. IEEE Transactions on Knowledge and Data Engineering, 2017, 29(10): 2318-2331. DOI:10.1109/TKDE.2017.2720168
[128]
WILLARD J, JIA Xiaowei, XU Shaoming, et al. Integrating scientific knowledge with machine learning for engineering and environmental systems[J]. ACM Computing Surveys, 2022.
[129]
龙瀛, 毛其智. 城市规划大数据理论与方法[M]. 北京: 中国建筑工业出版社, 2019.
LONG Ying, MAO Qizhi. Theory and method of big data in urban planning[M]. Beijing: China Architecture and Building Press, 2019.
[130]
甄峰, 王波, 秦萧, 等. 基于大数据的城市研究与规划方法创新[M]. 北京: 中国建筑工业出版社, 2015.
ZHEN Feng, WANG Bo, QIN Xiao, et al. Urban studies and innovation in urban planning methods based on big data[M]. Beijing: China Architecture & Building Press, 2015.
[131]
甄茂成, 党安荣, 许剑. 大数据在城市规划中的应用研究综述[J]. 地理信息世界, 2019, 26(1): 6-12.
ZHEN Maocheng, DANG Anrong, XU Jian. Research progress on the applications of big data to urban planning[J]. Geomatics World, 2019, 26(1): 6-12. DOI:10.3969/j.issn.1672-1586.2019.01.002
[132]
KRINGS G, CALABRESE F, RATTI C, et al. Urban gravity:a model for inter-city telecommunication flows[J]. Journal of Statistical Mechanics:Theory and Experiment, 2009, 2009: L07003.
[133]
董超, 修春亮, 魏冶. 基于通信流的吉林省流空间网络格局[J]. 地理学报, 2014, 69(4): 510-519.
DONG Chao, XIU Chunliang, WEI Ye. Network structure of 'space of flows' in Jilin Province based on telecommunication flows[J]. Acta Geographica Sinica, 2014, 69(4): 510-519.
[134]
TU Wei, ZHU Tingting, XIE Jizhe, et al. Portraying the spatial dynamics of urban vibrancy using multisource urban big data[J]. Computers, Environment and Urban Systems, 2020, 80: 101428. DOI:10.1016/j.compenvurbsys.2019.101428
[135]
LIU Qiliang, WU Zhihui, DENG Min, et al. Network-constrained bivariate clustering method for detecting urban black holes and volcanoes[J]. International Journal of Geographical Information Science, 2020, 34(10): 1903-1929. DOI:10.1080/13658816.2020.1720027
[136]
GONG Li, LIU Xi, WU Lun, et al. Inferring trip purposes and uncovering travel patterns from taxi trajectory data[J]. Cartography and Geographic Information Science, 2016, 43(2): 103-114. DOI:10.1080/15230406.2015.1014424
[137]
龙瀛, 张宇, 崔承印. 利用公交刷卡数据分析北京职住关系和通勤出行[J]. 地理学报, 2012, 67(10): 1339-1352.
LONG Ying, ZHANG Yu, CUI Chengyin. Identifying commuting pattern of Beijing using bus smart card data[J]. Acta Geographica Sinica, 2012, 67(10): 1339-1352. DOI:10.11821/xb201210005
[138]
ZHANG Junbo, ZHENG Yu, QI Dekang. Deep spatio-temporal residual networks for citywide crowd flows prediction[C]//Proceedings of the 31st AAAI Conference on Artificial Intelligence. San Francisco, CA:AAAI Press, 2017:1655-1661.
[139]
JIANG Bin, MA Ding, YIN Junjun, et al. Spatial distribution of city tweets and their densities[J]. Geographical Analysis, 2016, 48(3): 337-351. DOI:10.1111/gean.12096
[140]
CAI Jixuan, HUANG Bo, SONG Yimeng. Using multi-source geospatial big data to identify the structure of polycentric cities[J]. Remote Sensing of Environment, 2017, 202: 210-221. DOI:10.1016/j.rse.2017.06.039
[141]
YE Chao, ZHANG Fan, MU Lan, et al. Urban function recognition by integrating social media and street-level imagery[J]. Environment and Planning B:Urban Analytics and City Science, 2021, 48(6): 1430-1444. DOI:10.1177/2399808320935467
[142]
张帆, 刘瑜. 街景影像-基于人工智能的方法与应用[J]. 遥感学报, 2021, 25(5): 1043-1054.
ZHANG Fan, LIU Yu. Street view imagery:methods and applications based on artificial intelligence[J]. Journal of Remote Sensing, 2021, 25(5): 1043-1054.
[143]
ZHANG Fan, ZU Jinyan, HU Mingyuan, et al. Uncovering inconspicuous places using social media check-ins and street view images[J]. Computers, Environment and Urban Systems, 2020, 81: 101478. DOI:10.1016/j.compenvurbsys.2020.101478
[144]
杨东援, 段征宇. 大数据环境下城市交通分析技术[M]. 上海: 同济大学出版社, 2015.
YANG Dongyuan, DUAN Zhengyu. Urban traffic analysis technology in the big data environment[M]. Shanghai: Tongji University Press, 2015.
[145]
唐炉亮, 刘章, 杨雪, 等. 符合认知规律的时空轨迹融合与路网生成方法[J]. 测绘学报, 2015, 44(11): 1271-1276.
TANG Luliang, LIU Zhang, YANG Xue, et al. A method of spatio-temporal trajectory fusion and road network generation based on cognitive law[J]. Acta Geodaetica et Cartographica Sinica, 2015, 44(11): 1271-1276. DOI:10.11947/j.AGCS.2015.20140591
[146]
YANG Wei, AI Tinghua, LU Wei. A method for extracting road boundary information from crowdsourcing vehicle GPS trajectories[J]. Sensors, 2018, 18(4): 1261. DOI:10.3390/s18041261
[147]
DENG Min, HUANG Jincai, ZHANG Yunfei, et al. Generating urban road intersection models from low-frequency GPS trajectory data[J]. International Journal of Geographical Information Science, 2018, 32(12): 2337-2361. DOI:10.1080/13658816.2018.1510124
[148]
YANG Xue, HOU Liang, GUO Mingqiang, et al. Road intersection identification from crowdsourced big trace data using Mask-RCNN[J]. Transactions in GIS, 2022, 26(1): 278-296. DOI:10.1111/tgis.12851
[149]
WANG Zuchao, LU Min, YUAN Xiaoru, et al. Visual traffic jam analysis based on trajectory data[J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(12): 2159-2168. DOI:10.1109/TVCG.2013.228
[150]
PANG L X, CHAWLA S, LIU Wei, et al. On detection of emerging anomalous traffic patterns using GPS data[J]. Data & Knowledge Engineering, 2013, 87: 357-373.
[151]
WANG Yilun, ZHENG Yu, XUE Yexiang. Travel time estimation of a path using sparse trajectories[C]//Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York:Association for Computing Machinery, 2014:25-34.
[152]
KAN Zihan, TANG Luliang, KWAN M P, et al. Fine-grained analysis on fuel-consumption and emission from vehicles trace[J]. Journal of Cleaner Production, 2018, 203: 340-352. DOI:10.1016/j.jclepro.2018.08.222
[153]
SANTI P, RESTA G, SZELL M, et al. Quantifying the benefits of vehicle pooling with shareability networks[J]. Proceedings of the National Academy of Sciences of the United States of America, 2014, 111(37): 13290-13294. DOI:10.1073/pnas.1403657111
[154]
YUAN Jing, ZHENG Yu, XIE Xing, et al. Driving with knowledge from the physical world[C]//Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Diego, CA:Association for Computing Machinery, 2011:316-324.
[155]
REN Yibin, CHENG Tao, ZHANG Yang. Deep spatio-temporal residual neural networks for road-network-based data modeling[J]. International Journal of Geographical Information Science, 2019, 33(9): 1894-1912. DOI:10.1080/13658816.2019.1599895
[156]
程昌秀, 宋长青, 吴晓静, 等. 地理时空三向聚类分析方法的构建与实践[J]. 地理学报, 2020, 75(5): 904-916.
CHENG Changxiu, SONG Changqing, WU Xiaojing, et al. Tri-clustering:construction and practice of space-time integrated analysis tool[J]. Acta Geographica Sinica, 2020, 75(5): 904-916.
[157]
LIU Ye, ZHENG Yu, LIANG Yuxuan, et al. Urban water quality prediction based on multi-task multi-view learning[C]//Proceedings of the 25th International Joint Conference on Artificial Intelligence. New York:AAAI Press, 2016:2576-2582.
[158]
YAN Jianzhuo, LIU Jiaxue, YU Yongchuan, et al. Water quality prediction in the Luan river based on 1-DRCNN and BiGRU hybrid neural network model[J]. Water, 2021, 13(9): 1273. DOI:10.3390/w13091273
[159]
ZHENG Yu, LIU Tong, WANG Yilun, et al. Diagnosing New York city's noises with ubiquitous data[C]//Proceedings of 2014 ACM International Joint Conference on Pervasive and Ubiquitous Computing. Seattle, WA:Association for Computing Machinery, 2014:715-725.
[160]
WANG Yilun, ZHENG Yu, LIU Tong. A noise map of New York city[C]//Proceedings of 2014 ACM International Joint Conference on Pervasive and Ubiquitous Computing. Seattle, WA:Association for Computing Machinery, 2014:275-278.
[161]
柳林, 张春霞, 冯嘉欣, 等. ZG市诈骗犯罪的时空分布与影响因素[J]. 地理学报, 2017, 72(2): 315-328.
LIU Lin, ZHANG Chunxia, FENG Jiaxin, et al. The spatial-temporal distribution and influencing factors of fraud crime in ZG city, China[J]. Acta Geographica Sinica, 2017, 72(2): 315-328.
[162]
JIN Li, FENG Zhuonan, FENG Ling. A context-aware collaborative filtering approach for urban black holes detection[C]//Proceedings of the 25th ACM International on Conference on Information and Knowledge Management. Indianapolis, IN:Association for Computing Machinery, 2016:2137-2142.
[163]
SOUZA R C S N P, ASSUNO R M, OLIVEIRA D M, et al. Where did I get dengue? Detecting spatial clusters of infection risk with social network data[J]. Spatial and Spatio-temporal Epidemiology, 2019, 29: 163-175. DOI:10.1016/j.sste.2018.11.005
[164]
贾建民, 袁韵, 贾轼. 基于人口流动的新冠肺炎疫情风险分析[J]. 中国科学基金, 2020, 34(6): 667-674.
JIA Jianmin, YUAN Yun, JIA Shi. Risk analysis of COVID-19 based on population flow[J]. Bulletin of National Natural Science Foundation of China, 2020, 34(6): 667-674.
[165]
JO J, LEE K W. High-performance geospatial big data processing system based on MapReduce[J]. ISPRS International Journal of Geo-Information, 2018, 7(10): 399. DOI:10.3390/ijgi7100399
[166]
WHITE T. Hadoop:the definitive guide[M]. 3rd ed. Sebastopol, CA: O'Reilly, 2012.
[167]
DEAN J, GHEMAWAT S. MapReduce:simplified data processing on large clusters[J]. Communications of the ACM, 2008, 51(1): 107-113. DOI:10.1145/1327452.1327492
[168]
ZAHARIA M, CHOWDHURY M, FRANKLIN M J, et al. Spark:cluster computing with working sets[C]//Proceedings of the 2nd USENIX Conference on Hot Topics in Cloud Computing. Boston, MA:USENIX Association, 2010:10.
[169]
ELDAWY A, MOKBEL M F. SpatialHadoop:a MapReduce framework for spatial data[C]//Proceedings of 2015 IEEE 31st International Conference on Data Engineering. Seoul, Korea:IEEE, 2015:1352-1363.
[170]
YU Jia, WU Jinxuan, SARWAT M. GeoSpark:a cluster computing framework for processing large-scale spatial data[C]//Proceedings of the 23rd SIGSPATIAL International Conference on Advances in Geographic Information Systems. Seattle, WA:Association for Computing Machinery, 2015:70.
[171]
WANG Shaowen, LIU Yan, PADMANABHAN A. Open cyberGIS software for geospatial research and education in the big data era[J]. SoftwareX, 2016, 5: 1-5. DOI:10.1016/j.softx.2015.10.003
[172]
XIONG W, CHEN L. HiGIS:an open framework for high performance geographic information system[J]. Advances in Electrical and Computer Engineering, 2015, 15(3): 123-132. DOI:10.4316/AECE.2015.03018
[173]
ZHANG Xiaohu, XU Yang, TU Wei, et al. Do different datasets tell the same story about urban mobility-a comparative study of public transit and taxi usage[J]. Journal of Transport Geography, 2018, 70: 78-90. DOI:10.1016/j.jtrangeo.2018.05.002
[174]
郑晓琳, 刘启亮, 刘文凯, 等. 智能卡和出租车轨迹数据中蕴含城市人群活动模式的差异性分析[J]. 地球信息科学学报, 2020, 22(6): 1268-1281.
ZHENG Xiaolin, LIU Qiliang, LIU Wenkai, et al. Discovery of urban human mobility patterns from smart card transactions and taxi GPS trajectories:a comparative study[J]. Journal of Geo-Information Science, 2020, 22(6): 1268-1281.
[175]
刘瑜, 康朝贵, 王法辉. 大数据驱动的人类移动模式和模型研究[J]. 武汉大学学报(信息科学版), 2014, 39(6): 660-666.
LIU Yu, KANG Chaogui, WANG Fahui. Towards big data-driven human mobility patterns and models[J]. Geomatics and Information Science of Wuhan University, 2014, 39(6): 660-666.
[176]
胡焕庸. 中国人口之分布-附统计表与密度图[J]. 地理学报, 1935, 2(2): 33-74.
HU Huanyong. The distribution of population in China, with statistics and maps[J]. Acta Geographica Sinica, 1935, 2(2): 33-74.
[177]
LIU Q L. Scale-driven clustering of geographic point data[D]. The Hong Kong Polytechnic University, 2015.
[178]
邓敏, 刘启亮, 李光强, 等. 空间聚类分析及应用[M]. 北京: 科学出版社, 2011.
DENG Min, LIU Qiliang, LI Guangqiang, et al. Spatial clustering analysis and application[M]. Beijing: Science Press, 2011.
[179]
李德毅. 大数据认知——"2015大数据价值实现之路高峰论坛"主题报告[J]. 重庆理工大学学报(自然科学), 2015, 29(9): 1-6.
LI Deyi. Big data cognition:keynote lecture of "2015 forum of big data value realization road"[J]. Journal of Chongqing Institute of Technology (Natural Science), 2015, 29(9): 1-6.
[180]
ATLURI G, KARPATNE A, KUMAR V. Spatio-temporal data mining:a survey of problems and methods[J]. ACM Computing Surveys, 2019, 51(4): 83.
[181]
LIU Qiliang, LI Zhilin, DENG Min, et al. Modeling the effect of scale on clustering of spatial points[J]. Computers, Environment and Urban Systems, 2015, 52: 81-92. DOI:10.1016/j.compenvurbsys.2015.03.006
[182]
GUI Zhipeng, PENG Dehua, WU Huayi, et al. MSGC:multi-scale grid clustering by fusing analytical granularity and visual cognition for detecting hierarchical spatial patterns[J]. Future Generation Computer Systems, 2020, 112: 1038-1056. DOI:10.1016/j.future.2020.06.053
[183]
裴韬, 黄强, 王席, 等. 地理大数据聚合的内涵、分类与框架[J]. 遥感学报, 2021, 25(11): 2153-2162.
PEI Tao, HUANG Qiang, WANG Xi, et al. Big geodata aggregation:connotation, classification, and framework[J]. National Remote Sensing Bulletin, 2021, 25(11): 2153-2162.
[184]
ZHANG Changqing, FU Huazhu, HU Qinghua, et al. Generalized latent multi-view subspace clustering[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(1): 86-99. DOI:10.1109/TPAMI.2018.2877660
[185]
LIU Qiliang, HUAN Weihua, DENG Min, et al. Inferring urban land use from multi-source urban mobility data using latent multi-view subspace clustering[J]. ISPRS International Journal of Geo-Information, 2021, 10(5): 274. DOI:10.3390/ijgi10050274
[186]
ZHAO Ziliang, SHAW S L, XU Yang, et al. Understanding the bias of call detail records in human mobility research[J]. International Journal of Geographical Information Science, 2016, 30(9): 1738-1762. DOI:10.1080/13658816.2015.1137298
[187]
张钹, 朱军, 苏航. 迈向第三代人工智能[J]. 中国科学:信息科学, 2020, 50(9): 1281-1302.
ZHANG Bo, ZHU Jun, SU Hang. Toward the third generation of artificial intelligence[J]. Scientia Sinica Informationis, 2020, 50(9): 1281-1302.
[188]
王志华, 杨晓梅, 周成虎. 面向遥感大数据的地学知识图谱构想[J]. 地球信息科学学报, 2021, 23(1): 16-28.
WANG Zhihua, YANG Xiaomei, ZHOU Chenghu. Geographic knowledge graph for remote sensing big data[J]. Journal of Geo-Information Science, 2021, 23(1): 16-28.
[189]
周成虎, 王华, 王成善, 等. 大数据时代的地学知识图谱研究[J]. 中国科学:地球科学, 2021, 51(7): 1070-1079.
ZHOU Chenghu, WANG Hua, WANG Chengshan, et al. Geoscience knowledge graph in the big data era[J]. Science China Earth Sciences, 2021, 51(7): 1070-1079.
http://dx.doi.org/10.11947/j.AGCS.2022.20220068
中国科学技术协会主管、中国测绘地理信息学会主办。
0

文章信息

刘耀林,刘启亮,邓敏,石岩
LIU Yaolin, LIU Qiliang, DENG Min, SHI Yan
地理大数据挖掘研究进展与挑战
Recent advance and challenge in geospatial big data mining
测绘学报,2022,51(7):1544-1560
Acta Geodaetica et Cartographica Sinica, 2022, 51(7): 1544-1560
http://dx.doi.org/10.11947/j.AGCS.2022.20220068

文章历史

收稿日期:2022-02-28
修回日期:2022-06-17

相关文章

工作空间