文章快速检索  
  高级检索
文本中空间信息的结构化建模与语义定位
王大力1, 童晓冲1,2, 孟丽3, 雷毅1, 郭从洲1, 张有为2     
1. 信息工程大学地理空间信息学院, 河南 郑州 450001;
2. 信息工程大学先进技术研究院, 河南 郑州 450001;
3. 31016部队, 北京 100081
摘要:互联网上存在大量包含空间信息的文本, 本文针对此类文本中描述事件位置的空间语义建模方法不统一、模糊处理方法不恰当等问题, 利用方形离散格网建立结构化语义表达模型, 使用统一的形式对方向、距离、拓扑3类基本语义及其组合形成的复杂语义进行表达, 并使用卷积方法定量化空间语义中的模糊概念, 将不确定的语义描述投影到地理空间, 最终通过多句空间语义确定事件发生的地理位置。试验表明: ①结构化语义表达模型能适用于包含多种空间关系的语义, 在多语义联合建模求并时能确定未知事件发生的地理范围; ②语义定位的可信度与语义类型、参考实体类型、参考实体数量及正确语义占比等因素有关, 当参考实体数量较多时, 能在正确语义数量小于错误语义数量的情况下确定事件发生的地理位置范围。
关键词空间信息建模    语义建模    语义定位    方形离散格网    
Structural modeling of spatial information in texts and semantic localization
WANG Dali1, TONG Xiaochong1,2, MENG Li3, LEI Yi1, GUO Congzhou1, ZHANG Youwei2     
1. Institute of Geospatial Information, Information Engineering University, Zhengzhou 450001, China;
2. Zhengzhou Xinda Institute of Advanced Technology, Zhengzhou 450001, China;
3. Troops 31016, Beijing 100081, China
Abstract: A large number text including spatial information exist widely on the Internet. In order to solve the problems of inconsistent spatial semantic modeling methods and inappropriate fuzzy processing methods for describing the location of events in those text, this paper uses the square discrete grid to establish a structured semantic expression model, and uses a unified form to express three basic semantics (direction, distance and topology). The convolution method is used to quantify the fuzzy concepts in the spatial semantics, and the uncertain semantic description is projected to the geographical space, and finally the geographical location of the event is determined through the multi-sentence spatial semantics. Experiments show that: ① The structured semantic representation model can be applied to semantics with various types of spatial information, and can determine the geographic range of unknown events when multi-semantic joint modeling and merging; ② The credibility of semantic location is related to the semantic type, the type of reference entity, the number of reference entities, the proportion of correct semantics and other factors. When the number of reference entities is large, the geographical location range of events can be determined under the condition that the number of correct semantics is less than that of wrong.
Key words: spatial information modeling    semantic modeling    semantic localization    global discrete grid system    

大数据时代数据增长速度快、数据总量高[1],带有时空信息的时空大数据对传统测绘行业带来颠覆性冲击,使得传统测绘逐渐向更趋近于互联网时代下实时时空定位与大众服务行业的泛在测绘转变[2]。泛在网络环境下的空间信息与位置大数据可分为地理数据、轨迹数据和空间媒体数据[1],其中的空间媒体数据的主要来源是大众通过各类智能客户端,如微博、搜索引擎等,产生的包含时空信息的各类数字化文本等数据,此类数据通常以描述“事件”相对已知位置的空间关系作为主要形式[3],如“音乐会开在郑州大学西侧”。通过对数字化文本中空间语义的处理可以获取大量事件发生的地理位置,在未实地考察之前,通过互联网信息是短时间内获取事件发生位置的唯一手段,可以为舆情监测、城市应急等提供参考[4-6],具有重要应用价值。

常用的空间语义处理方法主要包括语义映射方法和基于深度学习的语义提取[7-8]两类。深度学习方法在训练良好的条件下能有效提取语义中的地理实体和相应特征,但无法从语义层面“理解”文本[9],尤其在涉及空间语义推理方面,使得复杂、隐式空间关系的提取与表达效果达不到预期,且大数据时代要求数据处理方法朝更高效地由数据驱动的自适应算法方向发展[10]。因此,原理简单、应用简便、具有结构化推理特征的语义映射方法更适用于空间语义处理。

目前,传统空间语义建模方法主要通过对空间关系进行分类(方向关系、拓扑关系、距离关系[11])和定义隶属函数,使得定性的空间关系能映射到数值空间中。方向关系建模有八方向锥形模型[12]、Voronoi图模型[13]、锥形模型改进方法[14]、基于地标的临近关系和方位关系定性模型[15];拓扑关系建模有4交模型[16]、9交模型[17]及基于9交模型的补充方法[18];由于非点状目标之间距离是模糊的,不同类型实体间(如面状实体与线状实体)的距离往往有多种定义,故距离关系目前仍没有一个满意的形式化统一数学模型[19]。有学者根据模糊理论进行了距离关系的定义描述,如缓冲区法和随机参数法[20]等。上述空间语义建模方法存在两个问题:

(1) 缺乏通用、规范的结构化空间关系描述方法。虽然针对每类空间关系都分别建立了许多描述模型,但至今仍没有达成共识[14]:一方面,对于同一类型的空间语义有多种描述方法;另一方面,不同空间语义处理方法相对独立,不同类型空间语义的处理方法难以结合。这导致地理信息系统无法直接处理多种类型组合的复合空间关系,如“从学校往西5 km,再往南2 km,那里周边200 m范围内的商城”样式的由方向和距离组成的复合方位关系。

(2) 对空间语义中的模糊概念处理困难。由于信息发布者对空间认知有限,经常使用“周围”等描述词来增加信息的模糊性,即使是信息中看似明确的部分也是不确定的,“东部”并不意味着正东,“1 km”也大概率不会是度量空间的1000 m。上述空间语义建模方法都是采用一般的映射方法,通过给定精确的隶属度函数,用唯一、确定的隶属度确定语义中的模糊概念已经属于精确数学的范畴[21],而实际上由于人们在认识模糊性时带有的主观性,每个人对模糊事物的界限不完全一样,现有的唯一映射方法没有很好地解决空间关系中定性概念的量化问题。

针对上述空间语义处理方法的不足,本文提出以方形离散格网[22]作为地理框架的空间语义模型,采用的结构化建模方法,首先用统一形式的结构化语义表达3类基本语义(方向、距离、拓扑),然后用隶属云方法[23]处理语义中的不确定部分形成空间语义卷积核,最后利用空间语义卷积核与地理实体的卷积操作将不确定的语义描述投影到地理空间,通过多语义求并的方式定位空间语义描述的地理位置,为事件发现和舆情监测提供参考。

1 地理实体格网化与细节划分

传统地理信息系统(geographic information system, GIS)采用面向对象(地理实体)的方式存储地理信息,依靠存储的高精度浮点形式经纬度计算对象间的空间关系,这种数据存储与处理方式在处理互联网下空间关系大数据时会出现存储空间占用大、运算效率较低等问题[10]。文献[24]采用格网GIS的方法处理大数据,该方法通过统计手动划分出格网中的数据进行分析,能有效解决传统GIS处理地理大数据时的不足,证明了格网在处理大数据时的优势,但该方法中格网作用仅仅是地理位置标识,并未利用格网来解决空间关系的计算问题。离散格网在不同尺度下对空间进行无缝且同质的划分,其多层次性和成熟的编码运算方法更适合在计算机上进行尺度多源数据的统一建模与分析[25]。空间被划分为有限数量的格网后,面向空间的存储方式与基于整数编码的空间运算较传统GIS具有一定优势,且格网本身的尺寸蕴含了地理位置的不确定性,无形中契合了空间语义的处理需求。由于方形格网具有东、西、南、北4个明确的方向,且在东、西、南、北4方向的距离是一致的(在一定尺度下可以忽略由于长宽尺寸差异带来的方位与距离偏差),且其在东北、东南、西南、西北4方向的方向关系与距离关系基本保持一致,贴合人的空间关系认知习惯,适合用于空间语义的建模,故本文采用方形离散格网作为地理框架,首先对已知位置的地理实体进行格网化与细节划分[26]。文献[25, 2728]详细介绍了球面、平面的单尺度和多尺度格网剖分方法,在此本文不对地理实体的格网化做过多赘述。

地理实体格网化后,用格网集合代替经纬度集合来表示地理实体的地理范围[25]。地理实体格网的细节划分是在地理实体格网化的基础上,将空间中的离散格网细分为若干部分。通过基于拓扑关系的划分将格网划分为地理实体内部格网、地理实体边界格网及地理实体外部格网共3部分格网;通过基于方向关系的划分将格网划分为9部分格网,分别为:北方向格网、东北方向格网、东方向格网、东南方向格网、南方向格网、西南方向格网、西方向格网、西北方向格网、北方向格网及中部格网。通过基于拓扑关系的格网划分可以用多个地理实体不同部分格网的相交、相邻、相离来描述地理实体间的拓扑关系,通过基于方向的格网划分可以用不同方向格网与其他地理实体格网的交来描述地理实体间的方向关系。地理实体格网的细节划分是基于3部分拓扑关系的格网划分与9部分基于方向关系的格网划分的交集,共27个部分,通过不同地理实体格网的细节划分,可以达到利用格网的拓扑关系来统一描述地理实体间不同空间关系的目的。

本文以地球表面局部区域发生的事件为例,采用基于经纬度投影的方形离散格网进行建模,格网的方向分别朝向正东和正北,对于更大范围的全球性事件则采用全球离散格网。对地理实体进行细节划分时,统一采用单一尺度的格网进行格网化,后文不再强调。

1.1 基于拓扑关系的划分

地理实体格网化结果及各部分示例如图 1所示。记某地理实体单尺度格网化结果为S(图 1(a)),其中格网的层级与数据描述的精度相关,地理实体本身尺度越小,数据描述精度越高,则格网的层级越大;局部区域整体格网化结果为A;格网坐标中行列号为(i, j)的格网为Gi, j。可以根据拓扑关系将格网划分为地理实体边界格网集合B=S∩{Gi, jGN4(Gi, j), GS}(图 1(c)),其中N4(Gi, j)表示Gi, j的四邻域{Gi+1, j, Gi-1, j, Gi, j+1, Gi, j-1};地理实体内部格网集合I=S-B(图 1(b));和地理实体外部格网集合E=CAS(图 1(d))。

图 1 地理实体格网化结果及各部分示例 Fig. 1 Examples of geographic entity gridding results and each part

1.2 基于方向关系的划分

基于方向关系的划分需要通过地理实体格网化后的重心得到。记NS中格网的数量,则S的重心通过式(1)得到

(1)

式中,i为格网的列号;j为格网的行号;n=1, 2, …, N;[·]为四舍五入;JIS的重心对应格网的行列号。令ImaxJmaxIminJmin分别为格网单元集合S中行(I)、列(J)号的最大与最小值,记Ir=I+[(Imax-I)/3],Il=I+[(Imin-I)/3],Jt=J+[(Jmax-J)/3],Jd= +[(Jmin-J)/3]。令正东为I轴的正方向,正北为J轴的正方向,将全体格网集合A根据式(2)进行基于方向关系的划分

(2)

得到的各个部分的格网集合,分别命名为:北部(NG)、东北部(ENG)、东部(EG)、东南部(ESG)、南部(SG)、西南部(WSG)、西部(WG)、西北部(WNG)和中部(CG)。

1.3 地理实体格网细节划分

将基于拓扑关系划分的各个部分与基于方向关系划分的各个部分求交集,能得到地理实体格网细节划分的27个部分。以拓扑关系划分中的内部格网与方向关系划分各个部分的交集为例,内部北部NI=I∩NG,内部东北部ENI=I∩ENG,内部东部EI=I∩EG,内部东南部ESI=I∩ESG,内部南部SI=I∩SG,内部西南部WSI=I∩WSG,内部西部WI=I∩WG,内部西北部WNI=I∩WNG,内部中部CI=I∩CG,如图 2所示。同样地,边界格网B与方向关系划分各个部分的交集分别为边界北部NB、边界东北部ENB、边界东部EB、边界东南部ESB、边界南部SB、边界西南部WSB、边界西部WB、边界西北部WNB和边界中部CB;外部格网E与方向关系划分各个部分的交集分别为外部北部NE、外部东北部ENE、外部东部EE、外部东南部ESE、外部南部SE、外部西南部WSE、外部西部WE、外部西北部WNE和外部中部CE。

图 2 内部格网及细节划分示例 Fig. 2 Example of internal grid and detail division

上文通过面状地理实体对地理实体格网化细节划分进行了介绍,由于点状、线状实体在格网化后的划分方法与面状实体一致,故在此不再过多说明。定义地理实体格网的细节划分是建立结构化语义,对地理实体空间关系进行统一形式的描述与表达的基础。

2 空间语义结构化建模 2.1 结构化语义表达模型

对于空间语义中最常见语义形式是以一个明确地理位置为参考,利用空间关系进行描述的形式[3],建立结构化语义表达模型。结合9交模型与细节划分,使用统一的形式对方向、距离、拓扑3类基本语义与方位为代表的复杂语义进行表达。假设目标地理实体(或事件)对应的地理位置为B,已知参考地理位置为A,则结构化语义定义如下:

B内部与A内部相(Ⅰ),在A内部的(Ⅱ)部;B边界与A内部相(Ⅲ),在A内部的(Ⅳ)部;B内部与A边界相(Ⅴ),在A边界的(Ⅵ)部;B边界与A边界相(Ⅶ),在A边界的(Ⅷ)部;B内部与A外部相(Ⅸ),在A外部的(Ⅹ)部;B边界与A外部相(Ⅺ),在A外部的(Ⅻ)部;B距离A(Ⅹ Ⅲ)m。其中各个部分的取值集合见表 1,其中表方向关系的内容为多个取值的并。

表 1 结构化语义表达模型取值 Tab. 1 Structured semantic expression model value
编号 取值集合
交、邻、离、未知
北、东北、东、东南、南、西南、西、西北、中、未知
交、邻、离、未知
北、东北、东、东南、南、西南、西、西北、中、未知
交、邻、离、未知
北、东北、东、东南、南、西南、西、西北、中、未知
交、邻、离、未知
北、东北、东、东南、南、西南、西、西北、中、未知
交、邻、离、未知
北、东北、东、东南、南、西南、西、西北、中、未知
交、邻、离、未知
北、东北、东、东南、南、西南、西、西北、中、未知
ⅩⅢ 数值、未知

通过定义结构化的空间语义表达模型,可以实现从多种空间关系的语义到结构化语义的转化。首先对空间关系语义进行处理,提取其中描述空间关系的关键字,若存在方位语义描述词(东、南等),则根据语言中的拓扑语义修饰词(内、外等)和距离语义修饰词对结构化语义中的关键字进行修改;若不存在方位语义描述词,但存在拓扑语义描述词(交、离等),则根据语义中地理实体细节描述词(北部、东部等)对结构化语义中的关键字进行修改;否则,根据距离语义描述词对结构化语义中的关键字进行修改。综上所述,空间语义结构化步骤如图 3所示。

图 3 自然空间语义到结构化语义的转变流程 Fig. 3 The transformation process from natural spatial semantics to structured semantics

按照上述空间语义结构化流程,可以将描述空间关系的自然语义转化为结构化语义。表 2列举出了3类典型空间语义与一类典型复合语义对应的结构化语义中各个部分的取值,该典型复合语义中的空间关系为“方向关系”和“距离关系”组合的“方位关系”。

表 2 多种空间关系自然语言对应的结构化语义 Tab. 2 Structured semantics corresponding to natural languages with various spatial relations
空间关系类型 自然语义描述 结构化语义中各部分取值
方向关系 事件B发生在A的东侧 未知;未知;未知;未知;未知;未知;未知;未知;交;东;未知;未知;未知
距离关系 事件B发生在距A 2 km的位置 未知;未知;未知;未知;未知;未知;未知;未知;未知;未知;未知;未知;2 km
拓扑关系 事件B发生在A 交;未知;未知;未知;交;未知;未知;未知;未知;未知;未知;未知;未知
方位关系 事件B发生在A西侧2 km的位置 离;未知;离;未知;离;未知;离;未知;交;东;交;东;2 km

通过定义结构化的空间语义表达模型,还可以由地理实体空间位置得到地理实体间空间关系的描述。首先确定作为参考实体的地理实体,然后将参考实体格网和目标实体格网进行基于拓扑关系的划分,通过各个部分的拓扑关系确定结构化语义中第Ⅰ、Ⅲ、Ⅴ、Ⅶ、Ⅸ、Ⅺ项,对于其中取“交”的项,将参考实体进行基于空间关系的划分后,通过相交是否为空集确定结构化语义中描述空间关系的项Ⅱ、Ⅳ、Ⅵ、Ⅷ、Ⅹ、Ⅻ。最后通过两地理实体内部间的距离来确定结构化语义中描述距离的项Ⅹ Ⅲ。表 3列举出了两个地理实体以不同形式相交的格网化示意图(其中A为参考实体格网化结果,B为目标实体格网化结果,灰色格网为两地理实体格网的相交部分),在已知地理实体的空间分布的情况下,分别用自然语言和结构化语义对地理实体的空间关系进行描述,通过比较其内容分析这两种描述方法能否描述地理实体空间关系发生的微小变动。

表 3 对地理实体空间关系的不同描述方法 Tab. 3 Different description methods for the spatial relationship of geographic entities
地理实体格网化结果(A为参考实体) 地理实体空间关系的自然语文描述 地理实体空间关系的结构化语义描述
BA的东侧相交 邻;未知;交;东北、
东;交;东北、东;
交;东北、东南;交;东北、东;交;东北、
东、东南;3×格网宽度
BA的东侧相交 离;未知;邻;未知;邻;未知;交;东北、
东、东南;交;东北、东;交;东北、东、东南;4×格网宽度

表 3可知,相对于自然语言描述,当地理实体间空间关系稍有变化时,结构化空间语义通过描述两地理实体细节划分间的拓扑与方向关系,能更加准确地描述地理实体间的空间关系,尤其是对于复杂拓扑关系与复杂方向关系的描述更加恰当。例如表 3B边界与A内部的拓扑关系从“相交”变更为“相邻”;在示意图所示格网的格网宽度下,BA之间的距离从“3×格网宽度”变更为“4×格网宽度”。

2.2 结构化语义量化卷积的建模方法

对于结构化的空间语义,还需解决语义中的模糊性,将定性的方向、距离关系定量化。在日常描述方位时,由于个人感知与判断偏差,时常会出现描述相同但实际方位不一致的情况,所以传统模糊方法中用一个确定的隶属函数来确定语义中模糊部分是不合适的。文献[23]用一个具有稳定倾向的随机数代替精确隶属度,用一个具有稳定倾向的期望隶属曲线代替隶属函数,将一般正态分布扩展为泛正态,对于定性概念,给定其3个数字特征值ExEnHe与云滴数N后,通过隶属云发生器(membership clouds generator, MCG) 生成N个数值对{x, y},其中x的量化结果,yx属于的确定度,成为研究不确定性知识表示的重要方法[21]

基于MCG,本文设计了一个空间关系量化卷积模板(spatial relationship quantization convolution template, SRQCT),用来生成基本空间关系对应的格网形式的卷积核,使得空间关系的量化可以通过参考实体与卷积核的卷积得到。卷积核的大小由距离关系决定,若语义中不存在距离关系,一般根据使用场景设定为参考实体外接圆内径的整数倍,且为奇数,因此一定存在卷积核中心O,以O为原点,正东为I轴,正北为J轴建立空间直角坐标系。对于拓扑关系,令O为1,其余为0,得到拓扑关系卷积核;对于方向关系,根据MCG生成的数值对{xi, yi}(i∈1, 2, …, N),令卷积核中与斜率为xi直线相交的所有格网隶属度为yi,其余为0,将得到的N个卷积核求和后归一化,得到方向关系卷积核;对于距离关系,根据MCG生成的数值对{xi, yi}(i∈1, 2, …, N),令卷积核中到原点距离四舍五入后为xi的所有格网隶属度为yi,其余为0,将得到的N个卷积核求和后归一化,得到距离关系卷积核。将卷积中心与被卷积格网重合执行卷积操作,得到空间关系量化结果,实现结构化空间语义的建模。

整个空间语义格网化建模流程如图 4所示,对于获取到的自然语义,首先通过结构化处理得到结构化的空间语义;然后分别处理其中已知的空间关系和参考实体,对空间关系按照上述卷积核生成方法生成空间语义量化卷积核,对参考实体结合空间关系进行细节划分得到被卷积实体;最后通过卷积操作得到空间语义的格网化建模结果。本文的建模方法将原本对事件发生地理位置的空间描述转变为格网与隶属度集合,隶属度反映了事件发生在该格网处的概率值,隶属度越大,则事件发生在该处的可能性越大。

图 4 空间语义格网化建模流程 Fig. 4 Ubiquitous geospatial semantic grid modeling process

图 5给出的建模示例中,方位关系“东侧7 km”被拆解成方向关系“东侧”和距离关系“7 km”两个基本空间关系。在当前格网化层级下一个方形格网的宽度约为2.6 km,而“7 km”约为3个格网覆盖的距离,故以卷积核中心为起点,上下(左右)各延长3行(列),通过SRQCT生成7×7的卷积核,分别与参考实体格网的细节划分做卷积后再求交,以消除语义本身可能存在的矛盾,得到最终的语义建模结果并可视化,可视化时,无填充格网为参考实体的位置,填充格网为事件可能发生的位置,隶属度越大,则格网越高,颜色越深,即事件越可能在此发生。

图 5 典型语义建模示例 Fig. 5 Typical semantic modeling example

对于形如“从学校往西5 km,再往南2 km,那里周边200 m范围内的商城”的多句语义的结构化建模,多句语义分别结构化后,将前一句语义的建模结果作为后一句语义的参考地理实体,逐步实现多句语义的结构化建模。

3 空间语义定位

空间语义结构化建模方法可以将单句语义转变为格网与隶属度的集合,通过隶属度来反映事件发生在对应空间位置的概率。互联网上信息的一大特征是高价值总量、低价值密度[1],所以对于事件地理位置,需要通过多句与事件关联的语义共同定位确定。

3.1 基于空间关联的语义定位原理

传统的语义定位方法是在已知事件发生的前提下,通过互联网挖掘大量与事件相关的语义信息,通过处理得到事件发生的地理位置。而实际上在没有明确事件是否发生前,无法通过基于事件的搜索方式来确定事件的地理位置,但互联网上此时已有大量与之有关的信息,通过监控互联网上信息的空间属性,能够发现在某个空间位置中出现大量信息的高度聚集,故能根据空间的聚集来反过来发现事件。

基于大部分事件与空间位置直接或间接相关[29]的通用事件定位原理,本文以空间聚集作为事件发现与语义定位的原理,有两种应用模式:①在一定时间跨度内,通过对同一事件描述语义的建模,定位出事件的发生位置(图 6),这与传统面向事件的定位方式是一致的;②在一定时间跨度内,通过所搜集到所有语义建模,定位出语义所关注的重点区域,则该区域为潜在事件发生的位置,进而通过自然语言处理等相关技术确定事件性质,这与传统面向事件的定位方式是相反的,是面向空间的定位过程。

图 6 语义定位示例 Fig. 6 Semantic localization example

3.2 语义定位过程

由于事先无法确定单句语义的正确与否,所以语义定位基于一个基本假设:所有语义都是正确的。对于所有语义,分别对其建模得到格网与隶属度集合后,通过求并的操作将编码相同格网对应隶属度求和

(3)

式中,code为建模结果的格网编码;p为该格网的隶属度;∪为建模结果的求并符号。以求和后隶属度最大的格网对应地理位置作为事件发生概率最大的位置,由于求并的交换律与结合律,语义定位可以先在各个不同数据库或服务器中分布式处理本地数据,然后将建模结果上传至公共服务器再求并即可,避免了大量无意义的数据传输操作,也大大节省了公共服务器的存储空间。

图 6是通过两句语义定位的过程,图 6(a)图 6(b)为两句语义“事件A发生在B南侧1.5 km位置”与“事件A发生在C东侧2 km位置”分别建模的结果,图 6(c)为通过两句语义求并对事件A定位的结果,其中格网的高度为每个格网隶属度求和的结果,格网的颜色越深(高度越高)代表格网隶属度越高。最高的格网为事件A最可能发生的地理位置范围。

4 试验与讨论 4.1 试验目的

为了验证空间关系结构化建模处理多种类型空间关系的有效性以及多语义联合确定未知事件位置的可行性,设计了事件的空间语义定位试验,通过参考实体地理位置与该事件相对于参考实体的空间关系,来确定目标事件的地理位置。

为了测试语义定位方法在不同数据组成情况下的有效性以及不同因素对语义定位结果的影响,设计了不同参考实体数量、不同语义数量以及不同语义比例的空间语义定位有效性试验。通过对比不同数据组成下定位结果的准确程度来说明语义定位方法的适用性。

4.2 试验设计

(1) 事件的空间语义定位试验:通过爬虫获取互联网上的空间语义数据,对获取到的语义进行建模并定位出事件的发生位置。

(2) 空间语义定位有效性试验:在事件实际发生位置已知的前提下进行语义定位,以事件实际发生位置处格网的隶属度为正确位置隶属度,以事件实际发生位置格网8邻域外的位置为错误位置,对应的隶属度为错误位置隶属度,根据式(4)定义隶属度显著度(简称显著度)

(4)

式中,MR为正确位置隶属度;ME为错误位置隶属度;P为显著度。显著度反映了语义定位结果的参考价值,显著度为正,说明语义定位结果有效;显著度越大,说明语义定位结果越有参考性。通过对比不同语义组成情况下语义定位结果的显著度,来探究参考实体数量、参考实体种类、语义数量、语义类型和正确语义占比对语义定位结果的影响,验证不同情况下语义定位方法的有效性。

4.3 数据与环境

为了验证建模与定位方法的可靠性,考虑到需要通过确定定位结果的真值进行对比,采用模拟空间语义的方法,以互联网上挖掘到的空间语义为模板(表 4),通过模仿互联网上语义种类多样、数据良莠不齐的数据组成环境来模拟数据并进行试验,以避免处理互联网上直接获取的空间语义数据后难以验证其定位结果正确性的问题。

表 4 互联网空间语义与所提取空间关系语义示例 Tab. 4 Examples of internet spatial semantics and extracted spatial relation semantics
直接挖掘到的空间语义数据 语义中提取得到的空间关系语义
出个差,山东最东边的县级市,安静,舒适,中国最具幸福感城市“荣成市” “荣成市”位于山东最东边
灵泉寺原名宝山寺,位于河南省安阳市安阳县善应镇宝山之麓 灵泉寺位于河南省安阳市安阳县善应镇
房屋出租:(临近地铁)一号线四惠东站(距离地铁站500 m) 出租房屋位于一号线四惠东站500 m

本文给定了一种数据模拟方法:从地名数据库中获取参考地理实体的精确位置,并假设有未知事件发生在某个已知地理位置。通过计算得到该事件相对于参考地理实体的空间关系,根据人对空间关系描述时的模糊性对空间关系模糊化后,基于正态分布依据5种数据模拟规则(方向相同距离相似、方向相似距离相同、方向相似距离相似、方向相反距离相同和方向随机距离随机),得到5类模拟数据,其中前3类是近似正确的语义,第4类是完全错误的语义,第5类是随机语义。当几类数据数量相同时,可以模拟互联网上事件描述接近真实情况数量偏多,且存在一定数量的错误描述和存在毫无根据地胡乱描述的情况(表 5)。根据事件与参考实体间的空间关系定位出事件发生的位置,通过验证该位置是否位于预先设定的位置周围,来验证语义定位的有效性。

表 5 空间语义数据模拟示例 Tab. 5 Ubiquitous semantic data simulation examples
地理实体
中心位置
事件真实
空间关系
实体模糊
空间关系
数据模拟规则 模拟数据示例 模拟数据
数量
天健湖公园
(113.473°E, 34.817 °N);
某事件发生位置
(113.534°E, 34.818 °N)
某事件发生在天健湖公园东偏北1.14° 5.65 km处 某事件发生在天健湖公园东边6 km处 方位相同
距离相似
某事件发生在天健湖公园
以东6 km的位置
10
某事件发生在天健湖公园
以东5 km的位置
方位相似
距离相同
某事件发生在天健湖公园
以东北6 km的位置
10
某事件发生在天健湖公园
以东6 km的位置
方位相似
距离相似
某事件发生在天健湖公园
以东5 km的位置
10
某事件发生在天健湖公园
以东北6 km的位置
方位相反
距离相同
某事件发生在天健湖公园
以西6 km的位置
10
某事件发生在天健湖公园
以西北6 km的位置
方位随机
距离随机
某事件发生在天健湖公园
周围5 km的位置
10
某事件发生在天健湖公园
以北3 km的位置

本文从开放街道地图(open street map, OSM[30])的郑州市地理名称数据库中手动挑选了3类(点状目标、线状目标、面状目标)4个地理实体:天健湖公园、莲花公园、科学大道和图书馆。以天健湖公园、莲花公园、科学大道和图书馆为参考实体,假设有3件事件分别发生在(113.534°E, 34.818°N)、(113.562°E, 34.821°N)、(113.507°E, 34.806°N),通过上述数据模拟方法得到包括方位、距离、方向和拓扑4类共470句语义,见表 6

表 6 语义定位试验数据模拟情况 Tab. 6 Simulation data of semantic localization experiment
语义
类型
语义示例 语义
数量
方位 某事件发生在天健湖公园以东6 km的位置
某事件发生在莲花公园以西4 km的位置
某事件发生在科学大道以东北1 km的位置
324
距离 某事件发生在天健湖公园周围3 km的位置
某事件发生在科学大道周围1 km的位置
某事件发生在莲花公园周围500 m的位置
8
方向 某事件发生在天健湖公园以南的位置
某事件发生在科学大道以北的位置
某事件发生在莲花公园以西南的位置
45
拓扑 某事件发生在天健湖公园处
某事件发生在科学大道处
某事件发生在图书馆处
93

表 7设计了对比实验组,其中第1、2、3、4组用来分析不同类型语义对定位结果的影响;第4、5、6组用来分析正确语义比例对定位结果的影响;第4、7组用来分析正确语义数量对定位结果的影响;第4、8、9组用来分析不同类型参考实体对定位结果的影响;第6、10、12、13组用来分析不同数量参考实体对定位结果的影响;第10、11、12、13组用来分析参考实体数量与正确语义比例在影响定位结果时的相关性。通过对比不同情况下语义定位结果的显著性,来探究不同因素对语义定位结果的影响及不同数据组成情况下空间语义定位方法的有效性。

表 7 对比试验数据模拟情况 Tab. 7 Simulation data of comparing experimental
语义
组别
参考实体数量 参考实体类型 语义
类型
单个参考实体
正确语义数量
单个参考实体
错误语义数量
1 1 点状 方向 15 0
2 1 点状 距离 15 0
3 1 点状 拓扑 15 0
4 1 点状 方位 15 0
5 1 点状 方位 15 5
6 1 点状 方位 15 10
7 1 点状 方位 150 0
8 1 线状 方位 15 0
9 1 面状 方位 15 0
10 2 点状 方位 15 10
11 2 点状 方位 15 15
12 2 点状 方位 15 20
13 3 点状 方位 15 20

由于本文试验中地理实体间距离均为数千米,在郑州市范围内,第17层级方形格网在经纬方向的尺寸差异为47.288 m,在城市范围尺度下可以忽略因尺寸差异造成的方位关系偏差。因此为了计算简便,以17层级地球表面局部方形格网作为试验的地理框架。

两组试验环境均为:Windows10 64 bit, AMD Ryzen 7 4800H CPU @ 2.90 GHz, RAM 40 GB, SSD 1TB, Visual Studio 2017, WebStorm 2021.3, C++, JavaScript。

4.4 结果与分析

图 7为事件的空间语义定位试验中不同类型语义建模结果的可视化,无填充格网为参考实体,填充格网为可能发生事件位置的格网集合,格网的高度取决于隶属度,其中格网的隶属度越大,对应格网高度越高,颜色越深。

图 7 多种类型空间语义建模可视化 Fig. 7 Multi-type spatial semantic modeling and visualization

图 8为事件定位试验结果的可视化,表 8为空间语义定位有效性试验不同组语义对比的结果。

图 8 事件定位实验结果可视化 Fig. 8 Event localization experiment results and visualization

表 8 有效性试验结果 Tab. 8 Effectiveness experimental results
语义
组别
正确位置
隶属度
错误位置
最大隶属度
隶属度
显著度/(%)
1 3.092 3.770 -21.93
2 9.655 10.372 -7.43
3 15 3.200 +78.67
4 7.028 6.1734 +12.16
5 6.531 6.415 +1.78
6 5.917 7.500 -26.75
7 75.089 64.087 +14.65
8 8.492 8.810 -3.74
9 4.432 4.206 +5.10
10 11.687 10.927 +6.50
11 14.620 14.393 +1.55
12 9.5715 13.902 -45.24
13 16.532 15.507 +6.20

通过事件定位试验,验证了空间语义结构化建模方法的有效性,该方法能对处理多种类型的空间语义并得到语义建模结果。图 8中3个隶属度最大格网的中心位置为(113.534°E, 34.817°N)、(113.562°E, 34.823°N)及(113.507°E, 34.806°N),与事件预设位置相距均不超过一个格网的宽度,证明了利用本文语义定位方法确定事件位置的可行性。

对定位有效性试验的结果分析可得:①第1、2、3、4组中只有第3、4组显著度为正,其余均为负;第4、8、9组中只有第8组隶属度为负,说明了点目标拓扑语义与点状、面状参考实体方位语义定位的有效性。②第4、5、6组中语义显著度随正确语义比例下降,说明正确语义比例越低,语义定位效果越差;第7组语义显著度要大于第4组,说明正确语义数量越多,语义定位结果越可靠。③第10、13组显著度分别明显大于第6、12组,且第10、13组显著度为正,第11、12组隶属度为负,说明参考实体数量越多,定位结果越可靠,同时当参考实体到达一定数量,可以在正确语义比例下降一定程度内保持语义定位结果的有效性。

5 结论与展望

本文提出的结构化语义表达模型在全球离散格网系统的基础上解决了多种空间关系规范化描述的问题,该模型不仅能表达基本空间关系,也能表达基本空间关系组合形成的复合关系。在结构化语义表达模型的基础上,本文利用一种卷积方法实现了空间语义中模糊概念的量化建模问题,适合对存在大量非结构化和不确定空间信息的空间语义进行统一形式的表达与建模,通过不同语义模型的求并,可以实现以空间聚集为原理的事件发现与定位,为地理大数据时代舆情监测与预警提供了可行方案。

本文方法还能在更多领域中得到应用,后续会针对其中的内容继续深入研究:①将局部格网替换为全球格网,可以扩展到全球大区域事件的发现与位置确定;同时地理实体也可以替换为三维实体,结合实景三维建设将应用拓展到三维事件。②其中部分参数(例如实体细节划分区域、空间语义卷积核等)可以通过深度学习等智能化方法学习得到。③在自然语言智能理解的基础上,空间语义建模与定位的过程可以实现自动化或者半自动化,以此达到对突发事件实时监控、及时预警的效果。


参考文献
[1]
刘经南. 大数据与位置服务[J]. 测绘科学, 2014, 39(3): 3-9.
LIU Jingnan. Big data and location services[J]. Science of Surveying and Mapping, 2014, 39(3): 3-9.
[2]
刘经南, 郭文飞, 郭迟, 等. 智能时代泛在测绘的再思考[J]. 测绘学报, 2020, 49(4): 403-414.
LIU Jingnan, GUO Wenfei, GUO Chi, et al. Rethinking ubiquitous mapping in the intelligent age[J]. Acta Geodaetica et Cartographica Sinica, 2020, 49(4): 403-414. DOI:10.11947/J.AGCS.2020.20190539
[3]
杜清运, 任福. 空间信息的自然语言表达模型[J]. 武汉大学学报(信息科学版), 2014, 39(6): 682-688.
DU Qingyun, REN Fu. Representation model of spatial information in natural language[J]. Geomatics and Information Science of Wuhan University, 2014, 39(6): 682-688.
[4]
屈晓晖, 袁武, 袁文, 等. 时空大数据分析技术在传染病预测预警中的应用[J]. 中国数字医学, 2015, 10(8): 36-39.
QU Xiaohui, YUAN Wu, YUAN Wen, et al. Application of spatio-temporal big data analysis technologies in forecasting and early warning of infectious diseases[J]. China Digital Medicine, 2015, 10(8): 36-39.
[5]
CHEN L, KANG C, YANG C. Understanding citizens'emotion states under the urban livability environment through social media data: a case study of Wuhan[J]. Journal of Geodesy and Geoinformation Science, 2022, 5(2): 49-59.
[6]
ZHANG J, QI H. Data mining and spatial analysis of social media text based on the BERT-CNN model to achieve situational awareness: a case study of COVID-19[J]. Journal of Geodesy and Geoinformation Science, 2022, 5(2): 38-48.
[7]
王海波, 王姬卜, 黄宗财, 等. 结合实体词与句子语义的地理实体关系抽取[J]. 测绘科学技术学报, 2018, 35(6): 633-636, 642.
WANG Haibo, WANG Jibu, HUANG Zongcai, et al. Extraction of geographical entity relations combining entity words and sentence semantics[J]. Journal of Geomatics Science and Technology, 2018, 35(6): 633-636, 642.
[8]
罗安, 王艳东, 龚健雅. 顾及上下文的空间信息服务组合语义匹配方法[J]. 武汉大学学报(信息科学版), 2011, 36(3): 368-372.
LUO An, WANG Yandong, GONG Jianya. A semantic matching method for geospatial information service composition based on context[J]. Geomatics and Information Science of Wuhan University, 2011, 36(3): 368-372.
[9]
江洋洋, 金伯, 张宝昌. 深度学习在自然语言处理领域的研究进展[J]. 计算机工程与应用, 2021, 57(22): 1-14.
JIANG Yangyang, JIN Bo, ZHANG Baochang. Research progress of natural language processing based on deep learning[J]. Computer Engineering and Applications, 2021, 57(22): 1-14.
[10]
朱建军, 宋迎春, 胡俊, 等. 测绘大数据时代数据处理理论面临的挑战与发展[J]. 武汉大学学报(信息科学版), 2021, 46(7): 1025-1031.
ZHU Jianjun, SONG Yingchun, HU Jun, et al. Challenges and development of data processing theory in the era of surveying and mapping big data[J]. Geomatics and Information Science of Wuhan University, 2021, 46(7): 1025-1031.
[11]
邓敏, 李志林, 吴静. 空间关系理论与方法[M]. 北京: 科学出版社, 2013.
DENG Min, LI Zhilin, WU Jing. Theory and method of spatial relationship[M]. Beijing: Science Press, 2013.
[12]
PEUQUET D J, CI-XIANG Z. An algorithm to determine the directional relationship between arbitrarily-shaped polygons in the plane[J]. Pattern Recognition, 1987, 20(1): 65-74.
[13]
李成名, 朱英浩, 陈军. 利用Voronoi图形式化描述和判断GIS中的方向关系[J]. 解放军测绘学院学报, 1998, 15(2): 117-120.
LI Chengming, ZHU Yinghao, CHEN Jun. Directional relation description and determination based on voronoi diagram in GIS[J]. Journal of the PLA Institute of Surveying and Mapping, 1998, 15(2): 117-120.
[14]
李朝奎, 李拥, 吴柏燕, 等. 锥形方向关系模型的改进方法[J]. 测绘科学, 2013, 38(6): 106-108.
LI Chaokui, LI Yong, WU Baiyan, et al. Improvement model and its application of taper direction relations model[J]. Science of Surveying and Mapping, 2013, 38(6): 106-108.
[15]
王彦坤, 樊红, 王伟玺, 等. 地标空间方向的位置描述定位模型[J]. 测绘科学, 2020, 45(9): 18-24.
WANG Yankun, FAN Hong, WANG Weixi, et al. A positioning localities model about landmark locality description based on spatial direction relationship[J]. Science of Surveying and Mapping, 2020, 45(9): 18-24.
[16]
EGENHOFER M J, FRANZOSA R D. Point-set topological spatial relations[J]. International Journal of Geographical Information Systems, 1991, 5(2): 161-174.
[17]
EGENHOFER M, HERRING J. Categorizing binary topological relations between regions, lines and points in geographic databases, the 9-intersection: formalism and its use for natural language spatial predicates[J]. Santa Barbara CA National Center for Geographic Information and Analysis Technical Report, 1990, 94: 1-28.
[18]
李朋朋, 刘纪平, 罗安, 等. 移动目标空间拓扑关系的度量描述[J]. 测绘通报, 2019(4): 65-70.
LI Pengpeng, LIU Jiping, LUO An, et al. Metric description of spatial topological relations in moving objects[J]. Bulletin of Surveying and Mapping, 2019(4): 65-70.
[19]
廖楚江, 杜清运. GIS空间关系描述模型研究综述[J]. 测绘科学, 2004, 29(4): 79-82, 86.
LIAO Chujiang, DU Qingyun. A summary of GIS spatial relationship description model[J]. Science of Surveying and Mapping, 2004, 29(4): 79-82, 86.
[20]
唐天琪, 曹青, 张翎, 等. 点线目标自然语言空间关系描述模拟表达方法研究[J]. 地球信息科学学报, 2018, 20(2): 139-146.
TANG Tianqi, CAO Qing, ZHANG Ling, et al. Simulated expression method of spatial relationship of natural language of point, line and object[J]. Journal of Geo-Information Science, 2018, 20(2): 139-146.
[21]
李德毅, 刘常昱. 论正态云模型的普适性[J]. 中国工程科学, 2004, 6(8): 28-34.
LI Deyi, LIU Changyu. Study on the universality of the normal cloud model[J]. Engineering Science, 2004, 6(8): 28-34.
[22]
HARTMANN A, MEINEL G, HECHT R, et al. A workflow for automatic quantification of structure and dynamic of the German building stock using official spatial data[J]. ISPRS International Journal of Geo-Information, 2016, 5(8): 142.
[23]
李德毅, 孟海军, 史雪梅. 隶属云和隶属云发生器[J]. 计算机研究与发展, 1995, 32(6): 15-20.
LI Deyi, MENG Haijun, SHI Xuemei. Membership clouds and membership cloud generators[J]. Journal of Computer Research and Development, 1995, 32(6): 15-20.
[24]
钱立辉, 臧淑英. 基于格网GIS与灰色关联模型的崩滑流灾害孕灾环境研究[J]. 地理信息世界, 2020, 27(6): 64-68, 74.
QIAN Lihui, ZANG Shuying. Research on the developing zone of collapse and landslide or debris flow geo-hazards based on grid-GIS and grey correlation model[J]. Geomatics World, 2020, 27(6): 64-68, 74.
[25]
赵学胜, 侯妙乐, 白建军. 全球离散格网的空间数字建模[M]. 北京: 测绘出版社, 2007.
ZHAO Xuesheng, HOU Miaole, BAI Jianjun. Spatial digital modeling of the global discrete grids[M]. Beijing: Surveying and Mapping Press, 2007.
[26]
杜世宏, 王桥, 李治江. GIS中自然语言空间关系定义[J]. 武汉大学学报(信息科学版), 2005, 30(6): 533-538.
DU Shihong, WANG Qiao, LI Zhijiang. Definitions of natural-language spatial relations in GIS[J]. Geomatics and Information Science of Wuhan University, 2005, 30(6): 533-538.
[27]
LEI Y, TONG X, ZHANG Y, et al. Global multi-scale grid integer coding and spatial indexing: a novel approach for big earth observation data[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2020, 163: 202-213.
[28]
WU X, TONG X, LEI Y, et al. Rapid computation of set boundaries of multi-scale grids and its application in coverage analysis of remote sensing images[J]. Computers & Geosciences, 2021, 146: 104573.
[29]
蒲鹏先, 王勇. 应急地理信息整合平台系统架构初探[J]. 地理信息世界, 2008, 6(6): 39-44.
PU Pengxian, WANG Yong. Preliminary research on the system architecture of the platform integrated by emergency geographic information[J]. Geomatics World, 2008, 6(6): 39-44.
[30]
OpenStreetMap Wiki. Main Page[DB/OL]. [2022-01-24]. https://wiki.openstreetmap.org/w/index.php?title=Main_Page&oldid=2013332.
http://dx.doi.org/10.11947/j.AGCS.2023.20220066
中国科学技术协会主管、中国测绘地理信息学会主办。
0

文章信息

王大力,童晓冲,孟丽,雷毅,郭从洲,张有为
WANG Dali, TONG Xiaochong, MENG Li, LEI Yi, GUO Congzhou, ZHANG Youwei
文本中空间信息的结构化建模与语义定位
Structural modeling of spatial information in texts and semantic localization
测绘学报,2023,52(8):1398-1410
Acta Geodaetica et Cartographica Sinica, 2023, 52(8): 1398-1410
http://dx.doi.org/10.11947/j.AGCS.2023.20220066

文章历史

收稿日期:2022-01-26
修回日期:2022-10-10

相关文章

工作空间