文章快速检索  
  高级检索
语义驱动的地理实体关联网络构建与知识服务
凌朝阳1, 李锐1, 吴华意1, 李江3, 桂志鹏2     
1. 武汉大学测绘遥感信息工程国家重点实验室, 湖北 武汉 430079;
2. 武汉大学遥感信息工程学院, 湖北 武汉 430079;
3. 湖北省自然资源厅信息中心, 湖北 武汉 430071
摘要:知识服务是GIS的重要应用方向, 海量文本数据中蕴含的丰富隐式地理信息的分析与挖掘成为热点研究问题。在自然资源管理领域, 一定时空范围内的自然资源分布相对独立和分散, 文本中的丰富语义信息零散、庞杂且高度非结构化, 缺少有效的组织表达、关联整合与综合应用方案。本文面向自然资源管理领域的文本数据和自然资源实体, 提出了语义驱动的地理实体表达框架, 通过语义描述、空间位置、属性特征和时间演化四元组来组织表达文本内蕴的地理实体多域信息, 并从概念、空间、属性和时间4个维度定义并表示实体间的多类语义关系; 继而按照地理实体信息抽取、信息存储和语义关联构建等步骤, 给出了多维度地理实体关联网络的构建方法, 并设计了基于关联网络的知识问答服务算法; 最后, 以建设用地审批为例, 利用审批过程电子文本数据, 完成建设用地信息的实体化表达、建设用地实体关联网络的构建及知识问答服务的实现。试验与分析结果表明, 本文的理论与方法能有效促进自然资源管理领域文本中地理信息的有机整合、充分关联与科学管理, 为提升自然资源领域信息的应用与社会化服务水平提供切实可行的途径。
关键词文本数据    语义驱动    地理实体表达框架    关联网络    知识问答服务    
Semantic-driven construction of geographic entity association network and knowledge service
LING Zhaoyang1, LI Rui1, WU Huayi1, LI Jiang3, GUI Zhipeng2     
1. State Key Laboratory of Information Engineering in Surveying, Mapping and Remote Sensing, Wuhan University, Wuhan 430079, China;
2. School of Remote Sensing and Information Engineering, Wuhan University, Wuhan 430079, China;
3. Information Center of Department of Natural Resources of Hubei Province, Wuhan 430071, China
Abstract: Knowledge service is an important application direction of GIS. The analysis and mining of the rich implicit geographic information contained in massive text data has become a hot research issue. In the field of natural resource management, the distribution of natural resources within a certain temporal and spatial range is relatively independent and scattered. The rich semantic information in the text is fragmented, complex and highly unstructured, lacking effective organization, integration, and comprehensive application solutions. Oriented to text data and natural resource geographic entities, this paper proposes a semantic-driven geographic entity expression framework. It organizes and expresses the multi-domain information of geographic entities through a four-tuple of semantic description, spatial location, attribute characteristics, and temporal evolution. It defines and describes the multiple types of relationships between entities from the four dimensions of concept, space, attributes and time. Following the steps of geographic entity information extraction, information storage and association construction, we give a method for constructing a multi-dimensional geographic entity association network. Then, we design a knowledge question answering algorithm based on the associated network. Finally, taking construction land approval as an example, using electronic text data of the approval process, we complete the materialized expression of construction land information, the construction of the geographic entity association network, and the realization of knowledge question answering service. The experiments and analysis show the theories and methods of this article can effectively promote the organic integration, full association and scientific management of geographic information in the text, and provide practical ways to improve application and social service level of information in the field of natural resources.
Key words: text data    semantic-driven    geographic entity expression framework    association network    knowledge question answering service    

随着现代信息技术的快速发展,GIS的应用领域不断拓宽,但数据海量、信息泛滥、知识难求的现象也愈加凸显,地理知识服务的研发成为解决现有问题的关键[1-2]。大数据环境下各类蕴含丰富隐式地理信息的文本资源显著增多,是新信息时代地理知识获取的重要来源[3],面向海量文本数据的地理信息分析与知识挖掘成为当前研究热点。在自然资源管理领域,文本数据是表达和传递自然资源信息的重要载体。自然资源管理过程中产生的大量非结构化文本,如各类审批文件等,既承载了自然资源的地理时空信息,也涵盖了丰富的业务管理及社会经济信息,是自然资源数据资源体系的重要组成。但在实际管理过程中,由于相关理论、技术体系的缺乏,文本信息的挖掘利用不够充分。具体表现在:①文件中的自然资源信息零散、庞杂且高度非结构化,缺少统一的组织表达框架和可靠的结构化获取方案;②大时空尺度下自然资源的时空分布相对独立与分散,直接关联与相互作用较弱,自然资源实体信息缺少有效的关联与整合手段。这些问题限制了对自然资源信息的全面认知与科学管理,制约了自然资源管理领域知识应用与社会化服务水平的提升。

构建适应自然资源管理特点的地理知识表达模型,是开展知识组织与关联的重要前提。近年来,以地理实体为基本单元对地理信息、知识进行描述与表达是一种重要思路[4-5]。在地理实体表达上,常见的做法是通过空间、属性等多元组实现对地理实体多域信息的分类组织[6-7]。文献[8]从时空参照、空间位置等8个角度构建多粒度时空对象的数据描述框架。在实体关系表达方面,文献[9]将多粒度时空对象间的关联关系划分为空间、时间、属性、因果、认知关系等类型。文献[10]详细探讨了属性关联关系的概念理论与构建方法。上述成果对于实体及关系的表达具有重要意义,但现有实体表达研究侧重于对以坐标为基础的空间数据进行抽象概括,关于文本中地理实体丰富语义信息的表达研究较少。现有关系表达研究主要侧重于具有一定相互作用或直接物理、逻辑关联的地理实体,关于大时空尺度下相互关系较弱、无直接关联的领域地理实体的多维度语义关联研究还较少。

建立能够有效支撑领域知识服务的地理知识表示方法,是开展知识管理与应用的重要基础。知识图谱技术为发展地理智能服务提供了知识表示、推理与应用的有效手段[11-12]。文献[13]以知识图谱的形式融合地理空间和百度百科数据,并基于此表示地理对象的静态时空信息,对地理数据到地理知识的拓展具有重要参考价值,但未考虑时空演变等动态知识。文献[14]围绕地理实体的状态和变化等核心元素提出了图结构的地理知识形式化表示方法,能够实现地理实体演化过程的有效表征,但对实体关系的建模较简单。现有知识图谱表示方法大多存在对时空维度的建模不够、实体关系表达有限等问题[15-16],如何在网络中有机植入时空维度、实现地理知识充分关联,是开展基于知识图谱的地理知识服务的关键[2, 17]。在自然资源管理领域,借鉴知识图谱技术,设计图结构的地理知识表示方法,构建多维度的地理实体关联网络,继而支撑领域知识检索、问答、推荐等服务,是一种可行的方案。

针对上述问题,本文通过分析自然资源管理领域基本管理单元及文本数据的特点,首先从特征表达与关系表达两个层次出发,提出语义驱动的地理实体表达框架;其次,借鉴知识图谱的构建思路,面向文本中的多维语义信息,以多类语义关系为核心,给出多维度地理实体关联网络的构建方法;然后,将上述框架与方法应用于建设用地审批业务,完成建设用地信息的实体化表达与关联网络的构建;最后,开发基于实体关联网络的建设用地知识问答系统,能够实现建设用地信息的有机整合和科学管理,促进建设用地信息应用与社会化服务水平的提升。

1 语义驱动的地理实体表达框架

在自然资源管理领域的电子文本数据中,自然资源实体的空间形态等强调几何精确性的信息通常涉及较少,而权属、价值与社会影响等语义层面的特征更受重视[18-19]。语义是数据的含义,语义信息是对海量领域文本中蕴含的实体类别语义、时空语义、属性语义等多维语义信息的统称;语义关系是指自然资源地理实体在领域本体、空间位置、属性特征、时间演化等多维语义空间存在的多类关系。顾及领域数据特点及应用需要,地理实体表达框架从特征表达与关系表达两个层次展开,特征表达面向文本数据,将地理实体的各项信息划分为语义描述、空间位置、属性特征和时间演化4个域进行分类组织。关系表达面向自然资源地理实体,依据实体所属本体概念、时空位置的相似性及属性信息取值的相关性或一致性,定义实体间的概念、空间、属性和时间等多维语义关系。与多粒度时空对象[8]等其他地理实体(或时空对象)表达模型相比,本文表达框架的特点在于强调领域文本中的语义信息、突出多维度的特征语义关联、采用基于图结构的表示方法,能够有效实现领域地理知识的表示、关联、挖掘与应用。

1.1 地理实体的特征表达

1.1.1 语义描述

不同于广义上涵盖地理实体名称、时空、属性等多方面内容的文本语义信息,地理实体的语义描述信息更加具体,指实体所属概念的含义,以及对该实体的独特性描述与本质性解释。对语义描述维度的定义为

(1)

式中,EtyName为地理实体名称;EtyID为实体标识码,即能够唯一标识地理实体的编码;EtyType为实体类型,即实体在概念分类体系中所属的概念;EtyTypeID为实体类型码,即实体所属类型的编码。

1.1.2 空间位置

空间位置描述地理实体存在的绝对空间位置信息,强调实体固有的存在性。在以文本为载体的地理数据中,地理实体的空间信息既可以是基于定量坐标(如经纬度)的精确化表达,也可以是基于定性地域或名称(如地址)的模糊化表达。对空间位置维度的定义为

(2)

式中,SptCoor为空间坐标,以坐标点或坐标范围的形式表示地理实体的中心点位置或区域范围;AdmiDivis为行政区划,指能够完全包括该地理实体的最小外包行政区划;SptPos为空间定位,即详细地址,是对地理实体位置信息的文字化描述,可精确到村或社区级;SptScal为空间尺度,反映出地理实体的空间跨度,若某地理实体在空间上跨越多个同级行政区划,则其空间尺度为上级区划等级;SptCode为行政编码,是行政区划信息的标准化表达。

1.1.3 属性特征

属性特征是在某种场景下对地理实体非空间信息的刻画。在面向自然资源管理的文本数据时,地理实体属性信息的分类组织应当充分顾及实际需要与数据现状,同时其组成项也应当尽量覆盖管理过程中需要重点关注的要素。对属性特征维度定义为

(3)

式中,BascAttr表示基本属性,指描述地理实体固有特征、形成驱动要素、物理存在状态等的属性[20];MangAttr表示管理属性,指在地理实体管理过程中,与有关单位的管理业务紧密相关的特定属性;ExtdAttr表示扩展属性,指可以与地理实体关联起来的其他社会、经济与人文属性。

1.1.4 时间演化

地理实体的演化过程包括一连串时刻点及实体在该点的状态,一系列时间片段及实体在时段中发生的行为、事件。在自然资源管理过程中,外部或内部事件的发生是驱动地理实体状态发生改变的主要原因。因此,本文采用“事件链”和“状态链”对时间演化过程进行组合表达,如图 1所示。

图 1 基于事件链与状态链的时间演化过程 Fig. 1 Time evolution process based on event chain and state chain

地理实体的状态改变考虑两种情况:①地理实体经历了某关键事件,但没有特征值的改变,则仅简要记录事件信息;②实体经历了某事件后其他维度的特征值发生了改变,针对这类情况,借鉴时空数据模型的基态修正思想[21]及时空对象属性的动态表达方法[20],设置状态集合,记录该事件引起的地理实体相较初始状态或者上一状态的变化情况。对时间演化维度的定义为

(4)
(5)
(6)
(7)

式中, Eventi表示地理实体经历的关键事件,n为数量;ETimei表示事件发生的时间点或时间段;EDesci表示事件描述信息,如名称、类型等,可简要记录;EDoeri表示事件关联对象,记录事件的执行者或与事件发生有因果关联的对象的名称;EIpStatusi表示由事件引起的状态变化情况,以特征变化集合的形式呈现,若无变化则缺省。EIpStatusi中的每个元素Changej都由变化字段名称ChgNamej、变化类型ChgTypej(包括增、删、改等)和变化后的值ChgValuej共3部分组成。

1.2 地理实体的关系表达

1.2.1 概念关系

概念语义关系是指在概念分类体系中,不同地理实体所属概念之间的语义关系,包括属于、同位、上下位关系等。地理实体的概念关系可基于领域本体树进行表达。对概念关系模型定义为

(8)

式中,C为领域概念集,为多层次的树结构;E为地理实体集,是概念的实例化结果;Rc为概念关系集,包括概念集内部的关系RcC×C、概念节点与实体之间的关系RcC×E两类。模型如图 2(a)所示。

图 2 地理实体的关系表达 Fig. 2 Relationship expression of geographic entities

1.2.2 空间关系

空间语义关系是地理实体之间由空间位置而产生的关系,包括拓扑、度量、方向关系。顾及对自然资源空间信息的应用需要,主要考虑定性的空间拓扑关系和定量的空间度量关系。由于自然资源地理实体在现实世界中的空间分布通常独立、分散、距离较远,直接空间关联较弱,因而空间拓扑关系可基于所属区域在行政区划体系中的位置进行间接表达。对空间关系模型定义为

(9)

式中,S为行政区划实体集,涵盖多个层级;E为地理实体集;Rst为空间拓扑关系集,包括行政区划实体集内部的拓扑关系RstS×S, 行政区划实体和地理实体之间的拓扑关系RstS×E;Rsm为空间度量关系集,表示地理实体之间的绝对距离RsmE×E,依据空间坐标计算得到。模型如图 2(b)所示。

1.2.3 属性关系

属性语义关系指地理实体整体或属性项之间的关系。依据自然资源管理领域的信息管理与应用需要,通过分析地理实体的属性表达体系与信息组成特点,将属性关系划分为定性、定量和其他关系3类。定性关系指地理实体整体之间或者复杂属性项之间的关系,只需判断关系是否存在,记录关系类型。定量关系指地理实体各属性项之间的数值关系,需要同时记录关系类型和关系强度。其他关系是指通过引入外部知识参考体系间接建立的关系。对属性关系模型定义为

(10)

式中,EiEj表示不同的地理实体;Y为引入的外部参考知识节点集;Rax为地理实体之间定性属性关系集;Ral为定量属性关系集;Raw为地理实体与外部参考知识节点之间的关系集。在构建属性关系时并非所有的属性都建立关联,要考虑属性建立关联后的意义与价值。模型如图 2(c)所示。

1.2.4 时间关系

时间语义关系是指各地理实体经历的关键事件在时间上的关系,可划分为拓扑、方向和度量关系等类型。依据应用需要,主要考虑定性的时间拓扑关系和定量的时间度量关系。其中,时间拓扑关系可基于事件发生时间在统一的时间划分体系中的位置进行表达。对时间关系模型定义为

(11)

式中,T为时间节点集,涵盖多个层级;E为地理实体集;Rtt为时间拓扑关系集,包括时间节点集内部的关系RttT×T、时间节点和地理实体之间的关系RttT×E两种,对于某一地理实体,其RttT×E关系的数量与其所经历的关键事件数量一致;Rtm为时间度量关系,表示为定量的绝对时间距离,基于事件发生的时间计算得到。模型如图 2(d)所示。

2 多维度地理实体关联网络构建

借鉴知识图谱的应用思路,以结构化、关联化的语义网络结构表示丰富的地理实体及关系信息,可以有效支撑自然资源领域知识检索、知识问答、知识推荐等智能服务。本节以地理实体表达框架为基础,面向概念、空间、属性、时间等多维语义关系,给出了多维度地理实体关联网络的构建流程:①面向领域文本的地理实体信息抽取;②基于图数据库的地理实体信息存储;③基于多维度特征关联的地理实体关联网络构建。最后分析地理实体关联网络与知识图谱的异同。

2.1 地理实体信息抽取

从自然语言描述的领域文本中识别目标地理实体,发现并抽取与地理实体相关的类别、时空、属性等信息,是面向领域文本的地理实体信息抽取的主要任务。自然资源管理领域文本数据具有不同卷宗相对独立、涵盖内容丰富、文件类型多样、文本结构清晰稳定、信息描述无歧义等特点,通过梳理与构建有关标准规范等领域知识参考体系,本文设计的地理实体信息抽取流程如图 3所示。

图 3 地理实体信息抽取流程 Fig. 3 Extraction process of geographic entity information

(1) 数据预处理。包括数据清洗和文件解析等步骤,其中,数据清洗针对原始文本数据,基于领域标准规范,修正错误或不完整的数据、删除冗余无用的数据,增强文本数据的规范性与一致性;文件解析针对单个文件,通过整理与分析相关文书的体式规范,建立各类文件的分类标准与解析规则,利用模板匹配、文本分类和文件切分等方法,实现文件的结构解析、类别划分与文本分块。

(2) 地理实体信息抽取。包括地理实体语义描述、时空、属性信息的抽取,目前已有较多相关研究,有学者进行了系统综述[16, 22]。通过分析目标信息在领域文本中的上下文环境及其类型形式、词性组成、句法结构等特征,参考领域知识体系,采用规则模型和机器学习模型相结合的方法,实现各项信息的自动化抽取。例如,针对描述规则明显、构成模式稳定的简单地理实体信息,采用基于规则模型的方法;针对时间、地点等命名实体类信息,采用基于条件随机场的方法[23];针对中心词明确、依存关系稳定的较复杂地理实体信息,采用基于依存句法分析的方法[24-25]

(3) 地理实体信息融合。包括实体对齐和信息合并等步骤。通过分析自然资源领域审批过程不同卷宗内容的关联性,依据项目的组卷原则,梳理自然资源实体、各项要素与各类电子信息的对应关系;然后基于语义描述信息匹配、时空信息匹配的方法判断信息抽取结果的指向情况;最后基于对齐关系将来自不同文件的描述同一个地理实体的信息进行聚集与合并。

2.2 地理实体信息存储

基于Neo4j图数据库,本文设计的存储方案为:首先,针对抽取得到的地理实体信息,按照特征表达的4个维度分类进行组织和存储。语义描述集是一级节点、以键值对的形式存储语义描述信息。空间位置集、属性特征集、时间演化集是二级节点,挂接在语义描述节点上,域内各数据项以3级及更高层次节点的形式进行存储。其次,针对地理实体的状态变化信息,通过建立对应节点和关系进行表达。在存储时,先对时间演化维度内的所有事件内容进行检索,如果存在引发实体状态改变的事件,获取事件发生及相应状态变化信息;然后针对改变的特征字段,依据变化类型,建立新的节点和关系。例如实体的“属性B”在“事件2”的影响下发生了改变,则建立新节点“属性值b2”存储更新后的值,同时建立属性特征集节点到新属性值节点的关系“属性B”, 以及旧属性值节点到新属性值节点间的关系“事件2”(只记录事件名称,不记录内容)。存储方案示例如图 4所示。

图 4 地理实体信息存储方案 Fig. 4 Storage scheme of geographic entity information

2.3 实体关联网络构建

完成地理实体信息的存储后,基于地理实体关系表达模型,分别构建概念、空间、属性与时间关联。在构建过程中,关联网络的遍历基于实体标识码和节点ID进行。

(1) 概念关联构建。概念关系挂接在语义描述集节点上,构建方法为:首先引入该领域地理实体的概念集(集合中的节点存在概念层次关系);然后定位当前地理实体的语义描述集节点,获得标识码和实体类型信息,接着匹配概念节集合中的对应节点;最后建立语义描述集节点与概念节点之间的关系边。

(2) 空间关联构建。空间关系挂接在空间位置集节点上,构建方法为:①针对空间拓扑关系,首先引入行政区划实体集(集合内存在空间拓扑关系);然后定位当前地理实体的空间位置集节点,获得行政区划和空间尺度信息,接着匹配行政区划实体集中的对应节点;最后建立空间位置集节点和行政区划节点之间的拓扑关系。②针对空间度量关系,首先依据实际管理和应用需要,明确需要建立度量关系的地理实体范围;然后定位各实体的空间位置集节点,获取空间坐标信息;最后计算实体间的绝对空间距离,建立目前范围内地理实体之间的空间距离关系。

(3) 属性关联构建。属性关系挂接在属性特征集节点上,先依据关联构建后的意义与价值,明确需要建立关联的属性字段,构建方法为:①定性关系,基于外部约束规则建立。针对实体整体之间的关系,基于领域约束规则或知识判断关系是否存在,针对多级字典型属性,若两实体的结构组成一致,则认为存在该类属性关联。②定量关系,基于语义相似度建立。针对数值型、区间型、指代型属性,基于相对距离、区间比值、编辑距离等分别计算地理实体各属性项之间的语义相似度[26],作为关系的强度。③其他关系,基于知识参考体系建立。针对枚举型属性,引入属性项取值的外部参考知识全集,基于实体匹配建立地理实体与外部参考知识节点之间的关系边。

(4) 时间关联构建。时间关系挂接在时间演化集节点上,构建方法为:①针对时间拓扑关系,首先引入当前时间划分体系下的时间节点集(集合内存在时间拓扑关系);然后定位时间演化集节点,遍历该地理实体所经历的关键事件信息;接着定位对应的时间节点;最后建立时间演化集节点和时间节点之间的拓扑关系。②针对时间度量关系,首先明确需要建立度量关系的地理实体范围;然后定位各实体的时间演化节点,获取关键事件的发生时间信息;最后计算实体间的绝对时间距离,建立目标范围内地理实体之间的时间距离关系。

本文的地理实体关联网络本质上是一种领域知识图谱,它基于统一的图结构,通过节点和边来表达实体、属性及关系信息,但与传统知识图谱相比,地理实体关联网络具有如下特点:①对网络节点内涵的拓展,表达框架中的描述对象“地理实体”不等于关联网络中的“实体”(即节点),一个地理实体由多个节点组成;网络中的节点既可以是地理概念、地理实体的某个特征维度集、实体属性值,也可以是为构建关联而引入的外部参考知识节点、行政区划节点、时间节点等。②对时空维度的有机植入,将时间和空间特征作为地理实体在网络中表达的两个重要维度,与其他维度信息区分存储;基于“事件链”和“状态链”的组合表达,通过建立新的节点和边来记录地理实体演化过程中的动态变化情况;通过引入具象的行政区划节点和时间节点来构建时空拓扑关系。③对多维特征语义关系的集成表达,针对各地理实体分别建立语义描述、空间位置等4个节点,节点上分别挂接不同特征维度关系,实现对地理实体概念、空间、属性、时间等多元语义关系的集成表达。

3 基于实体关联网络的知识问答

为体现与验证地理实体关联网络的应用能力,本文以知识问答为案例,设计了基于地理实体关联网络的问答算法。知识问答算法的关键在于对问句搜索语义的解析,以及基于实体关联网络的语义信息检索。本文算法流程如图 5所示,具体为:①基于支持向量机的问句分类;②基于模板匹配的问句语义解析,包括意图识别与要素抽取两个步骤;③基于实体关联网络的自然语言答案构建。

图 5 知识问答算法流程 Fig. 5 Process of knowledge Q&A

3.1 问句分类

问句分类即依据问句的特征确定问句所属的问题类别。问句分类的意义在于便于后续处理过程中选择合适的信息检索和答案生成策略,提高系统问答的准确性。参考有关问句分类体系[27-28],本文针对自然资源管理领域的问句划分方案见表 1

表 1 问句类型 Tab. 1 Question types
问句类型 问句示例
事实类 [地理实体1]的[属性A]是什么
列表类 [武汉市]现有类型为[类型a]的地理实体有哪些
计数类 [武汉市][2020年]在[事件a]中新增了多少地理实体
解释类 [领域1地理实体]的分类体系
关联类 [武汉市]内与[地理实体1]类型相同的地理实体有
最值类 [武汉市]内[占地面积]最大的地理实体是哪个
判断类 [地理实体1]是否占用了耕地

由于定义的问句大类较少,并且每类问题都有较为典型的关键词,特征明显,因而本文采用TF-IDF进行文本向量化,采用线性多分类支持向量机(LinearSVC)进行问句分类。基于已有数据,同时参考网络上有关论坛的相关提问,针对不同问题类型分别构建了问句语料并标注类型,将其作为SVM多分类模型的训练集。每一类问句的语料都应该尽量囊括能体现出问题类别的典型特征词。

3.2 语义解析

问句的语义解析包括意图识别和要素抽取两个步骤,目的是理解用户模糊的搜索语义,便于后续将其转换为明确的数据库查询语句。

(1) 意图识别。意图识别是在问题分类后对问题的进一步理解与分析,明确用户具体想问什么。本文采用基于模板匹配的方法对问句进行意图识别。首先定义各大类问题下的具体问题模板集(每一个问题模板对应一个意图,并直接与图数据库Neo4j的Cypher查询语句对应),然后建立相应的意图特征词集(一个意图对应一个特征词集)。通过意图特征词匹配实现具体意图的识别,意图特征词集的建立以地理实体各项特征属性的字段名称为基础。

(2) 要素抽取。要素抽取即识别并提取问句中的地理实体信息及相关约束信息,包括地理实体名称、属性名称、类型、时间、地点等,要素抽取的方法参考2.1节地理实体信息抽取方法。

3.3 答案构建

在完成问句的语义解析后,将抽取得到的要素填充到问句模板对应的Cypher查询语句中,即可构建问句对应的查询语句。获得查询语句后,连接Neo4j图数据库,基于地理实体关联网络进行相关信息检索,最终得到查询结果。通常来说,数据库查询结果不能直接返回给用户,应当将查询结果构建成符合中文语言习惯的答案再返回。

4 试验与分析 4.1 数据来源

本小节以建设用地审批过程为例,对本文主要理论与技术方法的有效性与可靠性进行验证。基础数据为某省级部门在实际建设用地审批过程中产生的申报过程数据。作为综合性公务文书,这些数据包含丰富的建设用地信息,将其作为研究的数据源具有较高的可行性。原始数据集为OCR处理后的建设用地审批过程电子信息,包括690条文件记录,约30万字符。

4.2 建设用地信息的实体化表达

基于地理实体表达框架,依据建设用地信息管理的需要,通过分析建设用地领域文本的涵盖内容、类型与范围,基于历史审批意见数据梳理归纳业务管理过程中的重点关注要素,确定建设用地实体的详细组成,如图 6所示。

图 6 建设用地实体的特征表达框架 Fig. 6 Characteristic expression framework of construction land entity

4.3 建设用地实体关联网络构建

4.3.1 建设用地实体信息抽取

针对建设用地审批过程电子信息,基于建设用地审批文件标准规范、土地利用分类体系等领域参考知识,设计建设用地实体信息抽取方法,主要方法包括基于规则模板、基于条件随机场、基于依存句法分析等。采用精确率、召回率和F1值评价抽取效果,部分信息的抽取评估结果见表 2

表 2 建设用地信息抽取评估 Tab. 2 Evaluation of extraction of construction land information  (%)
抽取内容 精确率 召回率 F1
请示单位 96.7 96.7 96.7
请示时间 96.7 96.7 96.7
审查单位 97.7 97.7 97.7
审查时间 97.7 97.7 97.7
建设用地名称 96.6 95.0 95.7
规划用途 91.3 87.5 89.3
供地方式 93.3 90.3 91.8
行政区划 91.2 86.6 88.9
空间定位 89.4 85.0 87.1
用地信息 92.9 88.3 90.6
征地补偿情况 92.7 85.0 88.7
征地安置情况 94.4 85.0 89.5
补充耕地情况 95.0 88.4 91.6

整体而言,本文针对具有一定行文规范的公文设计的信息抽取方法取得了较好的提取效果。尤其是对于请示单位、请示时间、建设用地名称等关键且简单的信息,因为在文件中的出现位置和描述形式通常都有统一的规定,所以基于规则或基于条件随机场的方法在各项评价指标上均有很好的表现。而对于其他描述形式相对复杂的信息,采用基于规则或基于依存句法的方法也能取得不错的抽取效果。

4.3.2 建设用地实体关联构建

完成建设用地信息在Neo4j图数据库中的实体化存储后,引入建设用地领域本体树、区域行政区划体系、外部知识集合(如供地方式集)、年月日时间划分体系等参考知识,分别构建建设用地实体间的概念、空间、属性、时间关联,最终形成多维度地理实体关联网络,图 7为关联网络示例。

图 7 建设用地实体关联网络示例 Fig. 7 Example of construction land entity association network

通过分析可知,地理实体关联网络的构建对促进建设用地信息的有机整合、科学管理、综合利用具有重要意义。一方面,针对大量非结构化审批文件中建设用地信息零散、庞杂、且缺少关联的问题,实体关联网络通过特征和关系两个层次的组合表达,能够清晰地描述建设用地实体的特征组成信息及动态变化情况、系统地建立不同建设用实体之间的多维关联,为文本中建设用地信息的复用、融合、管理提供重要基础。另一方面,针对文本中建设用地信息利用程度较低、应用水平不高等问题,实体关联网络作为一种结构化、关联化的知识表示形式,可以有效支撑多类知识服务,包括但不限于:①知识问答,通过对问句的解析和图数据库检索,基于实体关联网络快速获取相关知识,并准确提供答案;②知识推理,由图谱中已知知识推出未知知识,例如,建设用地实体1属于公路用地,公路用地属于交通运输用地,则建设用地实体1也属于交通运输用地,基于此原理可实现不同语义尺度下建设用地知识的获取;③知识推荐,充分利用关联网络中节点间丰富的关系信息,将与当前输入的建设用地实体信息相似度最高、关联性最强的其他建设用地信息推荐给用户。

4.4 建设用地知识问答

4.4.1 建设用地知识问答算法

依据第3节的算法流程,基于构建的建设用地审批领域问句语料与意图特征词库,本文实现了基于实体关联网络的知识问答算法,表 3为问答过程示例。

表 3 知识问答过程示例 Tab. 3 Example of knowledge Q&A process
问句 AA县的建设用地有多少?
问句分类 计数类
意图识别 [某地][地理实体]数量
要素抽取 地点要素:AA县
Cypher语句 match (na: 行政区划实体集)-[r1:空间_包含]- > (nc: 实体_空间位置集) where na.name = 'AA县' return count(nc)
查询结果 {'count(nc)': 4}
问句答案 一共有4个

实体关联网络承载着丰富的建设用地信息与关系信息,能够为领域知识问答提供高质量的信息源,优势具体表现在:①适用于建设用地审批领域的数据现状,能够较好满足建设用地信息管理的需要;基于传统机器学习或深度学习的知识问答须大量问答语料进行训练,但目前在建设用地审批等专业领域还缺少标准的问答数据,而采用基于实体关联网络的方法能在极大程度上减轻对语料的依赖,只须将用户问句转换为图数据库查询语句即可从关联网络中获得信息并构建答案,且通常准确率较高。②具有较高的检索性能和较快的响应速度;若使用关系数据库存储地理实体及关系信息,需要分别建立数据库表,容易存在大量数据冗余,且在涉及关系的查找时需要执行代价非常高的连接操作,查询效率较低,耗时较长;而基于图数据中的实体关联网络进行查找,能够避免对全部数据的遍历以及不同表格之间的连接操作,通过邻近查询只需要检索非常有限的局部数据,更具优势。

4.4.2 知识问答系统

基于知识问答算法,设计并开发面向建设用地审批的问答系统。系统的前端页面包括用户提问、系统交互和问题导航3个部分。表 4为系统交互示例(注:部分信息模糊处理), 共询问了多种类型的问题,系统均能准确地构建答案并返回给用户,可为用户提供便捷的建设用地知识服务。

表 4 系统问答示例 Tab. 4 Example of system Q&A
用户问句 问句类型 问句答案
AA县2020年度第*批次城市建设用地的占地情况怎么样 事实类 该建设用地申请用地总面积0.02***km2,其中农用地面积0.02***2 km2(含耕地0.02***1 km2),建设用地0.002**8 km2;集体所有地总面积0.02***km2
BB县2020年新增了哪些建设用地 列表类 BB县2020年度第a批次城市建设用地,BB县2020年度第b批次城市建设用地,BB县2020年度第c批次城市建设用地, ……
CC县2020年新增多少建设用地 计数类 4个
住宅用地的分类 解释类 城镇住宅用地、农村宅基地
与XX市2020年度第d批次建设用地规划用途相同的建设用地 关联类 DD县2020年度第e批次城市建设用地,XX市2020年度第f批次城市建设用地,……

5 结语

本文面向自然资源管理领域的文本数据,开展了语义驱动的地理实体信息表达、实体关联网络构建、知识问答服务研究,并应用于实际建设用地审批业务,可以较好地解决对审批文本中丰富信息的管理、挖掘与利用不够充分的问题,为提升自然资源信息的科学管理与应用服务水平提供了有效途径。特别是针对自然资源地理实体,提出了以多维语义关系为核心、融合时空演化特征、面向图结构的知识表示方法,可为相似场景中实体信息的组织、关联与应用提供理论与技术参考。

目前,本文也存在地理实体特征表达体系不够丰富全面、关联网络构建的自动化程度不够高等问题。因此,在进一步的研究中,可扩充数据来源,将地理实体基本信息与更多的社会、经济、人文信息融合起来;拓展领域知识与规则的引入形式,同时加强与机器学习、深度学习等方法的融合,提升网络构建的自动化与智能化程度。


参考文献
[1]
龚健雅, 耿晶, 吴华意. 地理空间知识服务概论[J]. 武汉大学学报(信息科学版), 2014, 39(8): 883-890.
GONG Jianya, GENG Jing, WU Huayi. Geospatial knowledge service: a review[J]. Geomatics and Information Science of Wuhan University, 2014, 39(8): 883-890.
[2]
陈军, 刘万增, 武昊, 等. 基础地理知识服务的基本问题与研究方向[J]. 武汉大学学报(信息科学版), 2019, 44(1): 38-47.
CHEN Jun, LIU Wanzeng, WU Hao, et al. Basic issues and research agenda of geospatial knowledge service[J]. Geomatics and Information Science of Wuhan University, 2019, 44(1): 38-47.
[3]
陆锋, 余丽, 仇培元. 论地理知识图谱[J]. 地球信息科学学报, 2017, 19(6): 723-734.
LU Feng, YU Li, QIU Peiyuan. On geographic knowledge graph[J]. Journal of Geo-Information Science, 2017, 19(6): 723-734. DOI:10.3969/j.issn.1560-8999.2017.06.001
[4]
蒋捷, 黄蔚, 卢卫华, 等. 地理信息公共服务平台地理实体数据建模研究[J]. 地理信息世界, 2009, 7(4): 11-18.
JIANG Jie, HUANG Wei, LU Weihua, et al. Research on entity-based data modeling for national geo-spatial information service platform[J]. Geomatics World, 2009, 7(4): 11-18. DOI:10.3969/j.issn.1672-1586.2009.04.002
[5]
李成名, 印洁, 刘晓丽, 等. "实体中国"与新型基础测绘的思考[J]. 测绘科学, 2019, 44(6): 230-234.
LI Chengming, YIN Jie, LIU Xiaoli, et al. Thinking on the Feature China and new fundamental surveying and mapping[J]. Science of Surveying and Mapping, 2019, 44(6): 230-234.
[6]
成波, 关雪峰, 向隆刚, 等. 一种面向时空对象及其关联关系动态变化表达的概念数据模型[J]. 地球信息科学学报, 2017, 19(11): 1415-1421.
CHENG Bo, GUAN Xuefeng, XIANG Longgang, et al. A conceptual data model for dynamic changes expression of spatio-temporal object and its association[J]. Journal of Geo-Information Science, 2017, 19(11): 1415-1421.
[7]
闾国年, 俞肇元, 周良辰, 等. 地理实体分类与编码体系的构建[J]. 现代测绘, 2019, 42(1): 1-6.
LÜ Guonian, YU Zhaoyuan, ZHOU Liangchen, et al. Construction of geographic entity classification and coding system[J]. Modern Surveying and Mapping, 2019, 42(1): 1-6.
[8]
华一新, 周成虎. 面向全空间信息系统的多粒度时空对象数据模型描述框架[J]. 地球信息科学学报, 2017, 19(9): 1142-1149.
HUA Yixin, ZHOU Chenghu. Description frame of data model of multi-granularity spatio-temporal object for pan-spatial information system[J]. Journal of Geo-Information Science, 2017, 19(9): 1142-1149.
[9]
王健健, 王艳楠, 周良辰, 等. 多粒度时空对象关联关系的分类体系与表达模型[J]. 地球信息科学学报, 2017, 19(9): 1164-1170.
WANG Jianjian, WANG Yannan, ZHOU Liangchen, et al. The classification system and expression model of the relationship of spatio-temporal object of multi-granularity[J]. Journal of Geo-Information Science, 2017, 19(9): 1164-1170.
[10]
文娜. 多粒度时空对象属性关联关系的构建及可视化方法研究[D]. 郑州: 信息工程大学, 2018.
WEN Na. Research on construction and visualization methods of multi-granularity spatial-temporal objects' attributive associative relationship[D]. Zhengzhou: Information Engineering University, 2018.
[11]
蒋秉川, 万刚, 许剑, 等. 多源异构数据的大规模地理知识图谱构建[J]. 测绘学报, 2018, 47(8): 1051-1061.
JIANG Bingchuan, WAN Gang, XU Jian, et al. Geographic knowledge graph building extracted from multi-sourced heterogeneous data[J]. Acta Geodaetica et Cartographica Sinica, 2018, 47(8): 1051-1061. DOI:10.11947/j.AGCS.2018.20180113
[12]
慎利, 徐柱, 李志林, 等. 从地理信息服务到地理知识服务: 基本问题与发展路径[J]. 测绘学报, 2021, 50(9): 1194-1202.
SHEN Li, XU Zhu, LI Zhilin, et al. From geographic information service to geographic knowledge service: research issues and development roadmap[J]. Acta Geodaetica et Cartographica Sinica, 2021, 50(9): 1194-1202. DOI:10.11947/j.AGCS.2021.20210183
[13]
刘俊楠, 刘海砚, 陈晓慧, 等. 面向多源地理空间数据的知识图谱构建[J]. 地球信息科学学报, 2020, 22(7): 1476-1486.
LIU Junnan, LIU Haiyan, CHEN Xiaohui, et al. The construction of knowledge graph towards multi-source geospatial data[J]. Journal of Geo-Information Science, 2020, 22(7): 1476-1486.
[14]
WANG Shu, ZHANG Xueying, YE Peng, et al. Geographic knowledge graph (GeoKG): a formalized geographic knowledge representation[J]. ISPRS International Journal of Geo-Information, 2019, 8(4): 184.
[15]
HOFFART J, SUCHANEK F M, BERBERICH K, et al. YAGO2:a spatially and temporally enhanced knowledge base from Wikipedia[J]. Artificial Intelligence, 2013, 194: 28-61.
[16]
张雪英, 张春菊, 吴明光, 等. 顾及时空特征的地理知识图谱构建方法[J]. 中国科学: 信息科学, 2020, 50(7): 1019-1032.
ZHANG Xueying, ZHANG Chunju, WU Mingguang, et al. Spatiotemporal features based geographical knowledge graph construction[J]. Scientia Sinica (Informationis), 2020, 50(7): 1019-1032.
[17]
周成虎, 王华, 王成善, 等. 大数据时代的地学知识图谱研究[J]. 中国科学: 地球科学, 2021, 51(7): 1070-1079.
ZHOU Chenghu, WANG Hua, WANG Chengshan, et al. Research on geo-knowledge map in the age of big data[J]. Scientia Sinica (Terrae), 2021, 51(7): 1070-1079.
[18]
严金明, 王晓莉, 夏方舟. 重塑自然资源管理新格局: 目标定位、价值导向与战略选择[J]. 中国土地科学, 2018, 32(4): 1-7.
YAN Jinming, WANG Xiaoli, XIA Fangzhou. Remold new pattern of natural resource management: target orientations, value guidelines and strategic choices[J]. China Land Science, 2018, 32(4): 1-7.
[19]
杨俊艳, 樊迪, 黄国平. 自然资源管理背景下的时空大数据平台建设[J]. 测绘通报, 2020(1): 124-127.
YANG Junyan, FAN Di, HUANG Guoping. Construction of spatio-temporal big data platform in natural resource management[J]. Bulletin of Surveying and Mapping, 2020(1): 124-127.
[20]
刘朝辉, 李锐, 王璟琦. 顾及语义尺度的时空对象属性特征动态表达[J]. 地球信息科学学报, 2017, 19(9): 1185-1194.
LIU Zhaohui, LI Rui, WANG Jingqi. A dynamic representation method of considering semantic scales of attributes of spatio-temporal object[J]. Journal of Geo-Information Science, 2017, 19(9): 1185-1194.
[21]
刘仁义, 刘南. 基态修正时空数据模型的扩展及在土地产权产籍系统中的实现[J]. 测绘学报, 2001, 30(2): 168-172.
LIU Renyi, LIU Nan. Extension of spatial-temporal data models of base state with amendments and its implementation in land registration management systems[J]. Acta Geodaetica et Cartographic Sinica, 2001, 30(2): 168-172.
[22]
余丽, 陆锋, 张恒才. 网络文本蕴涵地理信息抽取: 研究进展与展望[J]. 地球信息科学学报, 2015, 17(2): 127-134.
YU Li, LU Feng, ZHANG Hengcai. Extracting geographic information from web texts: status and development[J]. Journal of Geo-Information Science, 2015, 17(2): 127-134.
[23]
邬伦, 刘磊, 李浩然, 等. 基于条件随机场的中文地名识别方法[J]. 武汉大学学报(信息科学版), 2017, 42(2): 150-156.
WU Lun, LIU Lei, LI Haoran, et al. A Chinese toponym recognition method based on conditional random field[J]. Geomatics and Information Science of Wuhan University, 2017, 42(2): 150-156.
[24]
甘丽新, 万常选, 刘德喜, 等. 基于句法语义特征的中文实体关系抽取[J]. 计算机研究与发展, 2016, 53(2): 284-302.
GAN Lixin, WAN Changxuan, LIU Dexi, et al. Chinese named entity relation extraction based on syntactic and semantic features[J]. Journal of Computer Research and Development, 2016, 53(2): 284-302.
[25]
ZHAO Fei, DU Qingyun, REN Fu, et al. Syntactic characteristics and a smart construction mechanism for thematic map symbols[J]. Journal of Geodesy and Geoinformation Science, 2019, 2(1): 37-48.
[26]
赵云鹏, 孙群, 刘新贵, 等. 面向地理实体的语义相似性度量方法及其在道路匹配中的应用[J]. 武汉大学学报(信息科学版), 2020, 45(5): 728-735.
ZHAO Yunpeng, SUN Qun, LIU Xingui, et al. Geographical entity-oriented semantic similarity measurement method and its application in road matching[J]. Geomatics and Information Science of Wuhan University, 2020, 45(5): 728-735.
[27]
杜泽宇, 杨燕, 贺樑. 基于中文知识图谱的电商领域问答系统[J]. 计算机应用与软件, 2017, 34(5): 153-159.
DU Zeyu, YANG Yan, HE Liang. Question answering system of electric business field based on Chinese knowledge map[J]. Computer Applications and Software, 2017, 34(5): 153-159.
[28]
曹明宇, 李青青, 杨志豪, 等. 基于知识图谱的原发性肝癌知识问答系统[J]. 中文信息学报, 2019, 33(6): 88-93.
CAO Mingyu, LI Qingqing, YANG Zhihao, et al. A question answering system for primary liver cancer based on knowledge graph[J]. Journal of Chinese Information Processing, 2019, 33(6): 88-93.
http://dx.doi.org/10.11947/j.AGCS.2023.20210349
中国科学技术协会主管、中国测绘地理信息学会主办。
0

文章信息

凌朝阳,李锐,吴华意,李江,桂志鹏
LING Zhaoyang, LI Rui, WU Huayi, LI Jiang, GUI Zhipeng
语义驱动的地理实体关联网络构建与知识服务
Semantic-driven construction of geographic entity association network and knowledge service
测绘学报,2023,52(3):478-489
Acta Geodaetica et Cartographica Sinica, 2023, 52(3): 478-489
http://dx.doi.org/10.11947/j.AGCS.2023.20210349

文章历史

收稿日期:2021-06-28
修回日期:2021-10-17

相关文章

工作空间