文章快速检索  
  高级检索
基于微博文本的灾害事件信息时空过程聚合方法
叶鹏1,2,3, 张雪英1,4, 张春菊5     
1. 南京师范大学虚拟地理环境教育部重点实验室, 江苏 南京 210023;
2. 扬州大学城市规划与发展研究院, 江苏 扬州 225127;
3. 扬州大学建筑科学与工程学院, 江苏 扬州 225127;
4. 江苏省地理信息资源开发与利用协同创新中心, 江苏 南京 210023;
5. 合肥工业大学土木与水利工程学院, 安徽 合肥 230009
摘要:各类灾害事件频发已成为全球可持续发展面临的重大威胁。在大数据环境下, 微博文本逐渐被应用于灾害管理的预防、准备、响应和恢复工作。以往研究多关注微博文本中灾情信息的获取, 却忽略对这些碎片化信息进行有序化整合。本文从时空视角构建多层次的灾害事件信息模型, 在抽取出微博文本中灾害事件信息要素的基础上, 提出基于“对象-状态”的过程信息聚合方法, 解决微博文本中灾害事件信息分散化、时空粒度多样化和无序化的问题。基于新浪微博进行台风“利奇马”事件的案例分析, 结果表明, 本文方法能够全面地获取灾害事件过程中各个时空节点上的灾情信息, 有利于从微博文本中挖掘小尺度下的灾害突发状况。
关键词灾害事件    时空过程    多层次信息聚合    微博文本    
Spatio-temporal process based information aggregation method of disaster events in microblog text
YE Peng1,2,3, ZHANG Xueying1,4, ZHANG Chunju5     
1. Key Laboratory of Virtual Geographic Environment (Nanjing Normal University), Ministry of Education, Nanjing 210023, China;
2. Urban Planning and Development Institute, Yangzhou University, Yangzhou 225127, China;
3. College of Architectural Science and Engineering, Yangzhou University, Yangzhou 225127, China;
4. Jiangsu Center for Collaborative Innovation in Geographical Information Resource Development and Application, Nanjing 210023, China;
5. School of Civil Engineering, Hefei University of Technology, Hefei 230009, China
Abstract: The frequent occurrence of various disaster events has become a major threat to global sustainable development. In the era of big data, microblog text has been gradually applied to the prevention, preparation, response and recovery of disaster management. However, previous studies mostly focused on the acquisition of different disaster information in microblog text, while ignoring the structural integration of this fragmented information. In this paper, an information aggregation method of disaster events in microblog text is proposed. First, a multi-level disaster event information model is constructed from the spatio-temporal perspective. Then, the information elements of disaster events are extracted from the microblog text. Finally, a process-oriented information aggregation model based on "Object-State" is constructed. On this basis, it can be solved that the problems of decentralization, spatio-temporal granularity diversification and disorder of disaster event information in microblog text. Based on the case study of typhoon "Lekima" event using Sina Weibo, the results show that the method proposed in this paper can comprehensively acquire the information of different objects on every spatio-temporal node during the process of typhoon events, which is beneficial to mining disaster emergencies in small scale from microblog text.
Key words: disaster events    spatio-temporal process    multi-level information aggregation    microblog text    

大数据技术的快速发展,正在促使防灾应对方式、治灾思维模式与救灾治理理念发生深刻变革[1]。特别是社交媒体的兴起,广大民众通过社交媒体平台实时发布图像、视频、文本等海量灾害信息,这使得政府不再是唯一的治灾主体,社会民间各方力量共同参与到灾害治理过程中。通过挖掘社交媒体大数据,有助于启动预警机制、促进紧急信息传播与协调救灾工作,为灾害管理工作提供新思路[2-3]

灾害事件从发生起直至最终结束一直处于变化中,各类灾情瞬息万变,具有显著的时空动态特性[4]。微博作为国内最普及的社交媒体平台之一,具有开源性、高态势与易访问等特点,能够在灾前、灾中与灾后等各个时空范围提供开放的数据支持[5]。然而,微博以短文本为主,还具有口语化、信息歧义、信息粒度多样等描述特点。碎片化的微博短文本不仅造成各类信息糅杂,也增加了获取有效灾害信息的复杂度。面对海量微博分散分布的状况,亟须对其中蕴含的灾害信息进行重新序化和组织。

信息聚合是对来源分散的信息资源进行筛选、组织和整合的方法,目前微博文本聚合主要包括两类:基于触发词的方法和基于知识元的方法。对于触发词方法,需要利用词频统计、TF-IDF、主题模型、文本向量等方法,提取微博多维特征进行文本表达,并将这些特征作为聚合的依据[6-9]。触发词方法是最常见的微博文本聚合方法,操作简单易于理解,已经应用在暴雨、洪涝、地震等多类灾害事件中[10-12]。然而,由于聚合结果信息粒度较粗,通常只是将相关的微博文本集中在一起,难以体现灾害事件的时空动态性。

知识元方法是依据特定领域的概念模型结构,深入微博文本语义层面进行信息要素解析和重组,信息建模是知识元方法的关键。灾害事件信息模型可以分为基于静态概念的模型与基于时间片快照的模型。其中,静态概念模型是依据语义或逻辑关系,划分灾害事件相关概念间的层次结构[13-14]。虽然具有较强的通用性和认可度,却缺乏灾害全生命周期的表示。时间片快照模型可以按照信息产生时间的先后顺序组成时间序列,如常见的台风路径数据模型等,但是忽略事件中不同对象间的相互作用关系[15-16]。由此可知,知识元方法聚合结果的知识体系性更强,但是仍然缺乏面向事件过程的灾害事件信息模型作为支撑。

为了获取有序化的灾害事件信息以辅助灾害管理部门进行应急决策,本文提出一种微博灾害信息聚合方法。针对灾害事件时空演化特征,顾及微博文本中不同灾害信息的语言描述特点,对分散的、多粒度、无序的微博文本进行重新序化和组织。这不仅有利于揭示灾害事件的发展态势,也为提升灾害管理中社交媒体资源的信息服务能力提供支持。

1 研究方法

灾害是一种具有破坏性的自然现象,灾害事件特指某次发生的灾害及其引发的一系列活动和事情。灾害事件中除了引发灾害的致灾因子,还涉及影响灾害变化的周围环境以及受到灾害影响的各类人物和事物。不同的人、事和物相互作用共同构成了灾害事件,相互作用的过程使得灾害事件在时空中动态变化[17]。可以看出,灾害事件是一个复杂动态系统,灾害中不同对象的变化轨迹都是时空过程的基本单元[18]。本文从灾害学与地理学视角出发,构建“以时空为框架,以对象为核心,以过程为线索”的灾害事件信息表达模型,结合微博文本中灾害事件信息的语言特点,提出基于“对象-状态”的过程信息聚合模式,从时空演化的视角对微博灾害信息进行有序化整合。

1.1 顾及时空特征的灾害事件信息建模

哲学的唯物论认为,世界是物质的,物质的世界是由对象组成的。对象是可以感知的、相对独立的、相对静止的存在。世界还是运动的,运动的世界是由事件组成的。事件不同于静态概念,是可以感知的、运动着的存在。世界的运动是绝对的,静止是相对的。任何对象都可以是事件的构成要素,不构成事件要素的对象是不存在的。可以认为,对象和事件是理解世界的不同单元,事件不能脱离对象而存在。对象侧重于体现事件的组成成分,而事件则蕴含着对象发展变化的原因或主题。

灾害学认为灾害是由孕灾环境、致灾因子和承灾体等多类对象相互作用的综合体。地理学则认为时间和空间是一切事物存在和发展的基本条件,灾害事件从发生到消失都处于不断地动态变化中。对于灾害事件的信息建模既需要表达灾害中包含的多种对象,还需要表达出对象的动态特性。因此,从对象、状态和过程3个层次构建灾害事件信息模型DEIM(图 1)。

图 1 DEIM模型框架结构 Fig. 1 The frame structure of DEIM model

(1) 对象层。灾害事件由众多对象共同构成,孕灾环境、致灾因子和承灾体3类对象都是灾害事件的组成要素,但是在灾害中产生的作用差异显著。其中,致灾因子是灾害发生的充分条件。致灾因子决定了灾害类型,其风险性强弱也是评价灾害严重程度的重要因素,属于灾害事件的主体对象。其他对象或者影响主体对象,或者受到主体对象影响,但是都不直接导致灾害发生,属于灾害事件中的客体对象。假设Op是灾害事件Ed的主体对象,OsnEd的各类客体对象,可以表示为

(1)

依据国务院发布的《国家突发公共事件总体应急预案》,灾难性突发事件可以分为自然灾害、事故灾难、公共卫生事件及社会安全事件等多种类型,而每类事件中存在的主体对象和客体对象也不尽相同。灾害事件中常见的对象类型见表 1

表 1 不同灾害事件中的对象类型示例 Tab. 1 The examples of object types in different disaster events
灾害类型 示例事件 主体对象 客体对象
自然灾害 “利奇马”台风 热带气旋 人物、财产、资源、环境等
事故灾难 天津北辰爆炸事故 大火
公共卫生事件 新冠疫情 新冠病毒
社会安全事件 “9·11”恐怖袭击事件 恐怖分子

每个对象都具有时间T、空间S、属性A、行为B等维度的特征,对象O可以表示为

(2)

时间和空间是表达对象的基本框架,也是其他特征存在的前提条件。时间是描述特征发生顺序的度量,空间则记录特征发生所在的地点或位置。属性和行为用于表征对象自身的性质,是自然灾害发展程度的重要体现。相对静态的是属性特征,用于刻画对象的状貌形态,如热带气旋的风力、风向、风速等;动态的是行为特征,用于描述对象的动作情势,如热带气旋的登陆、增强、减弱等。属性可以进一步分为属性项和属性值,属性项表示属性的类型,而属性值为属性项具有的数据或数据量。行为也可以分为行为项和行为值。

(2) 状态层。灾害事件中的对象都一直处于动态变化中。在时空视角下,运动着的对象会在时空中发生移动和变化。移动是指对象随时间变化而发生的位置偏移,变化是指对象的属性和行为特征发生改变。因此,引入状态的概念以表达对象在特定时空条件下的存在形式。在特定的时间、位置条件下,结合对象所具有的属性特征和行为特征,形成了对象的不同状态。例如:“利奇马”台风2019年8月10日1:45位于浙江省温岭市,最大风力达到16级;8月11日20:50移动至山东省青岛市,最大风力降为9级。“利奇马”台风在〈8月10日1:45,温岭市〉和〈8月11日20:50,青岛市〉分别处于2个状态。假设处于时间ft和空间fs,对象O具有属性fa和行为fb,则状态So可以表示为

(3)

通过时间和空间可以区分对象的不同状态,而依据属性和行为可以将状态划分为不同类型,状态类型是对于状态具有特征的高度概括[19]。例如:台风“利奇马”由于风力等级差异,〈8月10日1:45,温岭市〉和〈8月11日20:50,青岛市〉2个状态的类型分别为“超强台风级”和“热带风暴级”。

(3) 过程层。过程是指属性、形态和模式等随着时间逐渐变化所经历的程序,直接指向的是生成阶段、发展阶段、持续阶段和衰退阶段等所构成的生命周期。灾害事件过程通过多个对象的过程具体体现,过程是对象中不同状态在时空上连接而成。依据对象类型的数量,过程建模分为“状态序列-事件过程”两个层级[20]。其中,状态序列由同一对象的不同状态构成。假设Soj是对象O的一系列状态,O的状态序列Po可以表示为

(4)

状态序列是事件过程的基本单元,多个对象的状态序列联合共同组成事件过程。假设Poi表示灾害事件中不同对象On的状态序列,事件过程Pe可以表示为

(5)

状态序列体现出对象自身特征的变化,而事件过程中还需要反映出不同对象发展中与其他对象间的联系。在事件过程的不同阶段,包含在事件中的对象类型是不同的。有些对象过程会贯穿事件过程的始末,而有些对象过程只存在于事件过程的部分阶段中。相应地,在事件过程的不同阶段,对象间的关系会发生相应的变化。部分关系会在过程中结束,部分关系则会在过程中出现。

1.2 基于微博文本的灾害事件信息抽取

灾害事件的不同信息要素在微博文本中都体现出不同的语言描述特征,单一信息抽取模型难以完整地描述出领域信息的全集。为发挥不同模型之间的互补特性,将规则模型、统计模型和深度学习等模型相结合。分别使用触发词和句法规则相结合的方法抽取对象名称和属性、行为信息[21],条件随机场模型抽取时间信息[22],深度信念网络模型抽取空间信息[23]。在抽取出不同信息要素的基础上,进一步将各类特征信息与其描述的对象名称进行关联,形成对象信息元组On=〈T, S, A, B〉,实现灾害事件信息由非结构化向结构化的转变(图 2)。

图 2 微博灾害事件信息抽取结果示例 Fig. 2 The examples of disaster event information extraction results

1.3 基于“对象-状态”的事件过程信息聚合

抽取出的灾害事件信息破碎程度高、信息粒度各异且呈现无序化的特点,无法直接反映出灾害事件的演化过程。遵循DEIM模型的基本框架,面向时空过程的信息聚合方法进一步从对象、状态和过程3个层次重新整合抽取出的信息(图 3)。下文将分别对不同层次的聚合机制进行阐述。

图 3 多层次的灾害事件信息聚合框架 Fig. 3 Multi-level information aggregation framework of disaster events

1.3.1 对象信息聚合

面向抽取出的对象信息元组On,以对象为核心进行信息聚合,聚合机制具体包括以下几部分。

(1) 基于对象名称的聚合。设定聚合的对象名称N,依次判断On名称与N的相似度simn。若simnεnεn是对象名称相似度阈值,则表明是同一个对象,其信息元组可以作为聚合结果AO(N)。对于判断对象名称相似度的度量方法,采用词向量相似度法。词向量相似度法在利用Skip-gram模型训练出词向量模型的基础上,首先将对象名称映射为一个多维空间的向量,通过相似度算法判断不同向量间在多维空间中的方向是否一致,并采用余弦相似度进行度量。相似度阈值的设定需要遵循专家知识,或通过多次测试结果评估阈值的适宜性,本文中εn取值0.7。

例如,O(台风)=〈T:2019年8月10日1:45,S:浙江省温岭市,A:风力16级,B:登陆〉,O(热带气旋)=〈T:2019年8月11日20:50,S:山东省青岛市,A:风力9级,B:登陆〉为微博文本中抽取出的信息元组。当“对象名称=‘气旋’”为聚合条件时,分别对信息元组中的对象名称“台风”和“热带气旋”进行相似度判断。“台风”和“热带气旋”词向量的相似度符合阈值范围,其语义都是表达气旋本身,因此O(台风)和O(热带气旋)这两组信息元组都是基于对象名称的聚合结果。

(2) 结合特征类型的聚合。对于同一对象的信息元组聚合后,会出现多项相同类型的属性和行为特征信息,可以进一步聚合出符合特定特征的对象信息。在AO(N)中,设定聚合的对象属性特征a和行为特征b。对于属性特征聚合,采用词向量相似度判断On属性项与a的相似度sima。若simaεaεa是属性相似度阈值,则表明属性项相同,可以进行信息聚合;否则为描述同一对象的不同属性项,不进行属性项的聚合。行为特征的聚合方法相同,本文中属性和行为相似度阈值都取值0.7。

例如,基于上述的O(台风)和O(热带气旋)对象信息元组,进一步聚合台风的“风力”属性特征信息。O(台风)和O(热带气旋)中都有符合相似度阈值的属性项“风力”,因此将〈T:2019年8月10日1:45,S:浙江省温岭市,A:风力16级〉和〈T:2019年8月11日20:50,S:山东省青岛市,A:风力9级〉作为对象特征的聚合结果。

(3) 对象信息聚合结果组织。以台风灾害事件为例,在图 4中,AO(N)表示聚合的对象,Al是聚合获得的对象的属性项,als是具体的属性值,Bn是聚合获得的对象的行为项,bnu是具体的行为值,〈T, S〉是属性和行为特征值产生的时间和空间。

图 4 对象信息聚合机制与结果示例 Fig. 4 Information aggregation mechanism and examples of objects

1.3.2 状态信息聚合

状态信息聚合是在对象信息聚合结果的基础上,筛选符合特定时空特征的属性和行为信息。聚合机制具体包括以下几部分。

(1) 时空信息规范化。微博文本中对于时空特征的表述方式多样,时间信息和位置信息应按照统一时空基准转换为规范化的表示形式。在遵循统一时空基准的前提下,将AO(N)中的时间和空间信息应按照统一形式进行规范化处理,应采用最高分辨率的尺度和最精细的粒度。其中,时间信息规范化形式定义为“日期+时间”的格式“YYYY-MM-DD HH: MM: SS”[24],空间信息规范化形式定义为“地名地址”或“空间坐标”[25]

(2) 基于时空特征的聚合。设定聚合的时间特征t和空间特征s,基于AO(N)在其每个属性项和行为项中,遵循以下4项原则筛选属性和行为的特征值:①判断是否存在T=tS=s的特征值,若存在则将此特征值作为聚合信息;②若①不存在,继续判断是否存在S=sTt且最接近t的特征值,若存在也将此特征值作为聚合信息;③若②不存在,继续判断是否存在Ss邻近、Tt且最接近t的特征值,若存在同样将此特征值作为聚合信息;④若③依然不存在,则此属性项或行为项不进行聚合。

通过对AO(N)中所有属性项和行为项的遍历,每个属性项和行为项中会筛选出最多1项最符合时空特征的特征值。将筛选出属性和行为信息进行聚合,共同形成AO(N)在特定时空条件下的状态信息聚合结果。例如,微博文本记录在8月10日1:45热带气旋风力在浙江省温岭市达到16级,当聚合热带气旋对象在〈2:00, 温岭市〉的状态时,由于1:45—2:00之间没有关于风力的信息更新,因此将“风力16级”作为热带气旋对象在〈2:00, 温岭市〉状态的1项属性特征。

(3) 状态信息聚合结果组织。以台风灾害事件为例,在图 5中,SO(N, t, s)表示AO(N)在时间t和空间s上存在的状态,Alals描述状态的属性特征,Bnbnu是描述状态的行为特征,〈T, S〉是属性和行为特征值产生的时间和空间。

图 5 状态信息聚合机制与结果示例 Fig. 5 Information aggregation mechanism and examples of states

1.3.3 过程信息聚合

灾害事件过程是由多个对象的不同状态共同构成,因而将多个时空节点上状态聚合结果依据时序关系相互连接,形成过程聚合结果。聚合机制具体包括以下几部分。

(1) 面向状态序列的聚合。状态序列是同一对象的不同状态在时空上的连接。设定聚合的时间范围tr和空间范围sr,基于AO(N)依次遍历所有的属性项和行为项,判断其中是否存在T⊆tr且S⊆sr的特征值。若存在则提取〈T, S〉,将全部符合tr与sr范围的〈T, S〉共同形成时空节点集合。对于集合中全部的时空节点,依据1.3.2节的方法聚合获得多个状态信息聚合结果SO(N, tu, su)。

对全部SO(N, tu, su)进行排序,首先依据时间特征,遵循顺序或倒序的方式进行排列;然后依据空间特征,遵循尺度由大到小或由小到大的方式进行排列;最后依据属性和行为特征,可以依据特征值的大小排列,也可以依据用户设置条件的相似度进行排列。按照三维条件排列的状态序列即为单一对象的过程信息聚合结果,聚合结果如图 6所示。以台风灾害事件为例,PO(N, tr, sr)表示AO(N)在tr和sr上经历的过程,SO(N, tu, su)表示组成过程的各个状态。

图 6 过程信息聚合机制与结果示例 Fig. 6 Information aggregation mechanism and examples of processes

(2) 面向事件过程的聚合。事件过程是对多个状态序列聚合结果的进一步整合,需要注意两方面:一是在构建时空节点集合时,需要综合考虑各个对象中全部的时空信息;二是对于多个对象状态序列需要采取相同的排序机制,保证聚合结果整体次序的一致性。

2 案例研究与分析 2.1 数据来源

新浪微博拥有庞大的活跃用户群体,广泛分布于全国各地,有利于为获取灾害事件信息提供全面的数据支撑。超强台风“利奇马”是2019年登陆中国的最强台风,选取台风“利奇马”作为案例,能够较为全面地涵盖灾害事件过程中可能出现的各类状况,使得研究结果具有典型性。本文以“台风”与“利奇马”为关键词,基于新浪微博收集2019年8月9—12日微博共67 579条。在提取微博文本中对象名称和各类特征信息的基础上,首先以对象为核心进行聚合,再依据时间和空间特征进一步实现对象的状态聚合和过程聚合。基于不同层次的信息聚合结果,分析灾害事件的时空变化。

2.2 对象信息聚合结果

依据DEIM模型框架结构,“利奇马”台风事件中涵盖等多种对象类型。热带气旋作为致灾因子属于灾害事件的主体对象。国家标准《自然灾害承灾体分类与代码》(GB/T 32572—2016)中规定了人物、房屋、交通设施等作为承灾体都可能面临灾害损失。社会活动可以体现人物的各种行为在灾害事件期间的变化,属于灾害的社会影响。本文以气旋、人物、房屋、交通和社会活动等5类主要的对象类型为例,进行对象信息聚合结果的分析(图 7)。各个对象信息要素数量可以体现出灾害事件中社会公众的关注重点,聚合结果表明:①不同类型对象的信息要素数量变化显著。气旋作为事件主体对象受到关注最多,其后依次是交通、人物、基础设施和社会活动。②对象间不同特征的信息要素比重存在差异,公众关注不同对象的侧重点各异。时间和空间信息数量普遍较多,在气旋和交通对象中属性信息数量较多,而社会活动对象中行为信息数量相对较多。

图 7 对象信息聚合结果统计 Fig. 7 The result statistics of object information aggregation

2.3 状态信息聚合结果

依据状态信息聚合结果,可以掌握台风事件中的不同对象在特定时空下的存在形式。以聚合8月11日0时浙江省的人物信息为例,将本文状态信息聚合方法与传统的基于触发词聚合方法进行对比。触发词方法依据与人物相关的关键词“转移”“受伤”“解救”等,结合微博发布时间将相关微博文本聚合在一起,可以获得“营救400受困群众”“600多人被洪水围困”等信息,未获取到之前时间段发布的其他微博(图 8(a))。对于本文的状态信息聚合方法,首先可以获取到符合时空特征的营救信息“400人”,对于其他属性也可以分别获得相对最近更新的信息,例如10人失联、22人死亡等(图 8(b))。状态信息聚合不仅获得设置时间段内发布的营救信息,还包括在之前时间段已经发布且未有更新的死亡、围困、失联等各类信息。因此,状态信息聚合结果更加全面,能够反映出对象在特定时空下具有的各类特征,为综合掌握对象的受灾程度提供依据。

图 8 不同信息聚合方法结果对比 Fig. 8 Comparison of information aggregation results of different methods

2.4 过程信息聚合结果

将不同状态在时空上进行连接,可以聚合出灾害事件的过程信息。随着信息聚合时空范围的扩展,聚合结果的信息量也随之增长,为理解和认知聚合结果带来困难。在本文方法中,对于过程中不同时空节点上的状态信息聚合结果,可以依据DEIM模型中状态类型进行量化分级。分级后的聚合结果更加清晰直观(图 9),可以从两方面进行分析。①聚合结果与气象监测数据互相验证。微博中包含大量涉及气旋的灾害信息,能够进一步体现出气象监测结果的准确性。更为重要的是,气象监测中固定间隔的信息采集与预报模式,微博中信息的时空粒度更加多变,能够更加及时地反映出小尺度下突发的状况。例如:气旋在青岛二次登陆时,气象监测信息为9级大风,而微博文本则显示为“风平浪静”(图 9(a3))。这是由于气旋已经减弱为热带风暴级,气旋结构严重破坏使得中心气压非常平均,实际上并没有产生大风大雨。②微博中涵盖的多元化灾害事件信息,弥补气象监测对于社会环境变化感知的不足,不同对象在灾害事件中的时空过程也各有特点。例如:交通加强了不同地区之间的联系,而在灾害事件中也加速了对于交通运行影响的扩散;公众会对未发生的灾害进行提前预防,社会活动状态的变化过程相较于气旋过程具有前置性等。大量细粒度的灾情信息,对于政府部门有针对性地调整应急方案具有参考意义。

图 9 台风“利奇马”灾害事件中各对象不同状态的时空变化过程 Fig. 9 The spatio-temporal change process of various objects in different states during the typhoon "Lekima" disaster event

2.5 讨论

高效准确地获取有效的灾害事件信息资源,是灾害管理和决策的重要参考。在当前大数据环境下,微博文本已经成为获取灾害事件信息的一项重要途径。本文提出的微博灾害事件信息聚合方法,通过“对象-状态-过程”分层聚合模式,分别解决微博文本中灾害事件信息的分散化、时空粒度多样化和无序化的问题。特别是在状态信息聚合中,对于获取的任一时空节点上的聚合结果,不仅限于发生在特定时空条件下的属性和行为信息,还包含了在过去时间各类特征的最新变化信息,保证了聚合结果的全面性与完整性。与传统的触发词聚合方法相比,本文方法在信息粒度上更加细致。触发词方法不会改变微博原有的载体单元,聚合结果仍然原始的篇章单元,需要用户从中查找所需的目标信息。本文方法实际上是面向灾害事件各类信息要素的聚合,结合不同对象状态类型的量化分级,能够为用户提供更加直观的聚合结果,为提升微博在灾害管理中服务能力提供有力支持。

在灾害管理的实际应用中,从微博文本聚合获取的灾情信息是对传统灾害监测手段的有效补充。对于传统灾害监测难以感知的社会环境变化过程[26],微博文本凭借其蕴含的多元化信息类型也可以进行探测,提升灾害监测的全面性,以支持灾害预警、监测、指挥及评估等各项灾害管理环节。基于微博文本的信息聚合结果能够为灾害事件的演化提供全局化参考,主要包括:①时空格局,通过分析灾害事件中特定状态的时空格局,可以明确灾情分布的多项时空特征;②演化规律,不同类型灾情影响之间存在时空、顺承、因果等关系的演化逻辑,通过将这些关系分析与组合,揭示出具有普遍性的灾害事件发展趋势;③活动模式,结合时空格局与演化规律的认知,总结出灾害事件存在的一般形式,并进行归纳分类;④内在机理,综合考虑时空格局、演化规律和活动模式,挖掘灾害事件中各类灾情影响的内在变化特征,以及不同灾情影响在一定时空环境下相互联系、相互作用的规则和原理,为灾害预警、过渡安置和恢复重建提供真实可靠的参考依据。

3 结论

本文结合灾害事件的动态演化特性和微博文本的描述特点,提出一种顾及时空特征的微博灾害事件信息聚合方法。从孕灾环境、致灾因子和承灾体相互作用的灾害机理出发,构建体现灾害事件时空特征的信息模型。针对微博文本分散化、时空粒度多样化和无序化特点,从对象、状态和过程3个层次进行灾害事件信息聚合,以时空为线索使原本分散的微博文本碎片形成体现事件时空过程的有序化信息。以台风“利奇马”作为研究案例,结果表明聚合结果深入揭示信息资源特征及多维关系,更加全面地提供灾害信息,有利于探测小尺度下灾情的突发变化。后续研究可以从以下两方面进行深入探讨:一是引入深度学习方法不断完善聚合效果;二是研究面向气象监测与社交媒体等多源异构数据的灾害事件信息聚合方法。


参考文献
[1]
YAN Yingwei, ECKLE M, KUO C L, et al. Monitoring and assessing post-disaster tourism recovery using geotagged social media data[J]. ISPRS International Journal of Geo-Information, 2017, 6(5): 144. DOI:10.3390/ijgi6050144
[2]
YAN Yingwei, FENG C C, HUANG Wei, et al. Volunteered geographic information research in the first decade: a narrative review of selected journal articles in GIScience[J]. International Journal of Geographical Information Science, 2020, 34(9): 1765-1791. DOI:10.1080/13658816.2020.1730848
[3]
WANG Zheye, YE Xinyue. Space, time, and situational awareness in natural hazards: a case study of Hurricane Sandy with social media data[J]. Cartography and Geographic Information Science, 2019, 46(4): 334-346. DOI:10.1080/15230406.2018.1483740
[4]
JIA Jingyuan, WANG Bo. The development of intelligent operation method of urban public infrastruc-ture driven by accurate spatio-temporal information[J]. Journal of Geodesy and Geoinformation Science, 2021, 4(2): 27-35.
[5]
NILES M T, EMERY B F, REAGAN A J, et al. Social media usage patterns during natural hazards[J]. PLoS One, 2019, 14(2): e0210484. DOI:10.1371/journal.pone.0210484
[6]
DE BOOM C, VAN CANNEYT S, DEMEESTER T, et al. Representation learning for very short texts using weighted word embedding aggregation[J]. Pattern Recognition Letters, 2016, 80(9): 150-156.
[7]
WANG Yan, TAYLOR J E. Coupling sentiment and human mobility in natural disasters: a Twitter-based study of the 2014 South Napa Earthquake[J]. Natural Hazards, 2018, 92: 907-925. DOI:10.1007/s11069-018-3231-1
[8]
李静. 基于LDA的微博灾害信息聚合: 以台风为例[D]. 武汉: 武汉大学, 2018.
LI Jing. Microblog disaster information aggregation based on LDA: a case study of typhoon[D]. Wuhan: Wuhan University, 2018.
[9]
严平勇. 基于微博的灾害信息聚合方法研究[D]. 福州: 福建师范大学, 2013.
YAN Pingyong. Disaster information aggregation method based on micro blog[D]. Fuzhou: Fujian Normal University, 2013.
[10]
李紫薇, 邢云菲. 新媒体环境下突发事件网络舆情话题演进规律研究: 以新浪微博"九寨沟地震"话题为例[J]. 情报科学, 2017, 35(12): 39-44.
LI Ziwei, XING Yunfei. Research on the evolution of emergency public opinion topic in the new media environment: a case of "Jiuzhaigou earthquake" in sina micro-blog[J]. Information Science, 2017, 35(12): 39-44.
[11]
STEPHENSON J, VAGANAY M, COON D, et al. The role of Facebook and Twitter as organisational communication platforms in relation to flood events in Northern Ireland[J]. Journal of Flood Risk Management, 2018, 11(3): 339-350. DOI:10.1111/jfr3.12329
[12]
仇林遥. 面向自然灾害应急任务的时空数据智能聚合方法[D]. 武汉: 武汉大学, 2017.
QIU Linyao. A smart aggregation method of spatial-temopral data for natural disaster emergency tasks[D]. Wuhan: Wuhan University, 2017.
[13]
Cyclone Warning Markup Language (CWML)[EB/OL]. [2022-04-15]. http://xml.coverpages.org/NICTA-CWML-v10-2006.pdf, 2021-1-7.
[14]
黄风华, 晏路明. 基于Jena的台风灾害领域本体模型推理[J]. 计算机应用, 2013, 33(3): 771-775, 779.
HUANG Fenghua, YAN Luming. Reasoning of ontology model for typhoon disasters domain based on Jena[J]. Journal of Computer Applications, 2013, 33(3): 771-775, 779. DOI:10.3969/j.issn.1001-3695.2013.03.033
[15]
HAN M, LEE J. Bayesian typhoon track prediction using wind vector data[J]. Communications for Statistical Applications and Methods, 2015, 22(3): 241-253. DOI:10.5351/CSAM.2015.22.3.241
[16]
CHEN Yu, DUAN Zhongdong. A statistical dynamics track model of tropical cyclones for assessing typhoon wind hazard in the coast of southeast China[J]. Journal of Wind Engineering and Industrial Aerodynamics, 2018, 172: 325-340. DOI:10.1016/j.jweia.2017.11.014
[17]
YE Peng, ZHANG Xueying, SHI Ge, et al. TKRM: a formal knowledge representation method for typhoon events[J]. Sustainability, 2020, 12(5): 2030. DOI:10.3390/su12052030
[18]
YE Peng, ZHANG Xueying, HUAI An, et al. Information detection for the process of typhoon events in microblog text: a spatio-temporal perspective[J]. ISPRS International Journal of Geo-Information, 2021, 10(3): 174. DOI:10.3390/ijgi10030174
[19]
张雪英, 张春菊, 吴明光, 等. 顾及时空特征的地理知识图谱构建方法[J]. 中国科学: 信息科学, 2020, 50(7): 1019-1032.
ZHANG Xueying, ZHANG Chunju, WU Mingguang, et al. Spatiotemporal features based geographical knowledge graph construction[J]. Scientia Sinica (Informationis), 2020, 50(7): 1019-1032.
[20]
吴宾. 基于对象的地理时空演变分析与知识发现[D]. 上海: 华东师范大学, 2018.
WU Bin. Object-based analysis and knowledge discovery by modeling spatio-temporal evolution of geographical phenomena[D]. Shanghai: East China Normal University, 2018.
[21]
杨腾飞, 解吉波, 李振宇, 等. 微博中蕴含台风灾害损失信息识别和分类方法[J]. 地球信息科学学报, 2018, 20(7): 906-917.
YANG Tengfei, XIE Jibo, LI Zhenyu, et al. A method of typhoon disaster loss identification and classification using micro-blog information[J]. Journal of Geo-Information Science, 2018, 20(7): 906-917.
[22]
张春菊, 张雪英, 李明, 等. 中文文本中时间信息解析方法[J]. 地理与地理信息科学, 2014, 30(6): 1-7.
ZHANG Chunju, ZHANG Xueying, LI Ming, et al. Interpretation of temporal information in Chinese text[J]. Geography and Geo-Information Science, 2014, 30(6): 1-7.
[23]
张雪英, 叶鹏, 王曙, 等. 基于深度信念网络的地质实体识别方法[J]. 岩石学报, 2018, 34(2): 343-351.
ZHANG Xueying, YE Peng, WANG Shu, et al. Geological entity recognition method based on deep belief networks[J]. Acta Petrologica Sinica, 2018, 34(2): 343-351.
[24]
宋国民, 张三强, 贾奋励, 等. 中文文本中时间信息抽取及规范化方法[J]. 测绘科学技术学报, 2019, 36(5): 538-544.
SONG Guomin, ZHANG Sanqiang, JIA Fenli, et al. Temporal information extraction and normalization method in Chinese texts[J]. Journal of Geomatics Science and Technology, 2019, 36(5): 538-544.
[25]
叶鹏, 张雪英, 杜咪. 顾及字符特征的中文地名词典查询方法[J]. 地球信息科学学报, 2018, 20(7): 880-886.
YE Peng, ZHANG Xueying, DU Mi. Query method of Chinese gazetteer based on the character features[J]. Journal of Geo-Information Science, 2018, 20(7): 880-886.
[26]
LIU Meijie, WANG Jin, ZHONG Shilei, et al. Quantitative evaluation of sea-ice disaster in Bohai Sea based on GOCI and Sentinel-1[J]. Journal of Geodesy and Geoinformation Science, 2021, 4(1): 49-55.
http://dx.doi.org/10.11947/j.AGCS.2023.20210496
中国科学技术协会主管、中国测绘地理信息学会主办。
0

文章信息

叶鹏,张雪英,张春菊
YE Peng, ZHANG Xueying, ZHANG Chunju
基于微博文本的灾害事件信息时空过程聚合方法
Spatio-temporal process based information aggregation method of disaster events in microblog text
测绘学报,2023,52(3):490-500
Acta Geodaetica et Cartographica Sinica, 2023, 52(3): 490-500
http://dx.doi.org/10.11947/j.AGCS.2023.20210496

文章历史

收稿日期:2021-08-27
修回日期:2022-06-15

相关文章

工作空间