1.2.4 事件抽取
事件(Event)的概念起源于认知科学,广泛应用于哲学、语言学、计算机等领域。遗憾的是,目前学术界对此尚没有公认的定义,针对不同领域的不同应用,不同学者对事件有不同的描述。在计算机科学的范畴内,最常用的事件定义有如下两种。
● 第一种源自信息抽取领域。最具国际影响力的自动内容抽取(Automatic Content Extraction,ACE)评测会议对其定义为:事件是发生在某个特定时间点或时间段、某个特定地域范围内,由一个或者多个角色参与的一个或者多个动作组成的事情或者状态的改变。
● 第二种源自信息检索领域。事件被认为是细化的、用于检索的主题。美国国防高级计划研究委员会主办的话题检测与追踪(Topic Detection and Tracking,TDT)评测指出:事件是由某些原因、条件引起,发生在特定时间、地点,涉及某些对象,并可能伴随某些必然结果的事情。
虽然两种定义的应用场景和侧重点略有差异,但均认为事件是促使事物状态和关系改变的条件。目前已存在的知识资源(如维基百科等)所描述的实体及实体间的关联关系大多是静态的,事件能描述粒度更大的、动态的、结构化的知识,是现有知识资源的重要补充。此外,很多认知科学家认为人类是以事件为单位来体验和认识世界的,事件符合人类正常的认知规律,如维特根斯坦在《逻辑哲学论》中论述到“世界是所有事实,而非事物的总和”。因此,事件知识学习,即将非结构化文本中自然语言所表达的事件以结构化的形式呈现,对于知识表示、理解、计算和应用均意义重大。接下来,本书将沿着上述两种定义对事件知识学习的任务、挑战、研究现状和趋势进行梳理和展望。
为了方便叙述,本书称针对第一种定义的相关研究为事件识别和抽取,针对第二种定义的相关研究为事件检测与追踪。图1-2所示为一个事件抽取的示例。事件识别和抽取研究如何从描述事件信息的文本中识别并抽取出事件信息并以结构化的形式呈现出来,包括其发生的时间、地点、参与角色以及与之相关的动作或者状态的改变,核心的概念如下。
● 事件描述(Event Mention):客观发生的具体事件的自然语言描述,通常是一个句子或者句群。同一事件可以有很多种不同的事件描述,可能分布在同一文档的不同位置或不同的文档中。
● 事件触发词(Event Trigger):事件描述中最能代表事件发生的词,是决定事件类别的重要特征,在ACE评测中事件触发词一般是动词或名词。
● 事件元素(Event Argument):事件的参与者,是组成事件的核心部分,与事件触发词构成了事件的整个框架。事件元素主要由实体、时间和属性值等表达完整语义的细粒度单位组成。
● 元素角色(Argument Role):事件元素与事件之间的语义关系,也就是事件元素在相应的事件中扮演什么角色。
● 事件类型(Event Type):事件元素和事件触发词决定了事件的类别。很多评测和任务均制定了事件类别和相应模板,方便元素识别及角色判定。
图1-2 一个事件抽取的示例
事件检测与追踪旨在将文本新闻流按照其报道的事件进行组织,为传统媒体多种来源的新闻监控提供核心技术,以便让用户了解新闻及其发展。具体而言,事件检测与追踪包括三个主要任务:分割、发现和跟踪;将新闻文本分割为事件,发现新的(不可预见的)事件,并跟踪以前报道的事件的发展。事件发现任务又可细分为历史事件发现和在线事件发现两种形式,前者的目标是从按时间排序的新闻文档中发现以前没有识别的事件,后者的目标则是从实时新闻流中实时发现新的事件。