自然语言处理技术:文本信息抽取及应用研究
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2.2 命名实体识别

实体是文本中承载信息的重要语言单位,一段文本的语义可以表述为其包含的实体及这些实体相互之间的关联和交互。实体识别也就成了文本语义理解的基础。例如,“26日下午,一架叙利亚空军L-39教练机在哈马省被HTS使用的肩携式防空导弹击落”中的信息可以通过其包含的时间实体“26日下午”、机构实体“叙利亚空军”和“HTS”、地点实体“哈马省”及武器实体“L-39教练机”和“肩携式防空导弹”有效描述。实体也是知识图谱的核心单元,一个知识图谱通常是一个以实体为节点的巨大知识网络,包括实体、实体属性及实体之间的关系。例如,一个医学领域的知识图谱的核心单元是医学领域的实体,如疾病、症状、药物、医院、医生等。命名实体识别是指识别文本中的命名性实体,并将其划分到指定类别。常用的实体类别包括人名、地名、机构名、日期等,例如,“2016年6月20日,骑士队在奥克兰击败勇士队获得NBA冠军”这句中的地名(奥克兰)、时间(2016年6月20日)、球队(骑士队、勇士队)和机构(NBA)。命名实体识别系统通常包含两个部分:实体边界识别和实体分类,其中实体边界识别判断一个字符串是否组成一个完整实体,而实体分类将识别出的实体划分到预先给定的不同类别中去。命名实体识别是一项极具实用价值的技术,目前中英文中通用的命名实体识别(人名、地名、机构名)的F1值都能达到90%以上。命名实体识别的主要难点在于表达不规律,且缺乏训练语料的开放域命名实体类别(如电影、歌曲名)。