第1章
绪论
1.1 研究背景及意义
近年来,随着互联网技术的发展和移动互联网的普及,用户产生的数据呈爆发式增长。根据国际互联网数据中心(IDC)做出的估测,全球数据现以每年30%的速率增长,人类在近几年产生的数据量相当于之前产生的全部数据量总和。新增的数据多以非结构化文本形式存在(如新闻、微博、文献等),且蕴含众多新增知识,这些新知识跟人力资源、生产资源一样,是重要的战略资源,隐含着巨大的经济价值。非结构化知识均以自然语言的形式体现,由于自然语言具有歧义性、非规范性和个性化表达等特点,同时语言还承载着丰富的知识积累以及在此基础上的思维推理过程,所以计算机难以对其进行直接处理和利用。因此,如何快速、精准地从大量非结构化文本数据中获取有效知识,并将之转化为易存储、可被计算机利用的形式成了亟待解决的问题。
信息抽取作为分析、抽取、管理文本知识的核心技术和重要手段,自诞生以来就得到了学术界与工业界的广泛关注。信息抽取系统可从海量非结构化文本(新闻、微博、文献等)中抽取结构化知识,在各领域有着广泛应用。例如,从新闻报道中抽取重要事件的发生时间、地点、任务等信息;从公告事件中抽取公司上市、合并、停牌等信息;从医生处方中抽取病因、病变位置、使用药物等信息。被抽取出的信息通常以结构化形式(知识三元组)存储,可以直接被计算机处理和利用,并进行查询和推理等。信息抽取是组织、管理和分析海量文本信息的核心技术和重要手段,是大数据时代的使能技术。随着计算机的普及及互联网的迅猛发展,大量的信息以数字化文档的形式被存储在计算机里。这些数据与自然资源、人力资源一样,是重要的战略资源,隐含着巨大的经济价值。如何充分组织、管理和利用互联网发展带来的海量数据,有效解决信息爆发带来的严峻挑战,已经成了信息科学的核心问题。通过将文本所表述的信息结构化和语义化,信息抽取技术给我们提供了分析非结构化文本的有效手段,它可以与医疗、法律、金融、教育等垂直领域深度结合,具有重要的研究价值和广阔的应用场景,主要体现在如下方面。
● 信息抽取技术可用于自动化更新知识库内容,构建大规模知识图谱。自2012年Google公司提出并将大规模知识图谱成功应用于搜索引擎以来,用户对智能服务的需求,已经从单纯的浅层信息搜索,逐渐转变为更为智能化、个性化、领域化的深层知识服务。许多面向特定领域的应用服务也应运而生。如医疗助手、智能司法搜索、银行自动客服等,这些新兴知识服务的成功应用依赖于丰富、全面、精准的领域知识图谱。现有的WordNet、HowNet等常识性知识图谱,多数依靠人工编撰。随着数据、知识爆发式增长,构建知识图谱遇到了极大的挑战。人为构建知识图谱不仅耗时、费力,而且存在数据稀疏、覆盖率低和知识更新缓慢等问题。此外,由于特定领域的图谱构建往往需要依赖于领域专家,因此以上问题在特定领域尤为严重。而利用信息抽取技术,我们可以从非结构化文本中抽取实体间的语义关系,并可根据抽取出的结构化知识自动生成、更新知识图谱。目前依靠信息抽取技术自动化构建的半结构化、结构化知识库有DBpedia、Freebase和Yago等。
● 信息抽取技术是语义深度理解和知识推理的关键技术之一,为复杂语义表示建模提供知识和推理支持。近年来,以深度学习为代表的、由数据驱动的自然语言处理方法取得了巨大的进展,然而由数据驱动的方法仍然是对训练数据进行拟合,缺乏对数据的理解能力。仅靠数据驱动难以实现具有语义理解与推理能力的自然语言处理系统,要实现真正的语义理解,还需要知识的引导。知识驱动的语义理解方法通过引入外部知识和对文本中包含的知识进行深层次建模,能够增强对文本内容的深度理解,弥补传统数据驱动方法中语义信息的缺失,增加理解深度。信息抽取可以在复杂语义表示建模过程中,捕获实体及句、篇章中实体间的语义联系,使各个孤立的实体联结起来,充分融合各种语义信息,增加语义理解深度,辅助自然语言处理相关任务。例如,在信息检索领域,我们不仅可以通过关系抽取技术构建知识图谱,进行深层的关联搜索和推理,还可以利用关系抽取分析复杂查询句来了解用户意图。
近年来,针对上述信息抽取的研究与应用成了自然语言处理、人工智能的热门研究领域。如何利用小规模标注语料学习有效的、泛化能力强的语义模式,快速、精准地构建健壮、易扩展的信息抽取系统,一直是该领域的研究重点。