上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
1.3.4 基于文本挖掘的方法
除非结构化文本之外,互联网中还存在大量的半结构的高质量数据源,如维基百科、网页中的表格、列表、搜索引擎的查询日志等。这些结构往往蕴含丰富的语义信息。因此,半结构互联网数据源上的语义知识获取(Knowledge Acquisition),如大规模知识共享社区(如百度百科、互动百科、维基百科)上的语义知识抽取,往往采用基于文本挖掘的方法。代表性的文本挖掘抽取系统包括DBPedia、Yago、BabelNet、NELL和Kylin等。基于文本挖掘的方法的核心是构建从特定结构(如列表、Infobox)到目标语义知识(实体、关系、事件)的映射规则。由于映射规则本身可能带有不确定性和歧义性,同时目标结构可能会有一定的噪声,所以基于文本挖掘的方法往往基于特定算法来对语义知识进行评分和过滤。
基于文本挖掘的方法只从容易获取且具有明确结构的语料中抽取知识,因此抽取出来的知识质量往往较高。然而,仅仅依靠结构化数据挖掘无法覆盖人类的大部分语义知识:首先,绝大部分结构化数据源中的知识都是流行度高的知识,对长尾知识的覆盖不足;其次,现有结构化数据源只能覆盖有限类别的语义知识,相比人类的知识仍远远不够。因此,如何结合基于文本挖掘的方法(面向半结构化数据,抽取出的知识质量高但覆盖度低)和文本抽取方法(面向非结构化数据,抽取出的知识相比基于文本挖掘的方法质量低但覆盖度高)的优点,融合来自不同数据源的知识,并将其与现有大规模知识库集成,是基于文本挖掘的方法的研究方向之一。