自然语言处理技术:文本信息抽取及应用研究
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.3.2 基于统计模型的方法

自20世纪90年代以来,基于统计模型的方法一直是信息抽取的主流方法,有非常多的统计方法被用来抽取文本中的目标信息,如最大熵分类模型、基于树核的SVM分类模型、隐马尔可夫模型、条件随机场模型等。基于统计模型的方法通常将信息抽取任务形式化为从文本输入到特定目标结构的预测,使用统计模型来建模输入与输出之间的关联,并使用机器学习方法来学习模型的参数。例如,条件随机场(Condition Random Field,CRF)模型是实体识别的代表性统计模型,它将实体识别问题转化为序列标注问题;基于树核的关系抽取系统则将关系抽取任务形式化为结构化表示的分类问题。