自然语言理解与行业知识图谱:概念、方法与工程落地
上QQ阅读APP看书,第一时间看更新

3.2 自然语言统计学习

统计学习是机器学习重要组成部分,两个概念经常被等同看待,将机器学习问题视为统计推断问题。Herbert A.Simon曾经说:“如果一个系统能够通过执行过程改进自身性能,这就是学习。”所以统计学习就是计算系统通过数据和模型改进、提高自身性能的机器学习,近年来自然语言处理成果主要来自统计学习[5]。统计学习进一步分为频率学派和贝叶斯学派,频率学派将模型参数视为定值,完成各类统计分析,而贝叶斯学派则将模型参数视为随机变量,结合先验分布完成统计学习。因此,关于数据的概率统计和关于优化的信息论,是统计语言学习的基础知识。我们假设读者已经对相关知识比较知悉,如想进一步了解相关公式和定理,读者可以阅读本书附录和相关书籍。

本节的内容主要结合概率论、信息论等有关概念,对统计学习进行简单介绍[6]。进一步结合语言学内容,探讨语言模型相关内容。