上QQ阅读APP看书,第一时间看更新
3.1 自然语言文本特征
从文本“原材料”中,首先要获得文本数据中的语言学特征,比如词性、前后词搭配、短语组合等。这种从文本数据到特征的映射就是特征工程。随着深度神经网络的介入,特征工程不再如机器学习模型中的那样复杂,但仍然需要定义核心特征。因此,中文文本是字、词组、短语,甚至概念等多种元素的综合表示,如何将离散文本符号转换为特征成为研究的重点[1]。本书针对日常通用语言文本和行业专用语言文本,分别讨论它们的文本特征问题。
从文本“原材料”中,首先要获得文本数据中的语言学特征,比如词性、前后词搭配、短语组合等。这种从文本数据到特征的映射就是特征工程。随着深度神经网络的介入,特征工程不再如机器学习模型中的那样复杂,但仍然需要定义核心特征。因此,中文文本是字、词组、短语,甚至概念等多种元素的综合表示,如何将离散文本符号转换为特征成为研究的重点[1]。本书针对日常通用语言文本和行业专用语言文本,分别讨论它们的文本特征问题。