信息内容安全管理及应用
上QQ阅读APP看书,第一时间看更新

第4章 文本信息的特征抽取

文本的表示及其特征项的抽取是文本挖掘、信息检索的一个基本问题。它把从文本中抽取出的特征词进行量化来表示文本信息。它将一个无结构的原始文本转化为结构化的、计算机可以识别处理的信息,即对文本进行科学的抽象,建立其数学模型,用以描述和代替文本。计算机能够通过对这种模型的计算和操作来实现对文本的识别。由于文本是非结构化的数据,要想从大量的文本中挖掘出有用的信息就必须首先将文本转化为可处理的结构化形式。