4.2.2 亚词级别语义特征_信息内容安全管理及应用-QQ阅读男生都市网

上QQ阅读APP看书，第一时间看更新

4.2.2 亚词级别语义特征

亚词级别（Sub-Word Level）也称为字素级别（Graphemic Level）。英文中比词级别更低的文字组成单位是字母，汉语中则是单字。

英文有26个字母，每个字母有大小写两种形式。英文中大小写的区别并不在于内容方面，因此在文本表示时通常合并大小写形式，以简化处理模型。

1.n元模型

亚词级别常用的索引方式是n元模型（n－Grams）。n元模型将文本表示为重叠的n个连续字母（对应中文情况为单字）的序列作为特征项。例如，单词“shell”的3元模型为“she”“hel”和“ell”（考虑前后空格，还包括“_sh”和“ll_”两种情况）。英文中采用n元模型有助于降低错误拼写带来的影响：一个较长的单词，某个字母拼写错误时，如果以词作为特征项，则错误的拼写形式和正确的词没有任何联系，采用n元模型表示，当n小于单词长度时，错误拼写与正确拼写之间会有部分n元模型相同；另一方面，考虑英文中复数、词性、词格、时态等词形变化问题，n元模型也起到了与降低错误拼写影响类似的作用。

采用n元模型时需要考虑数值n的选择问题。n＜3时无法提供足够的区分能力。只考虑26个字母的情况，n＝3时有263＝17576个三元组，n＝4时有264＝456976个四元组。n取值越大，可表示的信息越丰富，然而随着n的增大，特征项数目以指数函数方式迅速增长。因此，在实际应用中大多取n为3或4（随着计算机硬件技术的增长，以及网络的发展对信息流通的促进，已经有n取更大数值的实际应用）。仅考虑单词平均长度情况，本文统计一份GRE常用词汇表，7444个单词的平均长度为7.69个字母，考虑到不同单词在真实文本中出现频率不同，统计reuters-21578（路透社语料库），单词的平均长度为4.98个字母，再加上长度较短单词的使用频率较高，而拼写的错误词汇一般长度较长，可见，采用n为3或4可以部分弥补错误拼写与词形变化带来的干扰，并且有足够的表示能力。

2.多词级别语义特征

多词级别（Multi-Word Level）指用多个词作为文本的特征项。多词级别可以比词级别表示更多的语义信息。随着时代的发展，一些词组也出现得越来越多，例如，对于“machine learning”“network content security”“text classification”“information filtering”这些术语，采用单词进行表示，会损失一些语义信息，甚至短语与单个词在语义方面有较大区别。随着计算机处理能力的快速增长，处理文本的技术也越来越成熟，多词作为特征项也有更大的可行性。

多词级别中的一种思路是应用名词短语作为特征项，这种方法也称作短语语法指标（Syntactic Phrase Indexing）；另外一种思路则不考虑词性，只从统计角度根据词之间较高的同现频率（Co-occur Frequency）来选取特征项。

采用名词短语或者同现高频词作为特征项，需要考虑特征空间的稀疏性问题。词与词可能的组合结果很多，仅以两个词的组合为例，根据统计，一个网络信息检索原型系统包含的两词特征项就达10亿项，而且许多词之间的搭配是没有语义的，绝大多数组合在实际文本中出现的频率很低，这些都是影响多词级别索引实用性的因素。