4.2.2 亚词级别语义特征
亚词级别(Sub-Word Level)也称为字素级别(Graphemic Level)。英文中比词级别更低的文字组成单位是字母,汉语中则是单字。
英文有26个字母,每个字母有大小写两种形式。英文中大小写的区别并不在于内容方面,因此在文本表示时通常合并大小写形式,以简化处理模型。
1.n元模型
亚词级别常用的索引方式是n元模型(n-Grams)。n元模型将文本表示为重叠的n个连续字母(对应中文情况为单字)的序列作为特征项。例如,单词“shell”的3元模型为“she”“hel”和“ell”(考虑前后空格,还包括“_sh”和“ll_”两种情况)。英文中采用n元模型有助于降低错误拼写带来的影响:一个较长的单词,某个字母拼写错误时,如果以词作为特征项,则错误的拼写形式和正确的词没有任何联系,采用n元模型表示,当n小于单词长度时,错误拼写与正确拼写之间会有部分n元模型相同;另一方面,考虑英文中复数、词性、词格、时态等词形变化问题,n元模型也起到了与降低错误拼写影响类似的作用。
采用n元模型时需要考虑数值n的选择问题。n<3时无法提供足够的区分能力。只考虑26个字母的情况,n=3时有263=17576个三元组,n=4时有264=456976个四元组。n取值越大,可表示的信息越丰富,然而随着n的增大,特征项数目以指数函数方式迅速增长。因此,在实际应用中大多取n为3或4(随着计算机硬件技术的增长,以及网络的发展对信息流通的促进,已经有n取更大数值的实际应用)。仅考虑单词平均长度情况,本文统计一份GRE常用词汇表,7444个单词的平均长度为7.69个字母,考虑到不同单词在真实文本中出现频率不同,统计reuters-21578(路透社语料库),单词的平均长度为4.98个字母,再加上长度较短单词的使用频率较高,而拼写的错误词汇一般长度较长,可见,采用n为3或4可以部分弥补错误拼写与词形变化带来的干扰,并且有足够的表示能力。
2.多词级别语义特征
多词级别(Multi-Word Level)指用多个词作为文本的特征项。多词级别可以比词级别表示更多的语义信息。随着时代的发展,一些词组也出现得越来越多,例如,对于“machine learning”“network content security”“text classification”“information filtering”这些术语,采用单词进行表示,会损失一些语义信息,甚至短语与单个词在语义方面有较大区别。随着计算机处理能力的快速增长,处理文本的技术也越来越成熟,多词作为特征项也有更大的可行性。
多词级别中的一种思路是应用名词短语作为特征项,这种方法也称作短语语法指标(Syntactic Phrase Indexing);另外一种思路则不考虑词性,只从统计角度根据词之间较高的同现频率(Co-occur Frequency)来选取特征项。
采用名词短语或者同现高频词作为特征项,需要考虑特征空间的稀疏性问题。词与词可能的组合结果很多,仅以两个词的组合为例,根据统计,一个网络信息检索原型系统包含的两词特征项就达10亿项,而且许多词之间的搭配是没有语义的,绝大多数组合在实际文本中出现的频率很低,这些都是影响多词级别索引实用性的因素。