深度学习进阶:自然语言处理
上QQ阅读APP看书,第一时间看更新

2.5 小结

本章,我们以自然语言为对象,特别是以让计算机理解单词含义为主题展开了讨论。为了达到这一目标,我们介绍了基于同义词词典的方法,也考察了基于计数的方法。

使用基于同义词词典的方法,需要人工逐个定义单词之间的相关性。这样的工作非常费力,在表现力上也存在限制(比如,不能表示细微的差别)。而基于计数的方法从语料库中自动提取单词含义,并将其表示为向量。具体来说,首先创建单词的共现矩阵,将其转化为PPMI矩阵,再基于SVD降维以提高稳健性,最后获得每个单词的分布式表示。另外,我们已经确认过,这样的分布式表示具有在含义或语法上相似的单词在向量空间上位置相近的性质。

为了方便处理语料库的文本数据,我们实现了几个预处理函数。具体来说,包括测量向量间相似度的函数(cos_similarity())、用于显示相似单词的排名的函数(most_similar())。这些函数在后面的章节中还会用到。

本章所学的内容

·使用WordNet等同义词词典,可以获取近义词或测量单词间的相似度等

·使用同义词词典的方法存在创建词库需要大量人力、新词难更新等问题

·目前,使用语料库对单词进行向量化是主流方法

·近年来的单词向量化方法大多基于“单词含义由其周围的单词构成”这一分布式假设

·在基于计数的方法中,对语料库中的每个单词周围的单词的出现频数进行计数并汇总(=共现矩阵)

·通过将共现矩阵转化为PPMI矩阵并降维,可以将大的稀疏向量转变为小的密集向量

·在单词的向量空间中,含义上接近的单词距离上理应也更近