自然语言处理技术:文本信息抽取及应用研究
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第2章
基础理论

2.1 词汇语义表示

在语义表示学习领域,词汇表示(Word Representation)即词向量(Word Embedding),是主要的研究内容,也是其他粒度文本(如句子、段落、文档等)表示的基础。分布表示学习旨在从大规模的无标注语料中,学习词表V中每个词w的向量化表示vd,其中d是向量的维度并且d≪|V|。分布表示学习的理论

基础是分布假说[1],即具有相似上下文的词汇具有相似的语义。通常,分布表示学习利用无标注语料中的词汇上下文信息学习语义的向量化表示。学习方法主要分为两类:一类是基于矩阵分解的方法,即将语料建模为蕴含语义特征的共现矩阵,并借助数学方法(如矩阵分解)进行特征学习;另一类是基于预测任务的方法,即基于语言模型中的预测任务通过给定上下文信息预测词汇的任务学习语义特征。本节对这两类方法进行了介绍。