3.1.1 通用语言文本特征
考虑文本的内容和结构,比如词、字符串、成对文本、上下文词、词间关系等,通用语言文本特征(以下简称特征)可以划分为如下几类。
①直观特征。从文本字面上看,文本主要由字、词、句、段落、篇章构成。直观特征就是将文本用“词袋”表示,假设字词之间相互独立,如同装入一个袋子里一样。文本呈现出独立于上下文的字符组成、字符数量、字符次序等。
从字词特征出发,直观特征包括具有语义的字词、词元和词干特征,以及字词属性特征,比如分布式词向量、上下文词(窗口、位置)、词关系(词距、词长)。每种特征统计的参数可以是每个词出现的频数,还可以是TF-IDF。TF-IDF可以用来评估词对于一个语料库文档集的重要程度,用一个D×N维的矩阵表示,其中D为文档数量,N为词的个数。
从句子特征出发,文档断句之后,直观特征主要包括被统计的句子的长度、中英文(汉字、单词、数字)个数、句子中的标点数、距离相似度(分词后与分词前句子间的各类相似距离)、重复句子判断等。
②推断特征。自然语言文本除了词语的线性排序特征外,还有基于语法规则的各类结构特征,包括分词边界标注、词性标签和部分语义信息等。这些语言学特征不容易从文本直观表现中看出来,需要进行推断计算,被称为推断特征。
□词性标签:中文分词标注,通过语法规则判断语言学属性,进行概念类型标注。
□句法结构和角色:基于句法规则标记动词论元,通过短语结构树将词组成短语,展示句法依存树中修饰关系和词连接,通过语义角色标注来确认角色,说明论元相对于动词的语义角色。
□篇章关系:通过连接词揭示因果、解释、对立、顺承等句子间关系,揭示依存树、子树、词相互邻接关系,指代消解也可以揭示篇章线索。
上述词性标签、句法结构和角色、篇章关系等概念是基于语言学理论推断出的语言结构特征[2]。
③分布特征。除了直观特征和推断特征以外,文本特征还包括分布特征,也就是考虑字词上下文联系,假设通过上下文分布能够预测字词。能够通过这种模式找到相似的词义聚类词、相似的词向量、相似的句法结构。
文档中的主题分布也是一种潜在语义分布特征。比如潜在语义索引(Latent Semantic Index, LSI),通过文档-词频矩阵分析文档潜在语义;再比如文档主题生成模型(Latent Dirichlet Allocation, LDA),假设文档集有T个话题,分别计算出D个文档属于某个话题的概率,以D×T矩阵表示文档主题分布,以及文档降维后的特征表示。
④关联特征。除了从文本本身获得特征以外,还可以通过外源知识来提供文本背景信息。各类语言知识库,比如WordNet(关系、词性)、HowNet(概念体系)、FrameNet等,提供了明确关系定义的知识三元组或概念;百科知识库,比如Wikidata、DBpedia、Freebase等,提供了更多的背景知识作为文本的关联特征。当面向具体场景应用时,文本特征还可以结合外部输入进一步强化,比如从热点排名、热点标签、热点名称、热度、热点文章、主题演变等信息,形成文本的外源特征。
⑤多模特征。多模态知识包括与文本对应的图像、语音、视频等信息,比如中文字形图片充分利用汉字中的图形信息获得文字语义,增强了文字的语义表达能力。视频+音频的多模知识,融入知识表示和知识计算框架中,在文本任务中起到非常大的促进作用。