面向应用的现代汉语语义构词研究
上QQ阅读APP看书,第一时间看更新

前言

我们所说的面向应用的“应用”主要指计算机语言信息处理和语言教学(特别是词汇教学)两个方面。

在自然语言处理领域,研究者早就开始关注语义构词问题,尽管经过半个多世纪的努力,在语义构词方面取得了一定的成果,但对于未登录词的处理并没有取得突破性的进展,其中一个重要原因是缺乏详尽可靠的语义构词规则。

1992年,苏联的谢米纳斯发表了《现代汉语词汇学》一书,不仅从形式方面和内容方面考察了词汇综合体系的语义组合结构,列出了52种语义关系,从新的角度、用新的方法分析了汉语复合词的内部结构。

国外关于语义研究最有影响的是美国布兰代斯(Brandeis University)大学的James Pustejovsky教授,他在1995年提出了生成词库理论(Generative Lexicon Theory),这一理论主张语言的意义是组合性的、动态的、生成的。一个词项的意义是相对稳定的,到了句子层面,在上下文中,通过一些有限的生成机制可以获得延伸意义。生成词库理论是基于计算和认知的自然语言意义模型,关注词义的形式化和计算,试图解释词的不同用法以及在上下文中的创新性用法。这一方法的主要目的之一是要研究语言中的多义、语义模糊和语义变化现象,可以部分地解决规则中“例外”的现象。

国内关于汉语语义构词规律的研究也比较早。早在20世纪50年代,孙常叙、王勤、武占坤等,七八十年代的任学良、李行健、符淮青、葛本仪、刘叔新等,90年代的周荐、黎良军、徐通锵、杨振兰等都对语义构词规则进行了研究。词汇学家认为,在语素组合的过程中,起决定作用的是参与组合的语素能否在意义和习惯上相互搭配。虽然绝大多数复合词可以套用句法结构模式(因为人们在造词和造句时有相近的心理模式),但在研究构词规律的基本观点上,词汇学家主张“意合”的结构方式。符淮青在《现代汉语词汇》(北京大学出版社1985年版)一书中专门设立了一章把词义和构成词义的语素义的关系归纳出了7种类型;刘叔新在《汉语复合词内部形式的特点与类别》一文中,对现代汉语复合词的内部形式做了一个概略的静态描写,他还在其他多篇文章中反复强调了复合词内部结构的词汇性质;周荐的《复合词词素间的意义结构关系》一文“从微观上剖析了每个复合词通过什么样的结构方式由两个词素组合而成”,对构词词素间的意义结构关系作了详尽的统计、归纳、研究;黎良军认为汉语词的构造不是语法问题,而是语义问题,并据此归纳出汉语合成词语义结构的10种类型;徐通锵在他的《语言论》中对原有构词法研究的理论和分析方法持否定态度,认为“汉语词的构造最主要的是语义问题”,汉语构词法大的类型有两种:向心结构和离心结构;杨振兰认为在词汇意义方面,语素义与语素义在构成词义的时候表现为三种关系,即“融合关系、综合关系和组合关系”;张志毅在《词汇语义学》一书中列出了语义组合的16种规则,也涉及语义构词规则。

近年来,由于中文信息处理的发展,汉语语义构词研究又在另一个方面有了新的需求。傅爱平等人对前人的研究成果进行了梳理,试图将这些成果应用于计算机语言信息处理,但结果不够理想。

综观以往的研究,取得的成果不少,但实用价值不高,不能解决中文信息处理对语义构词的需要,主要原因是:

(1)以往的研究大都是面向人的,研究成果的信息颗粒度比较粗糙,而面向计算机语言信息处理的研究成果则需要信息颗粒度很小的语言知识和规则,所以迫切需要面向计算机语言信息处理的信息颗粒度很小的汉语语义构词规则研究,以满足实际需要。

(2)语言学家的研究观念只是为了建立理论,能用理论解释某些语言现象就达到了终极目的,而很少考虑实际应用的问题,致使所取得的成果很难应用于实际的中文信息处理。

(3)由于研究观念和研究方法的限制,以往语言学家的研究只是浅层次的、简单枚举式的,而没有穷尽所有的语言现象,所总结的规律只是从形式方面粗线条地说明语义构词的结构类型,而没有深入到词语内部考察语素组合成词的具体规则以及每一条规则的辖域大小,以至于所取得的结论不能覆盖所有的语言现象、不能说明这些规则使用的范围,因而在计算机语言信息处理当中基本上不起作用。

那么选择什么样的策略进行未登录词处理?

处理未登录词的主要目标有两个:一是判断某个字串是不是底表之外的新词;二是如果是新词,推测它的词义和词性。虽然学者们对未登录词的处理研究了十几年,但基本上还是停留在第一个目标阶段,从目前的研究成果来看,多是对人名、地名、机构名等专有名词进行单独的识别。采用的策略可以概括为三个方面。

(1)基于统计的方法。该方法主要根据统计得到的各类用字的频度,加入构词可信度等概念进行识别。比如郑家恒(2000)就采用这种方法对中文姓名进行识别。这种方法实现起来比较简单,结合构词可信度进行未登录词识别,最大限度地考虑了前后文和经验,在一定程度上将规则“是”与“不是”的极端化转化为量化的方式来协调。但这种方法统计信息的获得,依赖于训练语料的选取,系统开销比较大,识别精度低。

(2)统计和规则相结合的方法。这种方法主要根据未登录词的用字规律和上下文特征,观察未登录词与标志位置的关系以及单词的左右结构,总结出适合大多数未登录词的识别规则,将规则应用于汉语文本的处理过程,从而识别未登录词。比如孙茂松(1994)运用中文姓名的概率分布,结合称谓表、上下文关系识别中文姓名。谭红叶(2002)运用中国地名可信度,结合上下文信息、规则识别中国地名。这些方法都是在概率统计的基础上加入规则识别。

(3)以规则为主的基于框架结构的专有名词识别。

这种方法是王蕾(2007)提出来的,该方法从专有名词自身特点和上下文环境特点出发,重新定义语料属性,然后采用基于转换的错误驱动和基于实例相结合的学习方法对文本进行标注,从而识别专有名词。

从上文总结的未登录词的研究成果和处理策略看,其研究对象主要是专有名词,而对于未登录词中非命名实体比如“蜗居”“蚁族”“裸婚”等一类词的识别进展缓慢。从未登录词的含义分析来看,未登录词识别存在以下几个难点:1)由于中文词语定义的模糊性,未登录词没有统一的定义标准,而且涵盖面广,很难找到一种通用有效的方法;2)未登录词,尤其是非命名实体,在构成方面没有普遍的规律;3)对于低频未登录词,由于数据稀疏问题,识别难度很大;4)随着社会的发展,新词的产生更迅速、变化更快、涉及面更广。它潜伏或奔突于我们生活的方方面面,它不会像新闻那样全被正式发布,却像血液一样弥散在我们生活的每根血管中。而目前计算机方面的一些困难也影响了未登录词识别的发展,主要问题有:1)没有合理的自然语言形式模型;2)如何有效地利用和表示未登录词识别所需要的语法知识和语义知识;3)如何对语义进行理解和形式化。由上述问题我们不难发现,未登录词难以识别的关键就在于缺乏详尽的语义知识、完备可靠的语义构词规则。有了语义构词规则计算机就能理解未登录词吗?对于这个问题的回答可以是肯定的,这一点可以从未登录词的特点中找到答案。

那么如何进行这项研究呢?

我们计划将这项研究分为两大块:

(一)字义整合转化为词义的规律探究

研究字义整合转化为词义,即汉语语义构词规则是识别和理解未登录词的基础,关于合成词的构成,传统的研究多是立足于语法形式方面,本研究课题研究语义构成的基本原则是:扎根于汉语词汇语义学理论研究,面向自然语言理解和机器翻译。

对于这一部分内容,我们的总体研究思路如下:

第一步,按照一个统一的语义分类体系,分别建立现代汉语字、词的语义分类信息库,尽可能获得全面、系统的字、词的语义分布信息。正是在这种思想指导下,我们本着人机两用的研究理念,引入“字位”的观念(所谓“字位”就是最小的语义构词单位,即形音义一体化的字,每个字位一形、一音、一义),遵循“一字一条、一义一条、意义与语法功能结合、非语素字单独立条”等原则将“国标GB2312”所定义的6763个汉字衍生为17430个字位,按照《同义词词林》的三级语义分类体系(大类、中类、小类)给每个字位归了类,录入数据库,建成了大型的《汉字义类信息库》。

第二步,在字、词语义分类信息库的基础上,通过统计比较说明字、词语义分布的实际情况以及二者之间的对应关系,为进一步进行语义构词规则的研究提供一个理论基础。经过比较研究,我们发现:(1)字的义类体系和词的义类体系基本一致。(2)字、词在各个义类中的分布比例基本一致。(3)从大类到小类,除了个别的类外,字、词的绝对数量多少是一致的,即除了个别类外,绝大部分类字最多、词也是最多的;相反,如果字最少、词也是最少的。可见,字与词在义类上有对应关系,大部分词的意义是在字义的基础上整合而成的。

第三步,进行语义构词规则的研究。选取一定数量的双音合成词,利用“汉字义类信息库”对构成双音合成词的每个字进行语义标注,建成大型的《汉语语义构词数据库》,在此基础上进行统计归纳,总结出由字义整合成词义的具体规则。

(二)基于数据挖掘技术的汉语语义构词规则的自动提取

在采用数据挖掘和机器学习自动提取汉语语义构词规则的方法中,我们重点就基于规则归纳的方法、关联规则、决策树和粗糙集的方法进行研究,并对它们的预测能力进行比较分析,然后将性能较优的规则学习的方法集成起来作为一个综合的汉语语义构词规则的自动提取和预测系统。

2011年我们获得了国家语委科研项目“面向信息处理的汉语语义构词研究”立项资助,取得了一系列成果,2015年结项。这一期研究成果完成了汉语语义构词的基础研究及计算机新词语语义识别的初步探索。我们注意到a+b=a=b、a+b=a、a+b=b、a+b=c、a+b=a+b、a+b=a+b+d、a+b=a+d、a+b=d+b八种语义类型中,a+b=c类不能从语素义推出词义。语言学上有一个定理:凡规则都有例外,凡例外都有规则。另外,我们意识到,搞清楚语素(字)义经过整合转化为词义的规则,不仅对人(尤其是留学生)望文(字)生(词)义识读新词语具有重要的指导作用,而且是计算机语言信息处理当中未登录词语的识别以及语义理解的重要依据。经过广泛的调研,我们发现生成词库理论、事件结构理论及隐喻转喻理论等认知语言学理论,对a+b=c类型的词语有比较强的解释力,总结出这些“例外”的“规则”,就能实现“规则”的全覆盖,为语言教学,特别是词汇教学及计算机词义识别提供基本依据,提高效率。2017年我们在原来的基础上申请了国家语委后期资助项目“面向应用的汉语语义构词研究(HQ135-13)”。后期资助项目部分主要关注的是:

1.选择生成词库理论中的物性结构与论元结构理论,以及词义转指隐喻、转喻理论,来尝试解释a+b=c类型词语语义构成途径,确定研究思路。

2.开发“a+b=c类双音合成词语义构词信息库”。选择了《汉语语义构词规则数据库》中的a+b=c类双音合成词3000多个,逐一考察其词义形成的途径及整体倾向性,建成数据库,在数据库的基础上进行分类统计。

3.名词语义构词途径,在物性结构与隐转喻理论基础上对数据库中的名词转义途径进行统计分析。通过全面深入分析总结出:①名词多是基于构词语素部分或整体充当词义的某种物性角色发生隐喻或转喻的;②名词通过某种物性角色发生隐喻或转喻的规则。

4.动词语义构词途径,在论元结构与隐转喻理论基础上对数据库中的动词转义途径进行统计分析。通过细致的分析,总结:①动词多是基于构词语素构成事件与词义代表事件间的相似或相关关系发生隐喻或转喻。其中,对于动名、形名、名名的复合动词来说,名语素的物性角色解读对于动词的词义阐释有重要的支撑作用。②动词基于构词语素构成事件与词义代表事件间的相似或相关关系发生隐喻或转喻的规则。

5.形容词语义构词途径,在物性结构、论元结构与隐转喻理论基础上对数据库中的形容词转义途径进行统计分析。通过细致的分析,总结:①对于形容词而言,其独立性较差,多是通过名词与动词或者通过事物与事件的形容描述中隐喻或转喻而来的。②形容词词义形成隐喻或转喻的规则。

6.名、动、形转指途径对比分析,主要对前面所分析的倾向进行共性与个性的研究,说明整体性的规律。

7.运用数据挖掘的方法,进行计算机自动学习,获取a+b=c类双音合成词语义构词规则,并进一步识别该类型新词语的语义,提高计算机未登录词语的识别以及词义识别的效率。

8.将以上规则运用到汉语词汇教学中,测试其实用性,并编纂《现代汉语学习词典》。

本书的创新点及价值表现在:

1.从词汇语义入手,探究汉语合成词字义(语素义)与词义的关系,开辟了一个汉语构词研究的新领域。有人认为汉语是意合型语言,语言单位的组织依靠意义的联结,经过研究,我们发现汉语合成词90%以上词义都与字义有直接或间接的联系,可以由字义推出词义。当然少量词语属于规则中的“例外”。利用生成词库理论中的物性结构理论解释了部分规则中“例外”词语的意义产生的途径,为“例外”找到了规律,丰富和发展了汉语语言学理论。

2.建立了大规模数据库,在数据库的基础上全面考查汉语语义构词的状况,总结出了一系列更深入细致的规则。利用这一研究成果在一定程度上可以提高计算机语言信息处理的水平,具有实用价值。

本书还存在一些不足,需要进一步进行研究:

1.尽管全面总结了语义构词规则,但描写较多,理论提升不足,还需要进一步凝练,提升理论高度。

2.该成果应用于计算机语言信息处理只是做了一个尝试,还需要进一步全面的实验,不断提高。

3.该项成果应用于语言教学,主要是编纂一部词典,把每个词的由语素义整合转化为词义的过程说清楚,提高词汇学习的效率。目前这项工作已经开始,我们正在主持编纂由上海外语教育出版社委托的国家“十三五”出版规划项目“当代汉语学习词典”,拟将这些成果汇入该词典,使其在语言教学中得以应用。