中国社会语言学(2016年第2期 总第27期)
上QQ阅读APP看书,第一时间看更新

语言规划研究

兼顾汉语语言特色的语言信息化建设研究

黄居仁  陈克健  高照明

提要  本文从语言理论与语言信息应用兼顾,人机相辅相成以及知识的累积、创造与突破这三个重要观点出发,深入探讨分析词库小组各项研究成果及其影响力。重点在中研院词库小组在汉字、词知识库、语料库、句法树库等领域建构语言资源时兼顾语言学理论,语言事实及信息处理要求的研究方法。并讨论这个研究方法在学术与应用上的意义与影响,特别是研究成果对汉语语言资源政策与标准化的可能启发。

关键词  语言资源;语言信息化建设;汉字;词知识库;语料库;词项正规化


1.概述

汉语语言信息化的研究起码可以回溯到1960年代(T’sou 2004,Huang 2004)。多尔蒂和马丁(Dougherty and Martin, 1964)是在国际学术文献中看得到最早的汉语信息化研究论文。早期的研究多集中在两个方向,计算机学者关心电脑如何处理汉字,语言学学者关心汉语方言资料库的建设(Wang 1973)。然而,中文真正能在电脑上方便使用,是到1980年代中才渐渐落实。这要大部分归功于台湾资讯界将字形内码与输入法和个人电脑/微型电脑的开发结合。1970年代初期台湾的交通大学即开始对中文字形展开研究。1976年朱邦复发明了形意检字法,两年后改良成仓颉输入法。1983年资策会设计“大五码”(Big5)成为中文共通内码,这对于亚洲其他繁体汉字圈包括香港澳门等地也产生了深远的影响。

中文信息化研究的初期,最大的挑战是如何让以英文等拼音文字为对象设计的电脑,能够有效处理中文并有方便的中文使用接口。到了80年代中期以后,电脑使用与处理中文的条件基本具备了,两岸学术界才能真正开始对汉语语言信息处理做实质的研究。1986年是汉语语言信息处理的重大里程碑。在大陆,1986年由朱德熙倡导,俞士汶主持的北大计算语言学研究所成立。在台湾,由谢清俊倡议,陈克健、黄居仁共同主持的中研院词库小组也于1986年成立1。这两个单位的成立,宣告了中文计算语言学学科研究正式展开。三十年来,中文语言资源开发与语言信息研究对中文信息处理与中文的语言科学研究做出了重大的贡献。本文将从台湾“中研院”词库小组的研究出发,回顾30年研究的成果,着重在针对汉语语言特色的一些语言资源与语言信息处理技术创新。本文中对语言资源的讨论,可参照补充黄居仁(2016,2009),黄居仁等(2010,1997)几篇讨论不同语言资源的论文。而本文对中文语言信息研究议题的讨论,可与几篇过去20年不同阶段对中文信息处理研究宏观综论探讨的文章,如宗成庆等(2009),邹嘉彦 (T’sou 2004), 黄居仁与陈克健(Huang and Chen 1996)等互有启发。讨论的几个议题,对语言资源相关的政策与标准,也有重要的提示。

2.汉字字型与部件处理

谈中文信息处理,不能不谈汉字。汉字编码的早期研究,只是单纯建表,把汉字字形符号化后对应到一个任意的电脑内码。这个方法很快解决了现在常用汉字的问题,当开始处理古籍及各种异体字(包括方言、中日韩等)就捉襟见肘了。谢清俊在80年代领导“中研院”的古籍自动化项目时2,就意识到这个问题必须从汉字内部构形的规律做基本解决。他所领导的“中研院”文献处理实验室,与北师大王宁教授团队合作,在分析所有汉字在文字学上的合理组成型态之后,将汉字逐字拆解成部件,并建置成字形数据库。在这个架构下,任何汉字都能拆解成独特的部件序。如部=立口阝,件=亻牛。需要注意的是部件呈现的顺序决定了所组成的汉字。力口=加/口力=叻;口木=呆/木口=杏等。因此部件序就等于每个汉字的独特编码。这个研究,把汉字编码与汉字构建的规律结合,从根本上解决了编码独特性、异体字编码、缺字等汉字处理的基本问题。这个技术,已被国际标准组织(ISO)的字形小组采用。部件组字并已成为汉字教学的重要学习概念。在黄居仁领导开发的“「搜」文解字”(1999)与“文国寻宝记”(2000)两个数字博物馆/数字学习网站中,已把部件检索与学习的功能融入多个字/词/文句出处检索界面与学习工具中(Huang 1999,黄居仁等2000,黄居仁等2004)3,谢清俊与庄德明并建立了“中研院汉字部件检字系统”提供各界使用4

汉字书写系统的另一个特性,有别于大多数的拼音书写文字的,是语意驱动的特性(Huang 2009a,Huang and Hsieh 2015)。如何把汉字内涵的语意信息表达并转换成信息处理可以使用的形式;特别是在语义网及大数据信息处理的环境下,如何发挥汉字带有语意内容的特性,成了另一个重大挑战。面对这个挑战所需要的,是一种新的以汉字为基础的具有丰富可处理语意内容的语言资源。“汉字知识本体”(Hantology)这个语意驱动的新语言资源由周亚民与黄居仁(Chou and Huang 2010,周亚民﹑黄居仁2013)建构而成。“汉字知识本体”以说文解字五百四十部首为基础,并以IEEE SUMO知识本体分类体系(Niles and Pease 2001)的分类架构将义符的概念予以分类。“汉字知识本体”采取与过去汉字数据库不同的方法,利用语意网的形式语言来描述汉字的知识表达。这个关键性的语言资源架构,让整个汉字系统内涵的传统知识,变成最新语意运算与大数据知识内容链接(linked data)可以操作的知识内容。“汉字知识本体”把整个汉字书写系统当成一个知识本体,而把意符所代表的基本概念当成知识本体的起始节点,也就是概念系统中的基本概念;然后把部首与字及字与字之间的关系,解释成上层与下层概念件的关系。 然后再把这些概念与关系用SUMO上层知识本体的架构描述。最后用语义网的形式语言OWL-DL及知识本体的通用程序平台Protégé来构建整个资料库。其资料库内容包括: 字形外在结构的演变、意符与声符的描述、字形内在结构、字义与衍生词、异体字关系、字音的演变等。

在“汉字知识本体”的基础上,黄居仁等(Huang et al., 2013)探讨整个中文知识体系的理论架构。这个研究以《说文》意符的意义作为造字时所表达的基本概念,分析原意符与其所衍生的汉字的意义关系,建构一个完整的知识体系;并在普斯特若夫斯基(Pustejovsky,1991)的“衍生词汇”理论的基础上,验证此假设。这个研究发现,同一个意符下所有汉字间形成一个很严谨且具丰富内容的小知识体系。而体系的构成,基本上可以用亚里士多德的感质体系(qualia)中知识四因(four causes)作为动机。而且,与亚里士多德的终极因(final cause)及普斯特若夫斯基的“衍生词汇”若相符节,都是以“致用”(telic),即概念表达对象的功能,作为概念关系中最重要、最常用的关系。把目的与用的概念带进来,不但对汉字体系有更深入的解释,在语意与知识工程上,更提供了活用汉字内涵知识的更多可能性。

3.词的界定:语法理论与语言信息处理的交叉点

词的界定,是汉语语言学研究与语言信息处理共同必须处理的最基本问题。然而两个领域处理的出发点稍有不同。语言学理论对词的界定,关心的是定义的理论基础与严谨度,以及是否与通用语法(universal grammar)一致能适用于其他语言等考虑。而语言信息处理,关心的是在语言学理论的原则下,定义是否有可操作性,操作的结果是否能具一致性,是否有利于进一步信息处理等。换句话说,在讨论如何定义词时,语言学的讨论下,定义本身就是目标与判断准则。而信息处理的讨论,定义只是指导原则,有另外客观的条件作为判准。黄居仁与薛念文(Huang and Xue, 2012)因而认为中文信息处理的分词研究,提供了以实证结果来检测语言学理论中词的定义的机会。

3.1  中研院词库小组对词的定义

词库小组对词的定义与分词原则(黄居仁等 1997,Huang et al., 2017)是所有台湾语言资源建置的基础。也是台湾《信息处理用中文分词规范》(CNS14366,2009)的基础。这个分析中词的定义为:具有独立意义,且扮演特定语法功能的字符串。这个定义,相当符合ISO24613《词汇标示框架》国际标准(Lexical Marker Framework,LMF)5中有关词的定义:任一词形-意义的独特配对为一个词项6。在分词标准的讨论中,另一个与汉语语法研究理论有较大矛盾的议题,是所谓可否单独使用(自由/附着,Free/Bound)这个语言行为的重要性。语言学理论(特别是构词学),习惯上把能否独立使用作为中文定义词的基本要素。可是,当我们全面梳理语料,很快发现,中文有很多语素从来不(或很少)独立使用;却又很常用,而且能自由与多种其他语素结合(因此符合理论上所谓“自由”的定义)。如“者”“的”等虚词,以及所有的所谓“接头/接尾词”等,如“-厂”“非-”等。因此,以上两个标准,不约而同地处理结尾/接头词的挑战,把它们视为应该单独成词项,有固定单位,并有高度自由的结合度。在信息处理上,这些单位不收入词汇库,中文信息处理基本上不可行。但它们独立为词项用,又与传统语法分析有出入。这类词的处理方式以及它们的使用分布的进一步分析,有可能会对中文词的语言学理论定义与分析有一定的影响。

在附着非独用的语言单位,也应该是汉语(信息处理)的词项的前提下,词库小组建立了常用词首、词尾字数据库7。这个数据库根据研究院语料库,收集常用名词词首字 1135个(含歧义为1197个)、名词词尾字1427个(含歧义为1610个)、动词词首字735个(含歧义为918个)、动词词尾字282个(含歧义为300个)。总计4025笔资料。名词部分,每个字提供的信息包括英文词义、词类、词林类(并列出领头词)和例子。动词部分,提供的是英文词义、构词律和例子;构词律数量则依动词特性不定。邱智铭等(2004)统计各类型复合动词内部结构的词类分布,其中并列结构的复合动词中VC占58.76%,动宾结构的词类VA占62.07%,偏正结构的词类VC占50%,而动补结构VC占60.64%。由此可知除了动宾结构的复合动词倾向不及物动词外,其他无论是并列结构﹑偏正结构或动补结构的复合动词有一半以上是及物动词。

3.2  汉语语言资源与信息处理中词项正规化问题

语言资源与语言信息研究另一个与词的定义息息相关的问题,是词项正规化(lemmatization)的问题。词项在现实语言使用中,不管是书面文本还是口语,经常以与词汇库中记载的词项不同的形式出现。这个现象在有词尾变化的语言的语言信息与语言资源处理中已充分讨论,并建立了标准的方法。词项正规化的目标,就是要把同一个词项不同的词形表达形式,规整到一起。比如说,英文的speak,speaks,speaking,spoke,spoken五种词形,处理统计是必须加总在一起,不能分开当成不同的词处理。语料库研究或语言信息处理的所有运算,就连最基本的词频统计,没有经过词项正规化的处理,不可能得到准确可靠的结果。英语语料库研究建立了词项正规化的标准解决法,主要是针对屈折变化(inflection)的问题。规则化的屈折变化(如英文过去式+ed,复数或第三人称单数加+s)用词根加构词律的方式解决。不规则变化(如child/children,be/is/am/are/was/were/been)则用列表解决。上述的speak,speaks,speaking,spoke,spoken五个词形,就需要用规则性(speaks,speaking)与例外列表(spoke,spoken)双管齐下才能解决。这是语料处理最基本的要求。

很不幸的,除了研究院语料库以外,目前为止的中文语言资源处理都忽视这一个最基本的问题。原因是,中文的构词变化绝无仅有,除了时态标记与属人的复数词尾“-们”外,几乎没有其他规则性常用的词尾。而常见具能产性的复合词,则切分成单词处理,后续在语法层次再合成较长的单位,在理论与处理上都不是问题。绝大部分学者因此以为中文不需要特别处理词项正规化。可是中文的非正规词项表达问题其实不但常见,而且很棘手,不能用英文的构词/列表法解决。中文词项正规化面对的挑战包括(1)离合词,(2)合并词,(3)不带标记的词类改变(如名物化),(4)重叠词(reduplication)。汉语语料资源研究到现在为止,可以说并没有任何一个语料库/语言资源能够把以上的四种正规化的问题都解决。换句话说,目前所有以语料库统计出来的词频,没有一个是完全正确的。

首先,中文词汇正规化的最大挑战,正是在所谓的离合词上。我们这里讲的离合词,不只是限于主谓、动宾、动补、偏正等各种复合词(或准复合词)的分离使用现象;也包含了简单的词缀中插,如“看一看”“看了看”“上过学”“吃饱饭”等。没有正确的词项正规化程序,语料库语言信息处理,并不能把上述的短句,归纳成“看”“看”“上学”“吃饭”等词项使用的实例。当然在统计词频时,一定少算了,处理时也会有所误失。汉语中更特别的,是离合词,如“吃了一顿饭”的用法。更麻烦的是,每个词的前后两个部分可以离得很远,而且中间可以插入复杂的句法结构,如“吃了一顿淡而无味,你连想都没想到的饭”。同一个词项“吃饭”在句子里不相连的两个地方出现。因此造成了不考虑句子语境无法辨识词项,但不先分词又不好处理语境与语法的两难。从语料库使用的观点,不处理离合词,词频统计与例句搜寻结果都有问题(比如说,绝大部分动宾复合动词的词频都会大量少算,大量相关的例句也会找不到)。

上述的描述点出了离合词处理的最大难处就是分词时无法查找词项,但句法处理中,如果没有正确词项,也不可能处理正确的语法语意功能,或按图索骥找离合词离分的单位。研究院语料库解决这个难题的方式,是使用成对的特征标记。例如以[+vrv]及[+vrr]来标注动补式复合词的两个不相连成分,并规定标记[+vrv]的成分及标记[+vrr]的成分必须视为一个词,以便计算机能将这两个特征配对的两个成分结合。最后,是规定带[+vrv]或[+vrr]的成分,可以带有整个动宾复合词的完整讯息(Huang 1990)8。例如“叫 他 不 醒”在语料库中是四个分词段落,而且不可能跨其他两个分词单位把“叫”和“醒”两个分词单位连接在一起。但在研究院语料库中,标为“叫Vc[+vrv]”和“醒Vc[+vrr]”的两个词段,可以靠相同词类加特征配对这两个条件,结合成一个词。找到了“叫醒”这个词,我们不但能作正确词频统计,更能够正确分析“他”为“叫醒”的宾语。类似的,离合动宾复合词,可用[+spv][+spo]这两个特征分别标注。例如“吃了他的亏”有五个分词段落,但“吃Vc[+spv]”与“亏 Na[+spo]”的标注,让语料库能处理“吃亏”这个复合动词,也让剖析器能确认“他”为“吃亏”的宾语。

第二项,合并词(telescopic compound,魏文真等1997,词库小组1997),包括了赵元任(Chao 1968)讨论过的重复省略(haplology)的现象。如“上海市长”是“上海市+市长”两个词合并而成;而“教育部长”是“教育部+部长”两个词合并而成。这是分词与词项正规化交叉的挑战。因为“市”“部”这两个字,同时是前面与后面的词的部分,因此分词分在这个字之前或之后都不对。必须分词与词项正规化一次解决,才能把“上海市长”正确处理成“上海市+市长”两个词项。合并词并非只有词中合并,也可以词尾合并(青少年=青年+少年),或词首合并(两老夫妻/老夫妻二人=“老夫+老妻”,而非“老+夫妻”),也须分词与词项正规化一起解决。另外更特别的合并词是前后重复合并,但是中间分开,如“中山南北路”(中山南路+中山北路),“地铁1、2号线”(地铁1号线+地铁2号线)。这里同样有分词与词项正规化交叉的问题,特别是合并词中并列的部分多半可以以逗号分开。而两个分词规范都规定有明确切分符号时加以切分,结果可能是前后不成词,如“中山南+北路”或“地铁1+2号线”。而这个合并词(或“套装复合词”)被切分符号硬切成两个不完整部分的问题,在研究院语料库中也以配对特征标记来解决。如“初(Nc)[+p1]、高中(Nc)[+p2]”,帮助语料库知道这两个词共享重复的部分,“初(Nc)[+p1]”并非独立词,而是某个词的一部分,并与接下来的“高中”共享共同部分。因此,这个词实际上是“初中”。

第三项,无构词变化的词类变化,如汉语名物化/动词化。因为没有构词变化,如果光靠词类标记不同,并没有办法区分同形词(如 穿制服/制服逃犯)与动词名物化/名词动词化(如他不讲理/他的不讲理)。也就是说,在语料库统计或语言信息处理时,最理想状况是两个“制服”区分而不相干;但两个“不讲理”在某些条件下需要能合并计算或能直接比较。研究院语料库用特征标记解决这个问题,所加的标为[+nv][+vn]。也就是说,同形词没有标记,词类标记明确地将它们分成两个互相独立的词。但是名物化/动词化的衍生词带有标记,可利用标记链接。

最后,这四个现象中重叠词的问题最为单纯。牵涉的仅仅是有没有用到适合的构词律罢了。在处理语料时先处理构词重叠律,就会知道“看看 你”中,“看”这个词项只用了一次,不是两次。而“快快乐乐 上学”中也只使用了“快乐”这个词项一次(而且并非使用“快快”“乐乐”“快”“乐”这些词项)。

综言之,研究院语料库在汉语语料库建设上创新的重要设计,是以特征标记集来解决汉语词项正规化(lemmatization)的基本问题。从目前的文献看来,研究院语料库是目前为止唯一解决前三个词项正规化问题的汉语语料库。研究院语料库同时也对各种重叠构词的词做了标记。因此也可以很快的处理重叠词的词项正规化问题。

4.研究院语料库标记的流程

4.1  语言学知识与信息处理相辅相成

讨论到研究院语料库如何以特征标记解决棘手的词项正规化问题,不能不解释研究院语料库标记的经历路程。研究院语料库的标记是以计算机程序标注再由人工逐一检查并修正。初期的语料库先经由中文分词程序分词,再以人工方式逐一检查分词的结果并选择正确的词性。经过人工检查分词和标记后,再以隐式马可夫模型(HMM)训练出词性标注程序。词性标注的主要依据是词库小组开发的八万目词词知识库。而词知识库中的词类分析,则是依据词库小组(1993)的词类分析。词库小组的八大词类主要根据赵元任(1968)《中国话的文法》中的分析,并将动词分成状态及动作两大类。大部分过去视为形容词的词划分为状态动词,少部分只能修饰名词的形容词则划分为非谓形容词。词库小组词类划分是阶层式的,也就是大类下面有次类。次类下又有更小的次类。每一类词都有划分的依据。动词先分成状态及动作两大类,之下又依据与动词一起出现的论元的数量﹑种类﹑位置进一步区分成若干类。研究院语料库标注集与上述中文词库小组的词类分析一致。词类标记依据下列三个原则:(1)词类标记应符合它在语境中所扮演的语法功能;(2)歧义的字符串依据实际语境中的语意及语法功能来标记;(3)歧义的字符串有不同的标记且这些标记有部分重叠之处,则按照各类型的规范处理。

以上这个标注过程最重要的是电脑与语言学专业人才的相辅相成,以及知识的堆叠累积。在电脑与语言学专业人才的相辅相成方面,电脑快速进行初步标记,专家检查更新;更正的结果经由训语料或修改规律,回馈到电脑;而回馈到电脑的方式不但是改进正确标记,更包括了利用人的知识编成自动寻找可能的错误的程序。如此纠错、更正、改进的循环,人与电脑的互动经过起码六个来回,而纯人工的校订也经过了至少四轮。这是研究院语料库在现有汉语语料库中公认为标记最精确的语料库的最重要的原因。另外,知识的累积堆叠更扮演关键的角色。上一段提到了词性标注,是依据词库小组的词知识库。词知识库中已有八万多笔词性的资料,而这个资料又是词库小组阅读文献,分析大量语料与讨论的结果。这个讨论的过程,不但使基本资料的品质提高,也使得人工检查/标记时,如果有不一致,可以在过去充分讨论的基础上解决。更重要的,词库小组解决离合词、合并词与无构词标记词类转变的词项正规化问题,也是建立在这些累积知识的基础上的。以离合词为例,如果没有词汇知识,电脑基本上是无法处理的。在词库小组的词知识库里,哪些主谓,动补,动宾动词可能有离合行为,已有详细标记。因此电脑并非凭空猜测,计算字符串中任意两个字是否成词;而是从少数几个可以离合的清单中去找。而人工则补电脑的不足,寻找可能遗漏的例子。

4.2  资源生资源,知识长知识

词库小组知识堆叠相长的研究模式,更进一步推进了语言资源成长的突破。目前全球最大的汉语分词,词类标记语料库,就是在这个知识堆叠的基础上,更上一层楼完成的。宾州大学LDC的中文十亿语料库(Chinese Giga Word Corpus)包含了中国大陆、新加坡、中国台湾三地的语料。该语料库的标记版(黄居仁Huang 2009b,2.0版)由马伟云与黄居仁完成词性标注。这个工作可视为大数据时代的语料词性标注的先驱与参考。马伟云与黄居仁(Ma and Huang, 2006)讨论了标注的过程。基本上要处理来源差异造成的编码与词汇差异问题,然后要确认自动标注的可靠性。平衡语料库的标注,靠的是词库词知识库的八万个词的知识;而十亿语料库的标注,则靠平衡语料库中所有的二十四万个词的分词与词性知识;加上整个平衡语料库的一千万词,混合十亿语料库中三地各抽取部分语料作为训练语料。词库小组过去所有知识的累积,使得十亿语料库(十四亿字,约十亿词)的自动分词与词性标记得到较高品质的结果。在这个过程中,马伟云与黄居仁(Ma and Huang, 2006)也利用汉语平衡语料库中带名物化标记作为训练语料,解决了自动标注中文动词名物化现象的问题。这两个工作更证明在知识有效累积的前提下,中文大数据的自动分词与词性标记绝对可行。

大数据时代,数据量不是问题,但如何从数据中抽取知识,反而是挑战。在十亿标记语料库的基础上,黄居仁与亚当·基尔加里夫(Adam Kilgarriff)在Sketch Engine词汇速描平台的基础上合作,完成了第一个可以从语料库中自动抽取汉语语法关系的系统:中文词汇速描系统(Chinese Word Sketch,Huang et al., 2005,Kilgarriff et al., 2005)。除了十亿语料库提供大量语料的事实支撑外,更重要的是利用了所有词库小组20年累积的语法知识,把陈克健和黄居仁(Chen and Huang,1990)提出的以讯息为本的格位语法(ICG)的模式描写的中文语法规律与讯息,转换成词汇特性速描系统中需要的上下文无关(context-free)语法模版;依靠这个模版(多半是关键词与共现词的二元或三元关系)来自动计算并提取语法关系。黄居仁等(Huang et al., 2016),洪嘉馡、黄居仁(2008)分别描述了这个系统的强大功能及在语法研究上的应用。

在语料库基础上建立深层语法知识的另一个例子是中文句结构树资料库的构建(陈克健等Chen et al., 2003,陈凤仪等 1999)。词库小组于1997年开始建立中文句结构树资料库(Sinica Treebank),建立在词库小组的词知识库中的动词论元结构分析资料及研究院语料库的词性标记资料基础上。从研究院语料库中抽取句子,以本格位语法(ICG)的表达模式为基本架构,经由计算机自动剖析成结构树,再加以人工修正。中文句结构树数据库目前发展至3.0版,包含了61 087个中文树图,361 834个词。中文句子的语法结构表达采取中心语主导原则。剖析中文句子时,词组类型由中心语决定,并且参照中心语和其他成分所记载的语法和语意讯息,表达出句子中词和词之间的语法结构和语意角色关系。这是国际间第一个表述有论元关系的树图资料库。

5.语言信息处理、语言资源标准与语言政策

前三个小节的讨论,凸显了语言信息处理、语言资源标准与语言政策间的复杂互动关系。其中最显著的例子是分词标准与词项正规化的关系。《信息处理用现代汉语分词规范》(GB13715,刘源等1993)与《信息处理用中文分词规范》(黄居仁等1997)对分词单位的定义及分词标准的规范,本质兼容而且落实执行的步骤也相似。我们可以说这两个规范呈现了当时(20世纪90年代)中文信息处理研究与语言学成果的累积。相对而言,也受到当时技术与学术讨论视野的限制。这两个规范都超过20年没有更新9。本文中提到的词项正规化,就是很好的例子。两个规范虽然承认这些分开的两个部分应该是一个词,但从计算机处理的观点看,既然两个单位被隔开,有距离,只能切成两个不同的单位。可是许多信息处理的后续引用,比如从语料库到词汇库或其他词知识库,信息抽取(包括命名实体、句法语义关系)或翻译等,都需要正规词项(lemma)作为知识处理与链接的单位,而目前中文语言信息处理缺乏对这个概念的定义。目前急需把词项正规化的概念带进来,特别是与ISO24613《词汇标示框架》(Francopoulo 2013)整合,把分词规范及其他中文信息处理的标准重新检讨更新,才能与日新月异的自然语言信息处理及现代知识工程的技术与需求结合更紧密,也能让语言资源与语言信息研究成绩更容易被语言教学等领域使用。这个更新的过程,如果能把汉字部件的概念带进来,也把非字面义(no-literal meaning,如情感极性、隐喻、反讽、通感、一语双关等)的表达与标记方法规范化,将对中文信息处理未来一二十年的发展与信息处理对社会的贡献产生即时的效应。

6.结论 :中文计算语言学的国际影响力

中文信息研究超过六十年;中文语言资源与计算语言学的研究,也延续了三十年。在国际中文处理研究界,两岸及两岸在国际发展的学者,起了引领作用。但在整个语言信息处理、语言资源与计算语言学界,中文信息处理的研究,则还未能动见观瞻。著名的Python自然语言处理套件 自然语言处理工具包(NLTK)将一部分的平衡语料库资料与一部分的句结构树资料库纳入其内建的语料库。由于相当多的计算语言学课程用自然语言处理工具包NLTK做基本教材与训练资料,这表示计算语言学研究者可以经由这两项资料,进入中文语言信息处理的领域。另外2006年第十届自然语言学习会议CoNLL(Tenth Conference on Computational Natural Language Learning)所举办的多国语言依存关系剖析竞赛中文的训练语料也是以词相关形式(dependency tree)呈现的中研院中文句结构树资料库。除了国际计算语言学会(ACL)中文语言处理小组SigHAN (Special Interest Group for Chinese Language Processing of the Association for Computational Linguistics)外,最近几次的国际语义评测SENSEVAL、自然语言学习会议CoNLL及命名实体NER辨识的评比,也加入了中文的资源与比赛。这些成绩,可说是建立在多年来几个致力于中文语言资源开发的同行累积的成果上的。

在国际学术专书中,以中文信息处理或计算语言学为主题的并不多。已出版的除了早期的黄居仁等(Huang et al., 1996),近期的黄锦辉等(Wong et al., 2009)的出版也是七年前了。所幸最近有黄居仁等(2007)(Huang et al, 2017)整理词库的研究成果即将付梓;陆勤等(Lu et al., 2018)即将完稿,黄居仁等(Huang et al., in press)收集以中文语言资源为关注点的研究也将在可见的未来出版。而黄居仁和石定栩(Huang and Shi, 2016)的“剑桥中文参考语法”,则是语料库支撑高强度语言学研究的好示范。随着中文语言资源与语言信息研究的成熟发展与足够的知识能量累积,我们期待中文计算语言学能在最近的未来,成为国际计算语言学与语言信息研究的亮点。


附注

1. 黄居仁于1987年回“中研院”后立即加入词库小组。

2. 台湾古籍信息化建设开始于1984年“中研院”的“史籍自动化计划”,在资讯所谢清俊的推动下,数年间先后完成《十三经》和《二十五史》全文数据库的建置。

3. 《“搜”文解字》1999. http://words.sinica.edu.tw/ ;《文国寻宝记》2000. http://wen.ling.sinica.edu.tw/

4. http://proj1.sinica.edu.tw/~cdp/cdphanzi/declare.htm

5. https://zh.wikipedia.org/wiki/词汇标示框架  参见Francopoulo(2013)及Francopoulo and Huang(2014).

6. 有关《信息处理用中文分词规范》的内容以及与《信息处理用现代汉语分词规范》(GB13715)间的异同对比在黄居仁等(1997),词库小组(1996)及Huang et al.(2017)有较深入的讨论。

7. http://140.109.19.103/affix/

8. 这个词项讯息重复的规定相当重要,因为如果没有这个设计,所有离合词的剖析或语意计算都无法完成。原因很简单,离合词通常是动词,大部分的剖析或语意处理,都需要句子动词中心语所带的事件论元结构来驱动。离合词如果不能提供这个讯息(或提供不正确的讯息),语法语意处理就无法正确进行。

9. 《信息处理用现代汉语分词规范》有后续局部修改,但架构与定义没有改变。


线上资源

《常用词首、词尾字数据库查询》http://140.109.19.103/affix/ “中研院”词库小组

《汉字知识本体》,http://hantology.sinica.edu.tw 周亚民、黄居仁

《广义知网知识本体架构 2.0》,http://ehownet.iis.sinica.edu.tw/ 陈克健,“中研院”词库小组

《知网》keenage.com/ 董振东 2004

《中研院汉字部件检字系统》,http://proj1.sinica.edu.tw/~cdp/cdphanzi/declare.htm 谢清俊﹑庄德明

《上古汉语标记语料库》,http://old_chinese.ling.sinica.edu.tw/ 魏培泉、谭朴森、黄居仁

《“搜”文解字》,http://words.sinica.edu.tw/ 黄居仁等

《文国寻宝记》,http://wen.ling.sinica.edu.tw/ 黄居仁等

《中文词汇特性速描系统》,http://wordsketch.ling.sinica.edu.tw 黄居仁等,“中研院”语言学研究所 中文词汇网络小组

《中文词汇网络》,http://lope.linguistics.ntu.edu.tw/cwn  http://lope.linguistics.ntu.edu.tw/cwn2/ 黄居仁 谢舒凯

《中文句结构树检索系统》,http://turing.iis.sinica.edu.tw/treesearch/ 陈克健、黄居仁,“中研院”词库小组

《中文剖析器在线测试》,http://parser.iis.sinica.edu.tw 陈克健,“中研院”词库小组

《中研院现代汉语平衡语料库4.0版》,http://asbc.iis.sinica.edu.tw/ 陈克健、黄居仁,“中研院”词库小组

《中研院现代汉语平衡语料库3.0版》,http://app.sinica.edu.tw/kiwi/mkiwi/ 陈克健、黄居仁, 研院词库小组。

《中英双语知识本体词网》,http://bow.ling.sinica.edu.tw/ 黄居仁

Sketch Engine. https://www.sketchengine.co.uk/Adam Kilagarriff


参考文献

陈凤仪、蔡碧芳、陈克健、黄居仁  1999  中文句结构树资料库的构建,《中文计算语言学期刊》(Computational Linguistics and Chinese Language Processing),第4卷第2期,87—104页。

邱智铭、骆季青、陈克健  2004  现代汉语复合动词之词首词尾研究,《第十六届自然语言与语音处理研讨会论文集》。

洪嘉馡、黄居仁  2008  语料库为本的两岸对应词汇发掘,《语言暨语言学》,第9卷第2期,221—238页。

黄居仁  2016  台湾语料库与语言资源建设,教育部语言文字信息管理司(组编),《中国语言生活状况报告(2016)》,北京:商务印书馆,259—267页。

黄居仁  2009  语言资源整合与对比研究——以两岸词汇对比研究为例。张普、王铁琨(主编),《中国语言资源论丛(一)》,北京:商务印书馆, 52—66页。

黄居仁、洪嘉馡、陈圣怡、周亚民  2013  汉字所表达的知识系统:意符为基本概念导向的事件结构,《当代语言学》第3期,294—311页。

黄居仁、谢舒凯、洪嘉馡、陈韵竹、苏依莉、陈永祥、黄胜伟  2010  中文词汇网络:跨语言知识处理基础架构的设计理念与实践,《中文信息学报》第24卷第2期,14—23页。

黄居仁、张如莹、卢秋蓉  2004  语言知识网络与数字学习:以“文国寻宝记”为例。罗凤珠(主编),《语言、文学与信息》,新竹:新竹清华大学出版社,487—536页。

黄居仁、罗凤珠、钟柏生、萧慧君、李美龄、卢秋蓉、曹美琳  2000  “文国寻宝记”与“搜文解字”——为华语文教学设计的两个数字博物馆网站。(Adventures in Wen-Land and Sou Wen Jie Zi: Two Digital Museums for Chinese Language Learning.)2000年12月27-30日。第六届世界华语文教学研讨会。台北,剑潭。

黄居仁、陈克健、陈凤仪、魏文真、张丽丽  1997  “信息处理用中文分词规范”设计理念及规范内容,《语言文字应用》第1期,92—100页。

刘  源、谭  强、沈旭昆  1993  信息处理用现代汉语分词规范及自动分词方法,北京:清华大学出版社。

马伟云、黄居仁  2006  中文动词名物化判断的统计式模型设计,《第十八届自然语言与语音处理研讨会论文集》(Proceedings of ROCLING XVIII)。

魏培泉、谭朴森、P. M. Thompson、刘承慧、黄居仁、孙朝奋  1997  建构一个以共时与历时语言研究为导向的历史语料库,《中文计算语言学期刊》Computational Linguistics & Chinese Language Processing. 2(2). 131—145页。

魏文真、黄居仁、张丽丽  1997  中文的合并词,Fifth International Conference on World Chinese Language Teaching. Taipei: World Chinese Association.

“中研院”词库小组  1996  《‘搜’文解字: 中文词界研究与资讯用分词标准》,词库小组技术报告96-01,南港:中研院。

“中研院”词库小组  1993  《中文的词类分析》,“中研院”资讯所词库小组技术报告93-05。http://rocling.iis.sinica.edu.tw/CKIP/tr/9305_2013%20revision.pdf

“中研院”词库小组  1997  《“中央研究院”平衡语料库词集及词频统计》,“中研院”资讯所词库小组技术报告。

周亚民、黄居仁  2013  汉字知识的形式表达,《当代语言学》第2期,142—161页。

庄德明、谢清俊  2005  汉字构形数据库的建置与应用,《汉字与全球化国际学术研讨会论文集》。

宗成庆、曹右琦、俞士汶  2009  中文信息处理60年,《语言文字应用》第4期,54—62页。

Chao,Yuen Ren. 1968. A Grammar of Spoken Chinese. Berkeley: University of California Press.

Chen,Keh-Jiann, Chi-Ching Luo, Ming-Chung Chang, Feng-Yi Chen, Chao-Jan Chen, Chu-Ren Huang, and Zhao-Ming Gao. 2003. SinicaTreebank: Design Criteria,Representational Issues and Implementation. In Anne Abeillé(Ed.),Treebanks: Building and Using Parsed Corpora(pp. 231-248). Dordrecht; Boston: Kluwer Academic Publishers.

Chen,Keh-Jiann,Chu-Ren Huang,Li-ping Chang,and Hui-Li Hsu. 1996. Sinica Corpus: Design Methodology for Balanced Corpora. In. B.-S. Park and J.B. Kim. Eds.Proceeding of the 11th Pacific Asia Conference on. Language, Information and Computation. pp. 167-176.

Chen,Keh-Jiann and Chu-Ren Huang. 1990. Information-based Case Grammar. Proceedings of the 13th International Conference on Computational Linguistics(COLING '90). Vol(ii): 54-59.

Chou, Ya-Min and Chu-Ren Huang. 2010.Hantology: conceptual system discovery based on orthographic convention. In Chu-Ren Huang, Nicoletta Calzolari, Aldo Gangemi, Alessandro Lenci, Alessandro Oltramari, and Laurent Prévot(Eds.), Ontology and the Lexicon: A Natural Language Processing Perspective(pp. 122-143). Cambridge: Cambridge University Press.

Dougherty, Ching-Yi and Samuel E. Martin. 1964. Chinese Syntactic Rules for Machine Translation. The Project for Machine Translation and General Automated Linguistic Systems. Berkeley: University of California.

Francopoulo, Gil. 2013.(Ed.)LMF-Lexical Markup Framework. London: ISTE.

Francopoulo, Gil, and Chu-Ren Huang. 2014. Lexical markup framework: an ISO standard for electronic lexicons and its implications for Asian languages.Lexicography, 1(1): 37-51.

Huang, Chu-Ren. 2009a. Semantics as an Orthography-Relevant Level for Mandarin Chinese. The 17th Annual Conference of the International Association of Chinese Linguistics. July 2-4. Paris.

Huang, Chu-Ren. 2009b. Tagged Chinese Gigaword Corpus 2.0. LDC2009T14. Philadelphia,Lexical Data Consortium.

Huang, Chu-Ren. 2004. Introduction to “Chinese Language Processing at the Dawn of the 21dt Century”. In Chu-Ren Huang and Winfried Lenders(Eds.),Computational Linguistics and Beyond(pp. 187-188). Taipei: Institute of Linguistics,Academia Sinica.

Huang, Chu-Ren. 1999. SouWenJieZi 搜文解字: A Linguistic KnowledgeBase Anchoring Chinese Digital Museums. Digital Museum Seminar and AP Digital Library Consortium Joint Meeting 1999. Taipei. July 21-23.

Huang, Chu-Ren. 1990. A unification-based LFG analysis of lexical discontinuity. Linguistics, 28(2): 263-307.

Huang, Chu-Ren and Keh-Jiann Chen. 1996. Issues and topics in Chinese natural language processing. In Chu-Ren Huan, Keh-Jiann Chen,and Benjamin K. T’sou(Eds.),Readings in Chinese Natural Language Processing. Journal of Chinese Linguistics Monograph Series No. 9(pp. 1-22). Berkeley: Journal of Chinese Linguistics.

Huang,Chu-Ren,and Shu-Kai Hsieh. 2015. Chinese lexical semantics: from radicals to event structure. In William S.-Y. Wang and Chao-Fen Sun(Eds.),The Oxford Handbook of Chinese Linguistics(pp. 290-305).New York: Oxford University Press.

Huang, Chu-Ren, and Dingxu Shi. 2016.(Eds.)A Reference Grammar of Chinese. Cambridge: Cambridge University Press.

Huang,Chu-Ren,and Nianwen Xue. 2012. Words without boundaries: computational approaches to Chinese word segmentation. Language and Linguistics Compass, 6(8): 494-505.

Huang, Chu-Ren, Shu-Kai Hsieh, and Peng Jing. In Preparation(2017). Ed. Chinese Language Resources: Data Collection,Linguistic Analysis,Annotation,and Language Processing. Berlin: Springer.

Huang, Chu-Ren, Shu-Kai Hsieh, and Keh-Jiann Chen. To Appear(2017). Mandarin Chinese Words and Parts of Speech: A Corpus-based Study. London: Routledge.

Huang, Chu-Ren, Hong Jiafei, Weiyun Ma,and Petr Šimon. 2015. From corpus to grammar: automatic extraction of grammatical relations from annotated corpus. In Benjamin T’sou and Olivia Kwong(Eds.), Linguistic Corpus and Corpus Linguistics in the Chinese Context. pp. 192-221. Journal of Chinese Linguistics Monograph. Hong Kong: Chinese University of Hong Kong Press.

Huang, Chu-Ren, Ya-Jun Yang, and Sheng-Yi Chen. 2013. Radicals as ontologies: concept derivation and knowledge representation of four-hoofed mammals as semantic symbols. In Guangshun Cao, Hilary Chappell, Redouane Djamouri and Thekla Wiebusch(Eds.), Breaking Down the Barriers: Interdisciplinary Studies in Chinese Linguistics and Beyond(pp. 1117-1133). Taipei: Institute of Linguistics. Academia Sinica.

Huang, Chu-Ren, Adam Kilgarriff, Yiching Wu, Chih-Min Chiu, Simon Smith, Pavel Rychly, Ming-Hong Bai, and Keh-jiann Chen. 2005. Chinese Sketch Engine and the Extraction of Collocations. Proceedings of the Fourth SigHAN workshop. 48-55.

Huang, Chu-Ren, Keh-jiann Chen, and Benjamin K. T’sou(Eds.), Readings in Chinese Natural Language Processing. Journal of Chinese Linguistics Monograph Series No. 9(pp. 1-22). Berkeley: Journal of Chinese Linguistics.

Kilgarriff, Adam, Chu-Ren Huang, Pavel Rychly, Simon Smith, and David Tugwell. 2005. Chinese Word Sketches. ASIALEX 2005: Words in Asian Cultural Context. June 1-3. Singapore.

Lu Qin, Nianwen Xue, and Chu-Ren Huang. 2018(in preparation). Computer Processing of the Chinese Language. Studies in Natural Language Processing. Cambridge: Cambridge University Press.

Ma, Wei-yun, and Chu-Ren Huang. 2006. Uniform and Effective Tagging of a Heterogeneous Giga-word Corpus. Proceedings ofLREC 2006.

Niles, Ian, and Adam Pease. 2001. Towards a Standard Upper Ontology. Proceedings of the International conference on Formal Ontology in Information Systems. pp. 2-9. ACM.

Pustejovsky, James. 1991. The generative lexicon. Computational Linguistics,(17)4: 409-441.

T’sou, Benjamin K. 2004. Chinese Language Processing at the Dawn of the 21st Century. In Chu-Ren Huang and Winfried Lenders(Eds.), Computational Linguistics and Beyond(pp. 189-205). Taipei: Institute of Linguistics,Academia Sinica.

Wang, William S.-Y. 1973. The Chinese Language. Scientific American. 228: 50-60.

Wong, Kam-fai, Wenjie Li, Ruifeng Xu, and Zheng-sheng Zhang. 2009. Eds. Introduction to Chinese Natural Language Processing. Synthesis Lectures on Human Language Technology.Williston, VT : Morgan & Claypool.

You, Jia-Ming, Keh-Jiann Chen. 2004. Automatic Semantic Role Assignment for a Tree Structure,Proceedings of SIGHAN workshop.


Language Processing Research and Language Resources Construction Motivated by Linguistic Characteristics of Chinese

Huang Chu-Ren  Chen Keh-Jiann  Gao Zhao-Ming

Abstract  This paper gives an overview of language resource construction at the CKIP group of Academia Sinica in Taiwan, including the research on Chinese characters, lexical knowledge base, corpora, and treebank as well as their impact. We elaborate on three theoretical perspectives, namely the balance between linguistic theories and their applications in information processing, the proper division and complementation of labor between men and machines, and finally how accumulation linguistic knowledge can laid foundation for acquisition of more linguistic knowledge. Lastly, we discuss the implications of the result for language standardization and policy, especially in terms of lemmatization in Chinese.

Keywords  language resource; language information processing; Chinese characters; lexical knowledge bases; corpora; lemmatization


(黄居仁  香港理工大学;陈克健  台北中研院;高照明  台湾大学)