自然语言理解与行业知识图谱:概念、方法与工程落地
上QQ阅读APP看书,第一时间看更新

1.1.1 文字传承

文字是文明的重要标志之一,自然语言的过去主要是关于文字的历史。世界上的文字大致可以分为两大体系:表音文字和表意文字。最早的文字都脱胎于图画,用图像来记录词(也就是从图像中获得词的语音和语义),形成了古老的象形文字,包括古埃及象形文字、两河流域楔形文字和汉字。古埃及文字从公元前3000年使用到公元前5世纪,推测由于没有演变拼音文字而逐渐湮灭在历史的长河中。今天我们还能从大英博物馆馆藏的罗塞塔石碑中看到这类文字的蛛丝马迹,如图1-4所示,但是迄今仍然无法破解全部象形文字。

图1-4 大英博物馆馆藏的罗塞塔石碑(左)和文字(右)

图1-5是两河流域的苏美尔楔形文字,古苏美尔楔形文字从公元前3200年演变到公元初,也没有成为拼音文字,后经文化的传播和融合而逐渐被字母文字替代,发展出了腓尼基字母,成为西方字母文字的源头。这类文字没有经历过所谓表形文字和表意文字的阶段。

相比之下,汉字从最初表意的象形文字,逐渐过渡到音义结合的语素文字。1987年浙江余杭南湖出土了多件良渚文化时期的陶器,这些陶器上有明显的图文特征,其中尤以(87C3-658)黑陶罐最为突出,其图案如图1-6所示。一些专家将陶罐上的图案解释为“朱旗去石地境内网捕老虎”,另一些专家则认为这是神龙月夜在神的世界中穿越水田。这说明,在远古时代人们已经开始使用图像语言来传递信息了。

图1-5 两河流域的古苏美尔楔形文字

图1-6 南湖出土的刻纹陶罐(左)和器身图案(右)

然而遗憾的是,随着时间的流逝,很多古老的象形文字已经失去传承,人们无法理解其含义,比如图1-7中湖南农家女的女书,现在已经没有多少人认识了。文字的失传往往意味着一种文明的中断,这些失传的象形自然语言等待着被探索和发现。

相比之下,汉字是幸运的。即使到近现代,汉字中也仍然存在各种以图形来代表语义的词汇,彰显出以汉字为代表的语素文字的旺盛生命力,同时这也预示着华夏文明作为一个依托汉字汉语形成的完整文明体系屹立于世界!那么我们到底应该怎样去理解已经传承了千年的汉字?汉字为什么可以不断焕发生机,支撑华夏文明的不断延续?从下面这一段话中我们似乎可以找到一些答案,这段话出自庄子,距今已有2000多年的历史:

“良庖岁更刀,割也;族庖月更刀,折也。今臣之刀十九年矣,所解数千牛矣,而刀刃若新发于硎(xínɡ,磨刀石)……提刀而立,为之四顾,为之踌躇满志,善刀而藏之。” “文惠君曰:善哉!吾闻庖丁之言,得养生焉。”

图1-7 湖南农家女的“女书”

汉字是音意融合的文字形式,通过不断地吸收外来知识,在语用的鞭策下扩展了内涵和外延。同时,汉字形态和语法的稳定性也能够激发大脑的联想和推理能力。今天再读这段话,尽管有一些文字不认识,但仍然能够推测庖丁表达的大致含义,达到了语言理解的交互认知层次。然而为什么文惠君听完庖丁的话却感叹道“得养生焉”?这就涉及对语言上下文、语言背景以及语言推理的理解,而这样的理解才是更高一层的理解,近乎创造性的理解。这也是自然语言理解被誉为人工智能皇冠上的明珠,具有无穷魅力的原因!当然,这些理解都建立在学习了大量汉语的基础上,那么对于模仿人类学习机制的机器系统来说,又该怎么办呢?