第一章语言和文字_哥伦比亚中国文学史（全8卷）-QQ阅读男生都市网

上QQ阅读APP看书，第一时间看更新

第一章语言和文字

没有语言，便没有文学。因此我们的中国文学史，从对汉语及其书写形式汉字的介绍开始。很不走运，关于汉字和汉语有太多的民间神话和错误观念。因此，这一章会放慢脚步，专心细致地介绍汉语书写系统的基本元素和特征，对汉字和汉语根本性质的牢固把握是准确理解和真正欣赏中国文学的一道坚实基础。

首先要强调的最重要一点是，现在并不存在，也未曾有过（除了在四千年前汉语发轫时期）一种单一的汉语。像所有人类历史上日常生活中使用的语言一样，汉语随着时间和空间的变化而变化。关于中国有一个流布甚广的错误观念，即认为所有中国人（除了所谓少数民族）都说着同一种语言，仅有“口音”或者“方言”上的细小差别。关于中国语言的第二个重大误解，是认为汉语和汉字是同一的：汉字就是汉语。这一观念明显错误，但是在公众想象中却几近普遍。同样，像世界上所有其他语言一样，汉语比汉字更为根本，且先于汉字。文字是用来记录语言的衍生工具。在口语和书面语中总是有沟壑相隔。汉语和汉字尤为如此，在至少过去的两千年中二者之间横亘着一道明显的鸿沟。

在现代社会发明出或多或少可以忠实记录话语的各种机械电子录音设备之前，我们对语言的知识都依赖于书面记录。由于古代汉语口语经过数千个字符所构成的汉字的过滤，因而在某种程度上被扭曲。

要估量汉字/汉语二元性对中国文学发展带来的影响，事先必须在脑海里牢记文言和白话两种文体的分道而行。用我们熟悉一些的术语来说，文言和白话之间的区别，就好比古典希腊语和民间希腊语，古典拉丁语和现代意大利语，梵文和印地语之间的差别。这两种文体之间的分野并不绝对，但是在对于语法、句法、词法和音韵学的细微差别非常敏感的语言学家看来，其界限通常相当明显。文言文与白话文之间的差别甚大，甚至可以说是各自构成了两种不同的语言学体系。文言文基本上是一种书面语言，而书面的白话文则是一种与以阿提喀方言为主的希腊共通语言类似的民间通用语，与中国地方（特别是北方）的各种口语有模糊的纽带。一般而言，通用语无论何时都与首都方言有着最密切的联系。问题在于，中国的白话文和文言文之间的分野从来就不清晰，因为二者频繁互相借鉴。于是在唐代（618—907）大诗人如杜甫（712—770）的诗中，会有一些白话表达，而不羁的寒山和尚（约九世纪）的白话诗基本上在古典框架中写就。

中国文学史中非常引人注意的一点是，和欧洲、印度以及其他地方不同，许多汉方言从来没有发展起自己的白话文学。纵观整个中国历史，只有两种书面汉语，即文言文和通用白话文。而且通用白话文或多或少浸润了很多文言元素，与任何地方的实际口语都没有太高的近似度。

本章首先讨论汉语的起源、经典化和特征，然后考察汉字的历史和文化内蕴，最后以中国目前的语言和文学状况收尾，并兼展望未来。

若要完全专题式地讨论汉语和汉字，还应该包括其他主题，如声调的作用和标记，其他东亚文化书写系统的影响，书写材料与工具。但是这些主题过于专业，与我们这里讨论的主要理论和实用话题没有直接关系。因此，我们不会给它们留出专门篇幅，不过会在行文中提及，许多内容也会在本书其他章节中加以讨论。

·起源和亲缘关系

汉语的起源性亲缘关系至今仍迷雾重重。许多学者认为汉语和藏缅语有关联（于是，我们常听到“汉藏语系”的提法），宣称在它们之间发现了近千个同源词，但是却未能总结性地列出它们亲缘关系的确切性质和范围。另有一些学者发现南岛语族（也称为马来—波利尼西亚语族，分布在马来半岛、印度尼西亚、菲律宾、越南、中国台湾、大洋洲诸岛、马达加斯加）或其他语族同汉语之间存在亲缘关系。实际上，我们对新石器时代中华文明的复杂起源、青铜器时代诸国的首度兴起、铁器时代帝国的大一统了解得越多，也就会越清楚汉语语系的起源交织了与六种或更多考古文化之间的互动。从这些已经湮灭文化的地点和原生语言（许多仍然保留在地方族群的语言中）来看，它们都是单独的语言学实体。在这层意义上看，汉语语系是后来发展或聚合起来的，其萌芽混合了之后汇聚成中华文化的多个地区文化语言的各种元素。

公元前2000年中期至晚期，生活于黄河流域东部及其周边地区的商人基本上说着一种语言，而在公元前十一世纪中期左右，取代商朝统治北中国中心区域的周人来自遥远的西北，他们可能原来是操另一种语言的，至于这种语言究竟为何，目前仍不得而知。（很明显，周朝天子开创了征服中国的一种模式，即采用他们所征服人民的语言和文字。这一模式在历史上不断重复着。）取代周朝的秦朝创立者代表了蚕食中原的另一个军力强盛的西北边陲民族。正是秦朝，建立了延续两千多年直到1911年才寿终正寝的帝国体制。在汉语这一特定语系的最后成形中，有着复杂的各种语言元素的层层叠加。到汉代（前206—220）为止，我们今天所知的汉语语系已经明显打下基础，因而现代标准汉语之所以被称为汉语也就不是一种巧合。经过一个世纪的重建上古汉语（即先秦以及之前的汉语）的努力之后，一些历史语言学家（如柯蔚南［South Coblin］和罗杰瑞［Jerry Norman］）意识到汉代是一道分水岭或者分界线，在此共识之外，各种观点莫衷一是。换句话说，虽然就汉代以后语音再建构的主要特征，学界已经达成初步共识，而汉代以前音韵学的发掘却似乎步履维艰，有着难以克服的障碍。不仅作为整体的汉语，而且其分支都是这种情况。

毋庸置疑，在汉代和汉代以前，汉语已经（尤其从伊朗人、吐火罗人、印度人和其他族群那里）借鉴了许多印欧词汇，如轱辘、珊瑚、麦、巫、狮子、琵琶和蜜。通常的观点认为，随着汉族在历史上向南拓殖，他们吸收了长江流域和更远地区土著的语言词汇，包括用来称谓长江的“江”，还有“弩”和多簧管的吹奏乐器“笙”。深深埋藏的南亚和南岛元素的词汇和其他类型的证据，在汉语的南方分支中可以窥得端倪。这一语言学证据得到显示中国在种族、社会和文化上有着重大南北差异的各种数据（比如基因、牙齿结构、指纹、姓氏、氏族结构和活动）的进一步确证。

汉代以后，当中原处于说阿尔泰语的民族（这一中内亚语系的现代形式是土耳其语、蒙古语和满语，不过并不是所有语言学家都接受这一说法）统治下时，一股来自北方的巨大语言学影响席卷全中国，一些学者（如David Prager Branner）将之称为发生在东晋（317—420）和南北朝（420—589）的“混杂化”过程。这一包括了“词汇替代”（relexification）、词法重建和语音转换的过程即所谓的阿尔泰化。历史语言学家桥本万太郎和李讷（Charles N.Li）研究发现，在金（女真人，1115—1234）、辽（契丹人，916—1125）、元（蒙古人，1260—1368）这些阿尔泰人取代汉人统治大部分中国或者至少北中国的各朝时，这一过程以较小规模继续。

汉代以后，数千印地语词汇（有音译也有意译）同样随着佛教涌入中国，不过印地语对于汉语的结构和语音只产生了细微影响。与此相似，十六世纪中期耶稣会士以及追随他们的各路西方人士到来之后，汉语也借用了数千印欧词汇，然而印欧语对汉语语法和句法的影响并不明显。

·分类

我们会老生常谈地说起中国的“方言”（dialect），就好像中国只有一种单一语言，以及约十来种相互能听懂的变体。实际上，如果将“相互听懂”这一准绳运用到中国的语言情境，我们可以粗略得出结论，中国有数十种不同的汉语，它们又分为数百种方言和数千种子方言。（不包括属于其他语系的大量中国其他语言和方言，如蒙古语、满语、维吾尔语、哈萨克语、吉尔吉斯语、壮语、傣语、苗语、白族语、彝语和朝鲜语。）实际情况虽然如此，人们还是习惯性地提到“八大方言”（这一数量近来被一些学术权威增加到十到十一种）。我们如何解释语言现实与通常说法之间的显著不同呢？

问题部分在于“方言”一词的意义上，绝大多数词典都将“方言”等同于dialect。然而从字面意思看，它仅仅意味着“地方的言语”，被用来指谓各种相去甚远的语言实体，如维吾尔语、藏语、北京话、沪语、厦门话、闽南语、客家话、粤语和台山话（许多在美华裔说的一种粤语变体）。（早期旅欧的中国人甚至把意大利语和德语都叫做方言。）地方这一概念明显可大可小，可远可近，因此能包摄各种完全异质的语言。有鉴于此，一些具有科学思维的学者开始将“方言”与在语言学中一般指相互之间可理解的“dialect”脱钩，将之译为“topolect”这一生造的词，来保证其原初意义保留在英语中。《美国英语遗产词典》（American Heritage Dictionary of the English Language）第四版已经收录了topolect这一个词条。然而由于dialect对译“方言”的看法根深蒂固，为了清晰讨论中国的语言情境，还是有必要更加彻底地对比一下language和dialect。下面的讨论区分了政治主导的定义和语言学标准主导的定义。

language和dialect很难被单独定义，因为它们依理论概念、抽象水平和具体化程度的不同而可以有多种定义。不过有一个共识是，当把这两个术语放在相互关系中看待时，后者是前者的子类。问题在于二者之间的分界线实难分辨。

有一句被广泛引用的俏皮话“language就是装配了军队/海军的dialect”，由于粤语、沪语和苏州话等没有自己的军队/海军，所以不能被视为独立的language。先不管这句话后半段扭曲的逻辑，那耳熟能详的前半句（引号内部分）本身就不正确。仅需指出美国、加拿大、英国和澳大利亚都有自己颇具规模的陆海军，然而其国民却都说着同一种language（虽然分属不同dialect）。反过来，瑞士只有一支军队，然而瑞士人却说着起码四种language：德语、法语、意大利语和里托—罗曼斯方言。所有人都赞成纳瓦霍印第安语是一门language，它却并没有为自己撑腰的军队。当然，世界上像纳瓦霍语这样缺少一支军队的其他language有数千种。很显然，什么是language以及dialect的问题，并不能单单由俏皮话或者军事力量来决定。

必须要承认，dialect和language之间的区别是极其微妙的。比如，约克郡dialect对于中西部美国人来说，也许很难听懂，不过它仍然属于英语，来自约克郡的文化人习惯上使用着标准英语。另外，一种language在边境地区的dialect会与另一种language的边陲dialect相混合，法语和意大利语的混合即是一例。这一种边际现象，当然是“‘dialect’不等于‘language’”定律的例外。

在这些复杂现象之外，区分dialect和语言的最好办法一般仍旧是相互可理解性这条标准。如果我们将这一办法运用于汉语语系，会发现在中国有数十种相互之间不可理解的语言。仅以将近八亿人口所说的官话为例，从东北边陲到西南边陲人们说着这同一种语言，仅有“口音”的细微差别。虽然在幅员辽阔的国土上，各地官话在发音（包括语调）和口语表达上存在着巨大的实际差异，但这些地方的城市居民还是或多或少能够相互交谈的。而如果进入内陆农村或者山区，情况便完全不一样了。我们会很快发现，在这些地方，标准官话经常不敷使用，同使用本地话（也是官话）的当地人进行交谈会变得非常困难，有时甚至不可能。

处理中国的语言和dialect问题时遇到的迷惑，其最大的来源之一在于人们长久以来的定见，认为所有付诸笔端的汉语表达，代表的是单一语言学实体。这很清楚地体现在这一近乎异口同声的观点中：虽然汉语方言在说的时候，也许相互之间听不懂，但一旦写下来，就能奇迹般相互理解。换句话说，汉字某种程度上被认为具有一种将相互听不懂的口头语言转化为相互理解的书面语的能力。此即“汉字是各种方言的桥梁”这一著名概念。实际上，汉字并没有这般魔力。除了极其零星的例子，书面汉语要么是文言文，要么是官话。过去，如有人希望掌握汉字——无论他来自何方，他的母语是什么，他会去学习写文言文，或者全国通用语。他不会去写自己的方言。由于并没有说文言的群体，并且全国通用语也不是绝大多数中国人的口语，这意味着如果要掌握汉字，他必须去学习一门新的语言（或者两门——文言和全国通用语）。文言完全是一种书面语，从来不是口语。

我们可以援引印度的语言情境与之对比。在过去的两千年间，梵文在印度所扮演的角色与文言在中国类似。虽然饱学之士实际上可以说梵文（正如在欧洲的饱学之士可以说拉丁文一样），梵文却并非任何人的母语，所以必须作为一种单独的经典语言来学习。然而印度的主要地区性白话却进入书面——大多数有自己的独特文字——并发展出自身的大量文学作品。它们因此被认作独立的语言。在中国，地区性汉语白话并没有以其特有文字或者汉语被用来写作，未能发展起自己的文学。要理解中国的“语言”与“方言”之关系这一聚讼不已的问题，要牢记于脑海的关键一点是，印地语各种地区性白话之间的语言学差异程度，要比汉语地区性白话之间的差异程度（从语音、语法、词汇、句法和习语等来看）来得低（当然至少不会高）。因此，将地区性印地白话视为“语言”，而将地区性汉语白话视为“dialect”，似乎不合逻辑，或者至少前后矛盾，但是绝大多数人仍然依此分类。有些人会从共同文化角度为这一矛盾做法辩护，但是说汉语的中国人之间的文化差异肯定不输给印度人，甚或比后者更大。还有人会基于中国人都属于同一政治实体，支持将“dialect”运用于说明地区性汉语白话的做法，但是印度的政治情况也是一样的。用dialect来概括地区性汉语白话，最后倚靠的一个观点是，这些白话都使用汉字书写。不过如上述所言，地区性汉语白话在历史上并未使用汉字。即便退一万步讲，假设使用过汉字，这一事实自身也不能作为称它们为“dialect”的依据。因为根据同一逻辑，世界上现在用罗马字母书写的几百种语言（例如土耳其语、印度尼西亚语、马来西亚语、越南语、芬兰语、匈牙利语、捷克语和罗马尼亚语），就要被认为是某一语言的“dialect”了。这当然很荒谬。于是简而言之，无论语言学、文化、政治或者文字，都不能支持地区性汉语白话是“dialect”而非“语言”的陈年积见。这一积见主要是误解和误译了“方言”（topolect）一词，再加上纯粹的习惯成自然而导致的。不论其肇始者是谁，将“dialect”指代地区性汉语白话导致了语言学分类的极大混乱。

不过，汉语分类的另一个问题，正在于“汉语”“中国话”“中文”等这些在英语中一概粗略译为Chinese。它们有时被用来指代汉语语系整体，而有时候则被严格限定为官话。

解决汉语分类法的最合理方法应该是重起炉灶，将适用于其他语族的规则和标准运用到汉语上。根据这样一种分类原则，汉语就应该被视为一组语言（好比印欧语系中的印度—伊朗语族或者德语）。上文已提到，汉语究竟属于何种语系现在还没有定论，不过许多历史语言学家认为，在某种程度上汉语主要和藏缅语有亲缘关系。中文参考著作中的权威观点认为，汉语不是一种单一语言，而是“相当于一个语族”。一旦我们接受汉语是一个语族的看法，这意味着“八种（或者十种或者十一种）主要‘方言’”实际上属于语支。（如果汉语最终不能令人信服地与藏缅语或者其他语系链接在一起，那么它就要被视为自成一种语系。不过，由于汉语与藏缅语系、南岛语系以及其他语系之间的关系目前依然不明朗，我们最好还是谨慎一些，不宜将汉语当作单独的语系。）和这世界上所有其他语族一样，汉语内部有数种语言分支，在语言分支内有数种方言，再往下就是子方言。只有采用这样一种严格而系统化的分类图式，不同汉语种类之间的相互关系才能清晰起来。

·白话与文言

如上所述，中国文学在语言学上最突出的特点在于白话文和文言文之间的区别。这二者之间的边界很模糊，因为它们相互借鉴。然而，绝大多数文言文本采用一种几乎或者完全未被白话成分所污染的纯洁形式，而不含文言成分的白话文本则几近凤毛麟角，许多被称作白话文的文本实际上都饰以文言成分，或者在文言整体框架中点缀了一些白话成分。

在中国最早的书写阶段，特别强调简洁性，所以会省略许多口语部分。这也许最初是由书写工具的棘手特性（用尖锐工具在甲骨上刻字），以及文本高度特殊化的功能导致的。然而在书写开始之后，以文言风格写作便成为不可或缺的条件。无所不用其极的回指（anaphora）和省略（elision）使文言文成为作者和读者之间的一场竞技比赛。看作者在不失去读者的情况下能尽量省略到何种程度。如果不用主语还能让人懂，那么便要不计代价地去掉主语。如果双音节词或者三音节词中的一个音节就绰绰有余了，何必还要平添麻烦保留冗余音节呢？这种简约主义书写范式建立起来之后，成为一种规范，被认为是“雅”。将口语成分都保留在内的白话便被认为是“俗”，被无情地从文本中清除出去。结果导致在白话和文言之间形成了一道深壑，二者最终成为两种不同的语言形式，具有各自的语法和词汇。

这些现象并不是上古汉语书写以及它的衍生体文言文中所独有的。恰恰相反，它们在词形（甚至部分语音）于历史长河中被忽略甚至扭曲的“表意文字”（logography）书写体系中是相当常见的。例如苏美尔语一度被认为是几乎完全单音节的（正如文言在民间想象中仍然被误认的那样），或者至少仅仅是轻微粘着，只有简单的语音。但是近来研究揭示了苏美尔书面语背后的口语实际上是高度屈折的，与索卡西亚语这一西北高加索语具有类似的语音复杂度，而索卡西亚语被认为拥有比世界上任何现存语言都要多的音素。

提请大家注意文言和白话之间的巨大沟壑，并不是说二者彼此不相干。即便在书写体系最简略的形式里，以及最早的阶段中，它依然有口语的残余：缓板和快板的形式，合音词，由于同音或者连续变调（tone sandhi，语素变化由语音环境所决定）而（无意识地）使用错字，方言中的语音通假，等等。实际上，丢失曾经一度复杂的词形的过程并不是瞬时而就的，也并非完全丢失，因为在后世的口语和书面语中保留了大量前缀、中缀、后缀、元音变换（ablaut，内部语言结构的有规律变化，通常起到语法上的作用）等等，足以使历史语言学家确定元汉语（汉语的最早形态）不是一种严格意义上的单音节、孤立的（只有很少或者没有粘着形式，而主要通过词的顺序来表示语法关系）非屈折语言。

文体的简约风格部分通过重复用典得到补偿。用一两个词来暗示整个句子、整首诗或之前某位作家的文章，通过这种元语言的方法，如果读者有足够学问准确抓住并回想起作者所指的源文本，作者就可以在实际上完全没有直接叙述的情况下，传达大量（旧有）信息。古典文学中最受推崇的不少作品几乎无不包含对前人文本的大量用典和摘引。这种有意（不过通常并不公然）征引根本不会被轻视为一种模仿或者缺乏创造力的表现，反倒是文采斐然以及博古通今的标志。反过来，认不出这些作品中的所有典故和引用的读者则会被视为学养不够。文言文于是给记忆以双重重视：需要掌握的不仅有大量独立汉字（有数千个之多），还有浩瀚的经典文学作品。由于汉字和经典文学作品都与初学者原本的口语无涉，所以需要成年累月的机械背诵，以及天才的联想能力。

很自然，文言是文人的书面语，而白话则无可避免地是不通文墨的老百姓（以及文人需要交谈时）的口语。一个人说话的时候，或者自己的意思有可能不被理解的时候（在战争中或者在工作中，这种情况是相当危险的），他必须要说得明白直接。书写则完全是另一件事。书写时，因省略过多而可能被误解这件事情，给作者带来的是兴奋。就好比一个人在问：“在我没有直接说出来的时候，能够同我心有灵犀的那位读者在哪里？”另外，书写与阅读都允许实质上无限制的反复咀嚼与思量，而言谈却是瞬间的事情。一旦言者的话说出来，听者要么听懂了，要么没听懂。虽然听者也可以再咀嚼他听到的话，但交流行为本身却是瞬间性的。最后，因为汉语书写体系（下文有详述）贫乏的语音、丰富的语义和高度视觉化的特质，所以汉语书写体系会强调言谈和书写之间的沟壑。

白话和文言之间类似的沟壑也存在于世界其他语言中，比较明显的是阿拉伯语。在中国和阿拉伯语世界的双言现象（Diglossia，同一语言社区使用两种高度区分、用途各不相同的正式和非正式两种语言变体）之间，有诸多类似之处。在阿拉伯语世界中，所有的书写都使用一种叫做fusha（意思就是“雅”）的古兰经文学风格，而口语则使用多多少少很难相互理解的全国性或者地方性白话。彼此完全没有语言学关联度的汉语和阿拉伯语，它们之间这种吊诡的相似性，可以通过造成白话和文言二元局面的社会学事实和意识形态事实得到比较彻底的解释。反过来，不同的社会学事实和意识形态事实（二者决定了政治和经济事实）则似乎使（比如欧洲和印度的）白话和文学领域之间的距离不那么遥远。对于任何语言来说，在说与写之间都有文体的差异，在英语、法语、德语、印地语和孟加拉语种那里，这种差异相对较小；在阿拉伯语中，差异就很大；而在汉语中（特别是在前现代中国，但即使在今天），差异有如天壤。

一些卓越的中国学者敏锐地意识到了方言差别，如在扬雄（前53—18）传世的《方言》中，在郭璞（276—324）对古籍中晦涩词汇灵感四溅的注释中都有所体现。不幸的是，他们所收集的材料和特别的观察由于缺少进行语音标注的精确、方便又可信的方法，所以对研究而言只有有限的价值。不过，这些学者的工作极大地支持了古代中国语言风景拥有其复杂性的观点。

在中国，佛教徒进入中国之前，用白话写作是不可想象的。佛教到来之前的白话，我们发现仅有少量在两千多年的、严酷的反白话编纂过程中幸免于难。佛教到来之前汉语白话的残留，可以在文学作品中辑佚到一些，还有在近年来的新出土文本中也能发现部分。前佛教时期中国的白话之稀缺显示了这一语域中的书写并不是现在看到的这个样子。

为什么佛教促进了中国对白话的使用，其原因很多，也很复杂。首先是记录在戒律（vinaya，僧众行为的规范）中的佛陀自己的律令，即以各地区语言而不是以《吠陀》（the Vedas）中的前古典语言来传播佛法（dharma）。这样从在印度创立甫初，佛教就强烈赞成白话优先于古典。其次，印度传统对记诵文本的强调，甚于对通过书写使其传承的强调。这一对口头表达的重视以牺牲文言为代价，促进了白话的发展。第三，印度的语言学是相当精深的，可追溯到著名的语法大师波你尼（Pānini，约前500）和钵颠阇梨（Pata jali，约前二世纪）。印度对语言语音的分析，远比中国先进。当印度音韵学的概念和训练被传入中国之际，它们促进了中国学者对口语重要性的醒悟。在此之前，比起文字来，口语总体上被迷恋文字的传统学者所低估——这种迷恋近乎一种语言学上的偏执。第四，佛教在哲学上甚为轻视书面文本在捕获或者传达关于人类境况的慧见上的能力。第五，佛教在根本上持一种平等主义的社会价值观，偏好语言的民间体甚于精英体和祭司体。第六个因素在于印地经文翻译到汉语的这一过程。由于在早期阶段，绝大部分译经工作都是由外国僧侣完成的，他们对文言掌握得很有限，白话却讲得很流利，所以白话成分不可避免会出现在他们的译笔中。甚至在译经团队加入了汉人助手和译人之后，情况依然如此。对各段落意义的讨论，以及将翻译记录下来的机制，造成了在最后成品中会留有白话成分。

由于上述这些以及其他原因，佛教来到中国后，白话写作逐渐合法化。最初触发中国人白话写作的无疑正是佛教。保存在敦煌的八至十世纪的变文（见第七编第二章），是中国最早的大规模半白话文本，而在此之前的书面白话证据，则绝大部分出现在佛教文本或者佛教语境中。

虽然佛教在中国的传播在一定程度上使得白话写作具有合法化，但此中隐含的完全意义上的白话革命却从未开花结果。下面会详细讲到，中国的绝大多数白话语言从来没能转变为书写形式。甚至标准书面官话都通常杂以大量文言成分，以致从真正意义上来看，很难在语法、句法和词汇上被认为是一种白话。从白话向文言的习惯性退行，其原因有多重，下文将详述，其中最主要的有两个：一、几千年来对文言风格情有独钟的一种惯性；二、汉字特性（或者本质）一方面完美地适合文言体，自然地加强文言体，而另一方面也妨碍了白话的写作。

·地区性书面白话文的停滞发展

中国的语言情境的一个显著特征是，虽然汉族和回族人口说着无数种不同的汉语，但是在历史上真正发展起来的书面语只有两种：文言文以及现在的现代标准官话。（我们这里仅指汉语人口，而不提属于如藏语、蒙语、满语和维吾尔语等其他语系的人口，后者中有不少发展出了自己的书面文学传统。）于是，虽然拥有各自口头传统的粤语、沪语、苏州话以及其他汉语分支的人口达到数亿，他们却从未发展出独立的书写传统。这与在欧洲和印度的情况大不相同，在那里大量全国性和地区性白话文学兴盛了几百年。

在十六世纪晚期，耶稣会士以及稍后其他欧美传教士来到中国的时候，他们用罗马字母创造了许多当地和地区性白话的书面体。在十九世纪晚期、二十世纪早期，汉语改革者模仿前者，为书写当地和地区性语言创制了各种方案。然而，没有一种方案预想到今天在中国仅有的非官话书面白话文，是罗马化的台语（直到今天仍然很大程度上只限在基督教长老教会的信众中使用），还有偶尔口语化的粤语，它混合了标准、半标准和暂用汉字，再加上一些罗马化的本土或借用词（尤其是英语）。

可以明确地说，地区性书面白话文在中国没有发展起来的主要原因之一在于汉字不适合书写白话，这是让人无奈的，虽然它非常适合书写文言（其原因可以参见本章的其他部分）。台语的权威学者郑良伟曾经论及“为台语词素寻找汉字表达”，但却找不到。而北京话的小说家、戏剧家老舍（1899—1966）也曾感叹不得不丢掉许多他喜欢的京味表达，因为这些表达不可能用汉字写出来。

即使因佛教的影响，白话得到有限合法化之后，在中国唯一发展起来的书面白话文也仅仅是唐代的通用语。它的起源并不明朗（对于它是否以洛阳话或者其他地方话为基础，以及它吸收了多少南方成分［当时官话在北方已经成形很久］，学者们仍旧莫衷一是），书面通用语在宋代（960—1279）继续发展，到元朝便确定无疑地凝聚成一种全国性白话。这并不是说它成为一种正式的共通语（lingua franca，在中国直到二十世纪才出现），但至少它是地方官员以及更高层的政府官员之间的通用语言。这在汉语名称“官话”二字上可见一斑（从字面上来说，“官话”＝Mandarin<西班牙mandarin<葡萄牙mandarim<马来meneri<印度mantri<梵语mantrin<mantrah）。

官话也是一种繁荣的白话文学（特别是小说、戏剧以及各种来自口头表演的文学体裁，见第第五编第一章和第七编第三章）的基础。虽然即便在后者领域中，白话也绝对没有取文言而代之，不过在宋元明清四代，它的地位稳步提高，为1912年中华民国建立后一种书面大众化语言的广泛接受铺平了道路。除了宋词（见第二编第四章）、元曲（见第二编第六章）和一些民间乐府，在二十世纪之前，白话在诗歌中并无多少建树，在非虚构的散文中就更少。

通用语开始是作为来自全国各地、彼此难以听懂对方母语的官员之间的共同口语，虽然极小一部分官员之间会说另一种汉语。然而，不久它也被商人和僧侣采用，他们的流动性比官员还高。书面白话文学是在资产阶级而非农民或者无产者中间繁荣起来的，因为他们完全不识字且赤贫，不可能负担得起哪怕最廉价的印刷读物。

各个朝代通用语的变化，某种程度上部分是因为首都位置的变动（长安、洛阳、北京和南京），部分是因为不同朝代具主导地位的知识分子群体来自不同地区。这些因素都会引起通用语的改动而非彻底转变。

考虑到在官僚圈中的起源背景，官话是在明清两代时通用语的最合宜名称。然而，现在它在不同地区有不同名称：在中国内地，叫做普通话；在新加坡，叫做华语；在台湾，叫做国语。

在元朝，标准官话以首都（大都，也就是北京）方言为基础。到了明代（1368—1644）晚期，标准官话的地点转移到了南京，但是随着清王朝的建立又重新回到了北京。从官话历史来看，很明显官话基本上是一种与阿尔泰统治民族有密切关系的北方语言。因此在整个汉语语系中，官话在许多方面都最不像早先的汉语也就毫不奇怪了。

著名的湖南江永女书是局域或地区性书面白话文停滞发展状况中为数不多的例外。女书在二十世纪七十年代才被外界发现，这种奇特的书面形式大概创制于清代，不过当地传说倾向于将其往前推到宋代。不管它成形于何时，也不管使用这种书面形式的人数在任何时候都不超过三位数的事实，女书在理论上仍具有无比的重要性。基本上，这是一种非标准化的音节文字，包含了代表近500种基本音节的约700个不同文字（不计入音调，否则音节数会超过1300种）。女书文字绝大多数都是汉字的长菱形变体。（将女书与汉语的古体联系在一起的做法是完全缺乏历史根据的。）换句话说，在女书中，汉字被放在菱形空间而非方形空间中，另外它用来代表一种与官话发音几乎一样的语言中的所有语素。这与传统汉语的语素音节文字（morphosyllabic writing）迥异，在传统书写中每一语素（最小的语言单位）通常由单个单音节汉字表达。比如，标准汉语书写有数百个不同的汉字读音为yi（忽略音调），而在女书中，尽管有时会有2—5个字同时表示一个音节的现象，但通常还是用一个单音节字来一一对应所涉及的语素。很明显，这是对复杂汉字体系的一种巨大简化，这也使江永女子比起中国其他地方的姐妹来，学习识字变得相对容易。不过男子对这个秘密（女子有意向他们保密）一无所知，所以不认识这种文字。结果，女子便用女书来写下悲哀与不满（通常针对她们的丈夫），或者用它来写信给闺蜜。

书面白话文停滞发展状况中少有的另一个著名例外是东干文。东干人是西北的回族，他们在十九世纪晚期为了躲避清政府的迫害而逃到现在属吉尔吉斯斯坦和哈萨克斯坦地区的帝俄境内。在离开中国时，这些农民和村民中的大多数都目不识丁，不过最后他们开始以一种表音文字书写自己的语言，开始时用罗马字母，后来是用西里尔字母。用表音文字使其能够毫无音节扭曲地从波斯语、阿拉伯语、俄语和其他语言中自由借字，而汉字借字必然有音节扭曲。因此，东干语中表示“tractor”意思的词就简单写成“traktor”，而非现代标准汉语中的“拖拉机”。二十世纪最知名的东干诗人Mohamud Sushanlo的姓据说就是原来的发音——如果用汉字来写就是“苏尚洛”。东干人使用他们弹性化的表音文字来写剧本、短篇故事、小说、散文和诗歌。东干文学传统证明了汉语可以很方便地用表音文字来书写。用一种简单的拼音文字来书写任何汉语口语都不会有特别的语言学局限。毕竟，十几亿中国人每天流利地说汉语白话的时候，并不会去参考它的汉字写法。将中国人言语转换成一种文字，完全是手到擒来的事情。

虽然中国人与音节和字母的结识（虽然非常有限）已经过了将近两千年（自从佛教进入中国，以及与日本人和其他有自己书写系统的在华非汉人的接触），虽然女书和东干文证明了完全可以用音节和字母来书写汉语白话，但是作为整体的中国人（自然是在知识分子的带领下）始终不愿意采用这种文字，拒绝用当地和地区性白话文来写作。尽管许多学者对于这一始终弃拼音文字于不顾的现象大惑不解，其原因并不那么扑朔迷离。首先，汉字享有至尊地位，即便是在目不识丁的中国人中也是一样。第二，汉字文学传统已经超过三千二百年，这使得即使思考一下另一种书写形式的可能性也变得困难重重。第三，“俗”（即白话）书写不断受到中国文人的阻碍，士大夫们受到持精英主义立场的各朝政府集权力量的支持。第四，东亚地区缺乏其他有竞争力的文字体系，难以对虬根盘结的汉字传统造成真正的挑战。关于为何拼音文字以及用拼音文字写就的当地或地区性白话文没有在中国兴起，还有其他历史原因和文化原因，比如，罗马化的闽南语（二十世纪二三十年代在福建和台湾数万人口中使用）在五六十年代，被在中国大陆败给共产党且于1949年退居台湾的国民党当局无情取缔了。而如果在香港以外出版粤语读物，则有无人问津之虞（自从1997年香港归还中国，情况更是如此）。不过在过去的几十年里，中国的社会、政治、经济和文化都发生了翻天覆地的变化。这些变化再加上革命性的新信息技术，也许会在未来促成各种书面白话文的开花结果。反过来，这也会对古老而迄今为止铁板一块的中国文学传统带来不可估量的发展契机。

·汉字简史

中国最早的文字可追溯到公元前1200年左右的“甲骨文”（不过这是个现代词汇）。些许零星分散的陶器标记和其他人造器皿上的符号可以追溯到三千到四千年前，不过它们构不成可以记录一种句法清晰的语言的书写体系，而且也没有证据表明它们与后来中国文字有什么关联。这样，基于现存记录，中国的书写体系首先出现于将近两千年前，比美索不达米亚和埃及（二者都出现在公元前3000年左右，美索不达米亚明显略先于埃及）要晚。这自然生发了一个问题，即中国文字是否独立产生？以下几点证据会表明，颇有一些刺激性传播发生着作用：一、汉字看起来是在一夜之间羽翼丰满，没有经历过长期的逐渐演化过程，而在西南亚，文字产生中的这些演化有案可稽；二、汉字被证明是紧接着炼铜术产生的，并和马车的出现几乎同时，而考古学家和科学史专家已经确认炼铜术和马车都源出于西亚；三、中国文字体系的特性（基本上是具有语义量词和听觉元素的语素音节，同时也包括象形成分和表意成分等等）；四、许多学者多次独立发现最早汉字的一些字符群在视觉上和对应的西亚字符群很相像（在中国用于计数和历法的二十二个天干地支，可比之于在它之前的腓尼基人和乌干特人呈现各种变体的二十二个字母［特别是其最短形式最明显］），并且就我们所知的三千多年前它们的发音而言，它们似乎有共同的语音对应（这不必然需要黎凡特地区^[1]和中国之间有直接联系，而是某种间接传播，或者刺激物最早产生于东西方之间的某地，同时向两个方向传播）；五、大量个体汉字在形状上、意思上以及有时甚至发音上很像其西亚对应字；六、已经高度发展的汉字在最初的几百年间只服务于一种高度专门化的用途（王朝卜筮的记录），而在接下来的几百年中又用于另一个高度专门化的用途（贵族青铜钟鼎上的铭文），这暗示着汉字为贵族或者神职人员及其后继者这一小团体所垄断，他们小心翼翼地护卫着自己书写汉字的技能。以上没有哪个单独证据能够充分质疑汉字的本土原生性，但是这些证据加在一起就足以说明，不能轻易打消外来影响的可能性。

不论它何时形成，我们今天所知的汉字原来只是用来记录卜筮中的问与答，这就是上文中提到的甲骨文。甲骨文和商朝国君有密切的关系，起始于武丁（在位时期：约前1200—约前1181）及其长于卜筮和释卜的亲近顾问。这样，中国最早的文字是王室专属物，专门指派给史官卜人。然而在近东（西南亚和东北非），早期的文字有从经济管理到文学宗教等各种用途。

不能说甲骨文是出于一种文学意图，它们所触及的仅是君王所感兴趣诸主题的一小部分，但是有时也显示出某些文学效果，或者预见了后来中国文学写作的一些特质。下一时期的文字（金文）同样也是如此。金文主要是在周朝，不过重要的是，汉字在这一阶段已经伴随着青铜器流布到王公贵族一层。而且，现存最长的金文从甲骨文的十数个字扩展到将近五百字。

随着文本长度的增加，汉字的数量也激增。甲骨文单字总共加起来接近4500个（包括约1000个异体字），其中仅有1000到1500个字有后世的对应文字。周朝的金文有差不多4000个单字，其中略超过2400个字是可辨的。由于证据过于支离破碎，所以很难确定战国时代（前403—前221）丝帛、竹简、青铜和石刻铭文等中使用的汉字数量，不过肯定是超过了5000个，包括各地使用的许多异体字。秦始皇在公元前三世纪后期统一六国，“书同文”政策清除了各地的异体字和重复字，不过不久汉字的数量又再次激增。此后各时代字典收录的汉字个数如下：9353（100），11520（约227—239），12824（400），13734（500），22726（534），26911（753），31319（1066）。最近的字典收录了超过六万个汉字，有两部字典甚至收录了超过八万汉字，而几位北京大学学者甚至计划编写一部罗列超过十万汉字的大字典。汉字的这种天文级数量对于表音文字使用者而言是不可思议的，因为他们字母表中的字母通常在20到40个之间。

实际上，汉字的数量是开放的，仍然在不断增长。汉字使用者可以自由创制新字（许多人这样做了，比如在取名时，或者科学家首次发现未知元素时）。某个汉字一经创制，它就永久在汉字表中获得一席之地。这迥异于不增加字母总数而通过重新排列字母来创造新词的表音文字（莎士比亚一个人创造了将近1700个新词，比如barefaced, castigate, countless, critical, dwindle, excellent, fretful, frugal, gust, hint, hurry, leapfrog, lonely, majestic, monumental, obscene, pedant, radiance, submerged和summit）。也就是说，无论英语中加入多少新词，字母的数目（26个）是不变的。当然，汉语也可以通过组合语素来增加词汇量，而从来就是这么做的。比如在官话中，天、花、粉和板四个字可以组合成为“天花”“天花粉”（栝楼根制成的一种中药）“天花板”等等。实际上这是汉语中创造新词的标准方式，但它没有阻止新汉字的激增，这部分是因为每个时代都有全新语素产生，不过也是由于人们希望与众不同，而与众不同的方式之一就是创造新词。

很明显，人们只能记住这些天文级数量汉字中的很小一部分。若要基本能够识文断字，需要记住1000个汉字，2000—3000个汉字则足以应付大多数环境，而达到“完全识读”水平（包括读报以及就各种主题进行书面交流）则需要约4000个汉字。掌握6000个汉字（中文处理软件和常用案头字典所提供的汉字字数）是非常了不起的，而单个人是否掌握1万或者更多汉字则值得怀疑。大多数书写都习惯性地仅限于使用几千个汉字，这一现象不仅发生在今天，在中国文学的最高峰唐诗中亦如是。数万汉字中的许多字在历史上仅仅被使用过一两次，它们的发音或意义（或者二者都）很难确定。然而，字体创建者必须要考虑到这些汉字，因为它们会不时出现在文本中。信息处理专家必须准备提供至少25000个汉字以敷日常之用，即便这些汉字中的绝大多数在大多数文本中的出现频率小于十万分之一，它们仍然不时出现在姓名、历史事件、词汇讨论等中间。

汉字的数量虽然很庞大，但它明显不等同于任何一种汉语中的全部词汇，也更不等同于所有汉语中的全部词汇。实际上现代标准汉语中的词通常是双音节的，即便是文言文中也经常使用双音节或者多音节的词或者术语（包括所谓连绵字、复合字或者复音字、拟声词、同义词，以及其他种类的共同词项）。于是，虽然汉语被广泛认为是单音节的（由单音节词构成），但是经过对实际使用情况的细心分析后，我们会发现并非如此。汉语中的绝大多数语素是单音节的，但是包括英语在内的绝大多数其他语言中的语素也以单音节为主，另外在汉语中（甚至在文言中）有大量多音节语素，比如“蝴蝶”“蜘蛛”“孑孓”“琵琶”“枇杷”“珊瑚”“麒麟”“凤凰”“忐忑”“逶迤”和“尴尬”。这些词中的一部分也许在古代是包含复辅音的单音节字，而语音演化以及随之而来的音位配列导致了汉语中所有复辅音的分裂。复辅音被再分配在两个相邻音节中，这叫做“一分为二”（dimidiation），此种双音节化过程似乎在晚近的上古汉语中相当常见。并且一些学者认为，复辅音的分裂和某些末尾辅音的消失导致了汉语中声调作为一种补偿而诞生。还有一些学者则提出，这些过程也导致了双音节词数目的激增，使得汉语在面临日趋同音化时，能确保口语中有足够的词汇差异性，特别是在一些汉方言中的声调日趋减少的时候（在普通话中，现在只剩下四声：阴平、阳平、上声和去声，但在一些传统分支如闽南语和粤语中，声调要多得多）。

藏缅语中的对应词研究，以及与印欧语系、南亚语系、南岛语系和其他语系之间相互的古老借词比较，表明了汉语中原来是有复辅音的。除了上面提到的语音变动，汉字本身的音节特性也强化了复辅音的分裂，因为世界范围内的音节文字都展现了一种在结构上单个辅音加元音的大趋势。类似的语音约束，加之以上提到的对极致简洁的追求，也导致了曾经一度存在于上古汉语中的词形成分（前缀、后缀和屈折等等）的丢失。而在中古汉语，甚至在现代汉语中，这些丢失的词形成分在上文提到的阿尔泰化和白话过程中，又得到了复原，区别在于语法成分不再加于词根之上作为变化，而是作为加于语素音节开头或末尾的单独音节（书面中则为单独汉字）。

·汉字的特性

正如上文所提到，文字不等于语言，语言不等于文字。某种特定文字可以用来书写多种不同而彼此无关的语言（比如英语、土耳其语、越南语和印尼语都用罗马字来书写），而某种特定语言也可以用不同文字来书写（如维吾尔语根据历史年代排序曾用过以下文字来书写：卢恩文字［runes］、古回鹘文字［起源于阿拉米文字，经由粟特草体演变而来，是蒙文字和满文字的祖先］、阿拉伯文字、西里尔文字、罗马文字，然后又再是阿拉伯文字）。因此文字的分类与语言的分类是无关的，反之亦然。汉语的分类上面已经讨论过了，本节主要对汉字进行分类。

对于该给汉字贴上什么样的标签，仍旧未有定论。虽然在非专业文献中，经常把汉字称为“象形文字”，这是非常不正确的，因为只有一小部分汉字如山、日、马、鸟、鱼、龟，在创制之初是有意仿照事物样子的。即使是这一小部分象形字，其现在的字形，对于不熟悉汉字的人来说，也完全辨认不出来它们的象形对象。同样只有一小部分汉字——如“上”“下”和“中”等等——是表意的，而且只有接受过专门训练的人才能辨识出它们的表意之处。所以将汉字称为表意文字也不妥当。许多权威专家比较接受“意符文字”（logographic）这个提法，这意味着汉字的每个音节单位都等于一个词，因而汉语是单音节的。对汉字的更准确描述应该是语素音节型（morphosyllabic），这指的是每一个汉字单位在长度上都是单音节，传递一个基本意思。这里要重申的是，汉字的基本音节特性不能用来宣称所有汉字只包含一个音节。学者们使用语法分析、心理语言学和其他方法结论性地表明，除了汉字，汉语使用者对于其他单词的不同音节长度也有一种明白无误的感觉。

诚然，汉字基本上是单音节的，但还是有些例外，因为确实存在一些具有多个音节的汉字（有些可追溯到唐朝，甚至更早）。在这种所谓“合文”的汉字中，有比如“茾”（菩萨）、“䔶”（菩提）、“”（涅槃）、“”（某乙）、“”（营田［使］）、“瓩”（千瓦）、“”（问题）、“邗”（干部）、“”（社会主义）、“圕”（图书馆）（这些汉字当然也可以用多个汉字写出来），有些合字被广泛使用，甚至今天还能在标准字典中找到。在二十世纪，超过1000个这样的多音节汉字被广泛使用，这清楚地说明了汉语使用者有一种汉语并非完全单音节的天然的认知。这些多音节汉字多为代替许多常用词汇，所以这也预示着简化汉字的内心愿望。

另一个从十世纪后半期一直持续到十九世纪末的相关现象，是反切的使用。这是一种受佛教启发的注音方法，用两个汉字合起来为另一个汉字注音。反切时，通常写做“X Y反”，这表示X（反切上字）注声母，Y（反切下字）注韵母和声调。有时“X Y反”（三个字）经常写做“XY”（一个字）。在这种情况中，两个汉字就合成了一个汉字。这再次显示了，中华帝国晚期的学者不仅能进行语音分析——这一分析具有发展成真正拼音的潜力，而且显示了汉字体系并非毫无变通即注定是单音节以及单语素的，汉语更是如此。

实际上，在已知的最早汉字（甲骨文）中，两个甚至三个音节写成一个汉字的情况并不罕见，比如“乙祖”、“三万”、“十五发”所对应的甲骨文字。周朝的金文中双音节汉字不乏其例，如“小子”“小臣”“武王”和“文王”对应的金文。这些证据表明，在中国文字的最早阶段中，仍然有清晰的认识，即文字（和明显的词汇单位）是可以有一个以上的音节的。然而到了秦汉时期，汉字的单音节化趋势将有保留和传承价值的文本中的双音节字和多音节字几乎铲除殆尽。不过词汇单位可以是多音节的这一直觉还是保留着的，所以多音节汉字仍在不断被创造出来，如“不要”“二十”“三十”和“四十”的对应字。但是由于忠实于汉字单音节限制的压力太过强大，这些表达的合音和别的特定发音便孕育而生（分别是“甭”“廿”“卅”“卌”）。不过许多汉字双音节和多音节特质是不可否认的。而且上面提到过，许多汉语语素不止包括一个音节，因此在汉字的基本单位同时传递语音与语义的意义上，我们最好认为汉字是语素语音型或语义语音型（而非简单称之为语素音节性），而汉字的长度并不必然是单音节的。

不管我们将汉字完全称为意符型、语素音节型，还是语素语音型/语义语音型，大多数汉字（约85%，即形声字）都由一个传达语音的部分（声旁）和一个传达意义的部分（形旁）构成。不过声旁和形旁都不会准确告诉读者这个汉字的意思或者发音，而只是给出大略近似于该字的字义和字音。比如，读者也许会碰到一个字，它的形旁是三点水。三点水意味着这个汉字极有可能（但不必然）与水或者液体有关，这样我们会猜这个字也许意思是“浪”“溅”“浅”，等等。但是，仅仅从三点水来判断，我们不可能确定这个字的确切含义，只能得出这个字与水及其引申义沾亲带故。带三点水的汉字超过2000个，词义纷呈，从洁到汽、河、游、渔、泡、消、汁、液、油、酒、沟、淌、泻、沫、湿、滞、泥、淫、泪和澳，等等。仅仅辨识出一个汉字的形旁，在实际判断其词义的时候不一定会派上很大用场。同样的，读者可能会碰到一个汉字声旁为“方”（其四声代表的意思有很多，如方、妨、仿、访、舫、放、芳、枋等），而它的形旁表示它和“门”有关。只有将声旁和形旁连起来看，有经验的读者才能明白这个字读fang的第二声，它的意思是“房子，建筑物”。这一词素在文言文中是单独出现的，不过在现代标准汉语中与名词后缀或者一个同义字组成双音节词，比如“房子”、“房间”和“楼房”。另外，要确定某个汉字的意思，我们必须暂时忘记声旁（如“方”）自身也可以作为形旁，例如在於、施、游和旗等汉字中。在“旁”这个汉字中，“方”既是声旁也是形旁。

另外，许多形声字不止有一个读音，这很难用语音衍生过程来简单解释。比如上面提到的“施”字，实际上有下述多种读音：shī（施行），yí，yì，shǐ。在这种情况下（有两个及以上读音的汉字即“破音字”或“多音字”数以千计，其中最多的有十一种读音），读者必须在上下文中用直觉来判断某个字的确切读法和意思。

必须要指出的是，形声字是相对容易处理的汉字。读者要辨识剩下15%—20%的汉字，必须完全靠记忆从字形中抽取语音和语义。

虽然形声字有上面提到的种种复杂特性，但是它们的优势地位极大地支持了为汉字贴上单音节或者语素语音的标签。而且因为形声字的声旁是更重要的部分，汉字可以在基本上被视为一种附加了语义成分的音节或者语音文字体系。它由一张非标准的音节表所构成，若被标准化，现代标准汉语的所有音节可以在有声调的情况下用约400个汉字，或者在忽略声调的情况下用1300个汉字涵盖。在通用计算机字库中并不是这种简单的1：1对应，汉字和音节的比率为5：1或者16：1（后者考虑了声调）。这可以与类似的非标准化英文体系中约40个音素的15：1到40：1这一比率形成比较，英文中像sent，cent和scent这样的语义—语音词段也为英语贴上了语素语音文字体系的标签。

当我们了解到汉字体系包含了超过4万个兼具语音与语义的独立单位，便会很明显认识到汉字是一种令人费神的文字。只有花费大量时间，才能达到熟练掌握的程度。甚至像写下“打喷嚏”这样常用的词，都会遇到难以预期的困难，连中国人（除了汉字能力强的人）都很少能完全正确地写出来。中国西部约占全国六分之一国土的维吾尔自治区——新疆的“疆”字有十九画，也让很多人不堪其扰。灰心至极的他们，要么丢掉右边声旁的上半部，要么用六画的“江”这个同音字来代替，不过这样写是“不合法的”。同样的，“舞”字有十四画，也让许多舞厅经常用只有四画的同音字“午”来代替。另一个十二画的常用汉字“街”，由于它的出现频率太高，所以会让很多信笔写来的人丢掉中间的六画。“疆”“舞”“街”这三个都没有官方认可的简化形式，但是由于汉字的平均笔画是十二画，我们完全可以理解一直存在着创造出这几个简化字的强烈的冲动。运用最广泛的语音文字体系（如罗马字和日本的假名）是从更复杂的形式中演变而来的，所以汉字笔画简化的自然趋势可能将其导向一种语音文字。然而在政府和知识分子的强有力抵制下，这种趋势被阻挡了。

现代汉语中出现频率最高的语素“de”的对应汉字“的”值得我们特别关注。“的”表示所有格、形容词结尾、关系从句、介词短语和动名词等。这个汉字在文本中每间隔二十个字就会出现一次（！），一共有八画，即使其草体也让有些人觉得麻烦，所以——在私人场合——用字母“d”来代替（d是“的”拼音首字母）。“的”字的通用简化形式还没有发明出来，官方接受的简化形式更需假以时日。更具讽刺意义的是，用来书写无处不在的语素de的汉字“的”，其第二声至今还具有其原初意义“光亮，目标”（一千多年以前的发音为tiek，两千多年前的发音大概为*tiawk）。

许多人现在经常私下使用字母d来代替“de”这个频率非常高的语素。实际上，de是个多义语素，至少是三个同音语素合而为一，而在书面中则用三个不同汉字来表示。有意思的是，用来表示这三个高频率语素的三个汉字原先的字义都不包括语素所指代的意思，而是被借用了：一、上文已提到，标记所有格和关系从句的de，用实际上意思是“目标”的“的”字表示；二、标记形容词补语的de，用原初字义为“得到”的“得”字表示；三、标记动词补语的de，用“地”字表示，其原初字义为“大地”，原初发音为di。现代汉语中这三个出现频率最高的语素（在通常的文本中平均占全部汉字6.5%）的对应汉字居然是原初具有不同语义、语义上被漂白的汉字，这一事实凸显了本章前几节中提到的汉字体系和白话之间的鸿沟。于是，有些人用一划而就的d（即写这个字母的时候，笔可以不离开纸面），来代替分别为八画、十画和六画的“的”“地”“得”。

汉字极其错综复杂和难以把握的特性对汉字读写和中国文学都产生了重大影响。汉字的一些社会意蕴、语言意蕴和审美意蕴，在本章以下的讨论以及全书各章中将得到清晰呈现。

·中国传统的语言研究

中国传统的语言研究叫做“小学”，这颇为发人深省，因为其对应的是处理社会政治主题、更宏阔的所谓“大学”。前佛教时期的小学——始于公元前数个世纪——几乎完全以汉字为中心，而对于语言本身一无所涉。（在现代标准汉语中，由于受日本的影响，大学的意思是university，小学则用来指primary school。）正是佛教，说服了不情愿的中国知识界在他们珍视的汉字之外，对口语也给予应有的关注。不过直到二十世纪之前，中国传统的语言研究都还在很大程度上聚焦于汉字，对口语只偶尔投以一瞥。

模仿日语中しょうがく和だいがく的对应汉字，小学的意思变成是primary school，大学用来指university——这一事实指向现代汉语词汇形成过程中一个非常有意思的方面。即，数以百计有其原初意义的重要词汇（特别是在科学、文化、社会学、经济学和教育领域），在前现代时期从汉语借用到日语中，然后这些词汇被日语赋予新的意义（通常在西方启发下），最终带着新的词义又回借给汉语。这种“往返词”包括了文学、文化、文明、语法、词汇、物理学、铅笔、演讲、讽刺、学士、博士、艺术、决心、具体、安全、封建、方面、法律、模特、保证、表达、观念、意义、自由、阶级、改革、革命、环境、课程、计划、经理、经济、权利、自我批评、机械、机会、机体、抗议、讲义、故意、公司、结构、教育、教授、共和、劳动、理解、流行、政治、社会、进步、信用、支持、思想、自然、方法、宗教、主席、便当、投机、预算、运动、游击，等等。（其中特别有意思的一个词汇是China在汉语中的对应词“支那”。China来自于秦朝的chin，后被梵语借用为Cīna，而最晚到唐代，这个词又回译为汉字“支那”，并远渡重洋到了日本。所以，“支那”基本上是一个“二度往返词”。“支那”这个词现在在中国是禁止使用的，因为在二战时被日本官兵所污，除了有些学者出于特殊历史效果仍偶尔使用它。）现代汉语词汇中更大的一个子类（用来对应英语中具-ology和-ism词尾的词汇）也是最初为日语所生造出来以对应西方概念，后来又为汉语所借用。与以上列举的“往返词”不同，这类词汇在汉语中原来并不存在。

对汉字的首次彻底考察是许慎的《说文解字》，这部完成于公元100年的作品至今仍作为与汉字有关事物的“福音书”而被频频征引。许慎将所有汉字分为六大类：

1.“指事”，属表意文字；

2.“象形”；

3.“形声”，形声字包含一个声旁和一个形旁，大多数汉字属于这个类别；

4.“会意”，字义由其组成部分的合义构成（如仁，言，信）。这是一个错谬的类别，因为实际上并没有哪个汉字是起源于这种方式；

5.“转注”，这是一个晦涩的类别，它试图解释人们所认为的具有近似形状而相互之间轻微变形的汉字。有些成对的汉字之间具有非常微小的字形区别；

6.“假借”，这个类别涵盖的是同义词，同义词在金文中相对突出。

以许慎“六书”为代表的汉字研究一般被认为是中国的词源学。实际上，严格而系统化的汉语词源科学从未在中国建立起来。而词源学的基本内容——最早的使用以及词形词义的变化，告诉我们真正的词源学处理的是词的源流和演变。它包括词根和词素的语音语义分析，以及它们在不止一个词根的词汇中的结合。词源学关涉的是词的源流与演变，而非字的演变。中外学者正在合作编写一部中文的词源学词典，将于二十一世纪问世。

《说文解字》的另一处瑕疵在于，即使是它的汉字研究也只以年代追溯到公元前三世纪左右的小篆为基础。小篆与之前的金文、甲骨文有长达千年的时间距离。结果是许慎对汉字字形的解读经常是严重错误的。由于未能意识到字从起源时到他所处的东汉，其间会发生何等巨大的语音转变，许慎有时在分析字的发音时会谬以千里。虽然有这么多不足，许慎还是被追认为中国的语言研究（更精确的应该是汉字研究）创始人，他的《说文解字》也成为后世这一领域著作的标杆。

许慎的最伟大贡献之一在于他抓住了如何给数千汉字排序这一至今让信息专家头疼不已的重要问题。许慎的解决方案是创立540个形旁部首，然后将所有现存汉字分门分类在540个部首之下。到了清代的《康熙字典》，部首慢慢削减为214个（其排序法实际上早在明代的1615年已由梅膺祚所创立）。当我们考虑到如下事实，才能充分理解这一体系令人生畏之处：一、一个汉字可能包括两个、三个甚至更多部首，这让人很难确定它到底属于哪个部首（比如只有九画的“章”字，却有不少于五个可能的部首）；二、因为有要将它放进汉字的方块形状中这一削足适履的习惯，部首很可能会以变形的面貌出现；三、即便成功辨别某字的“正确”部首，一个部首之下有可能会包括数百个汉字，这便又提出了一个如何给部首之下的汉字逻辑排序的复杂问题。（通常的方法是根据减去部首之后的剩余笔画排序，但实际笔画数有时候也是模棱两可的，同时如在“木”或“心”部首的七画下，会超过一百个汉字。）除了用许慎发明的部首法查字带来的困难之外，部首分类法的存在还或多或少排除了汉字逐渐演变为语音文字的可能性，因为这一分类强调所有包含一个以上成分的汉字（绝大多数汉字）都能这样进行分析，这样它们就能被视为包含一个语义成分——不管被分配的语义是否在该词的词源学演变中确有其事。

如何排列（反过来就是如何查找）数万个汉字这样一个头疼的问题，导致产生很多其他方法。中国传统的类书经常根据名词概念（如天、地、人、岁时、鸟兽或者草木）来组织。而在吸收了印度音韵学之后，汉字开始根据音律这一高度技术化的体系来分组，一共出现过数百种排序和查找汉字的其他方法（四角法、上下笔画法和笔画顺序法等）。大多数方法发明于急迫追求效率的二十世纪，此时的中国词典编纂者面临着前所未有的国际经济和文化竞争压力。汉语使用者越来越发现拼音是最简易快速的检字方法。（这一点从图书馆词典中拼音检字表的污损，以及非专业打字员的一般电脑使用者的输入习惯那里得到证明。）对所有词汇（单音节、双音节以及多音节）来说，完全的字母音序排序正在成为比首字排序更受欢迎的方法。在词典编纂领域和信息以及计算机科学领域都是如此。

除了《说文解字》，中国传统的语言研究中另一部标杆性著作是东汉刘熙的《释名》（约200）。《释名》的主要分析技术是“声训”，就是用声音相同或相近的字来解释词义。于是基本上，它试图用双关法来解释词汇的起源与关联。虽然这让《释名》多少具有音律研究方面的价值，但是对于词义和词源研究而言，就很难采信。

概括一下本节以及前两节的主要观点：汉字既非完全语音，也非完全语义。只有通过其语音部分和语义部分的结合，汉字才成其为汉字。汉字的这一典型双重特性使之在世界现存通行文字中独一无二，这对于艺术和文学都具有重要意义。

·汉字的审美特征

前面几节旨在澄清关于汉字的几种错误概念，但是有一种广为接受的概念却毋庸置疑：汉字之美。即使目不识丁者一般都觉得汉字有大美，这一事实表明了汉字之美是一种共识。上文已提到，汉字不是象形文字，而是高度视觉性的。这样，汉字就和书法有一种亲近感。当书法家写下与木、水、山等有关的汉字时，他可以将木之苍虬、水之灵动、山之肃穆赋予这些汉字。即便视觉特征不是很明显的汉字，书法家的情感也能很容易地从作为弥补的字形变化中找到宣泄出口。当然，这些情感的表达用阿拉伯文字、罗马文字和其他文字一样可以实现，但达不到这么看似无拘无束的程度。

书法在中国士大夫的世界里的重要性如何强调也不为过。从甲骨文到金文，以及在春秋（前722—前481/463）战国时期大量地区异体字的出现，秦始皇的“书同文”，再到各种主要书法体的演变——大篆、小篆、隶书、楷书、行书和草书——每一个阶段的字体都在其通行时代过去之后，作为一种书法体被运用，得到永久保留。书法是文人生活的中心，所以笔墨纸砚有“文房四宝”之称。即便在今天，知名人物的墨宝还是得到高度珍视，人们热忱地拜请书法家撰写书名、店名和其他公用展示性文字。中国人对汉字的这份浓情也传到了其他东亚国家——日本、韩国和越南——实际上，这三个国家中最早的已知文本无一例外都是用汉字书写的（见第七编第七至九章）。汉字的高度视觉化特性导致文学与艺术之间界限的模糊化。一位诗人在墙上题诗，与仅高声口占有很大不同。他同时在视觉性和文学性地表达自己。类似的，一位书法家在卷轴上写下一首诗，通过笔画的厚重度、墨的浓度、字的布局等表达自己的同时，他也必定传递了诗句的文本情感。

因为在中国，艺术与文学的分界线并不总是泾渭分明，如用绘画表现诗句，在绘画上题字、极具个性的签名和印章。文学与艺术的结合作品已然超越了单维度的语言或者视觉。

诗与画的结合于是成为中华文化的一个典型特征（见第二编第十四章），因为这对于使用字母或者音节文字的文化而言是不可思议的事情。字母和音节文字的纯粹语音特质导致了语言与视觉之间的二元分立。而相反，汉字的半语音半语义特性为这一二元分立架起了桥梁，很自然地为艺术与文学的微妙中介形式提供服务：回文、变位词（anagram）、视觉双关语和字谜、刻有铭文的雕塑、同时也是绘画的地图、同时也是地图的绘画，看上去是人像的一个或一组汉字等等。虽然东西方批评家经常提出，汉字的特性可能抑制了西方人所熟悉的抽象和分析思维（知识论、本体论、线性逻辑、笛卡尔的二元实在论、假言命题等）的发展以及白话文学的繁盛，不过它的最强力量却在于其无边的具象性。熟悉汉字者认识到，汉字为纯粹语音文字的使用者不易到达的观照、感受和冥想打开了视域。

汉字对文学的意蕴

汉字的特征对中国文学产生了巨大影响。汉字对文学的影响涵盖了作品的技术性和语言学，以及社会学和人生观各个方面。

首先，汉字在中国享有至尊地位。掌握汉字者拥有不可比拟的力量。甚至目不识丁者都对汉字怀有敬畏感。汉字的这种近乎神秘的性质在1984年的电影《黄土地》中一览无遗。在《黄土地》中，目不识丁的农民请不起人写对联。当他们把对联贴在门框上希望能带来福气时，我们惊诧地发现，对联上只画了几个圆圈，用来代表字。究竟是什么使得汉字受到如此礼遇，其原因值得深思。

可以列出的方方面面无疑有很多：内在特性、历史遗产、宗教和意识形态情结，等等。然而不管这些因素有多少，这些因素实际上是由少数精通汉字者（也即能书写流利文言文，占总人口的约2%）无与伦比的社会政治权威所支撑的。两千多年来（起于汉文帝时期［在位时期：前180—前157］公元前178年的“对策”，历史上时断时续直到1905年，7世纪以来尤盛），对汉字的精通程度通过在科举考试中的表现来衡量。在科举考试中表现出优异书写才能的考生，锦绣前程指日可待，官运的亨通总是会带来财富与权势。结果，才华出众者都希望通过科举考试，因为这不仅意味着一种荣耀，更因为这将为他的整个大家族带来“千秋万代”的兴盛。

汉字享有如此崇高的地位，所以它当仁不让地使文字优越于言语。这与印度、希腊和其他古代文化相反，在这些地方，祭司、先知、演说家和吟游诗人之所以受到尊重，是因为在他们头脑中有智慧与美，当有要求的时候，能够滴水不漏地背诵这些文本。在中国，文字优于言语的地位是由文人丝毫不被质疑的权威所决定的。文人精通深奥的汉字，反过来也创造出关于文学诸形式的一种特别格局，居于此格局顶端的是史书（记录君臣大事）、道德论文（强化了社会政治秩序）、抒情诗（表达文人最深沉的抱负）。就这样，复杂的文字体系和文人主导的社会政治秩序相互加持，抗拒任何变革的可能性。

中国文学史专家经常为七零八落的古代中国神话，以及缺少堪与《摩诃婆罗多》《罗摩衍那》《伊利亚特》和《奥德赛》比肩的伟大史诗而大惑不解。神话与史诗基本上都是叙事的、起源于“说唱者”口头保存的故事，在古代中国的文学格局中自然处于低贱之位。叙事文学最终还是发展起来了，但是首先以历史（见第三编第一章）特别是历史传记（见第三编第二章）为伪装，其次更为纵情的是借佛教之光——佛教给中国带来了对好故事热情洋溢的印度式热爱。

汉字第二个显而易见的特征在于它的方块形状。不管一个汉字的笔画是二画还是四十二画（笔画最复杂的汉字多达六十四画），它都占据同样大小的方格，所以汉字也叫方块字。并且，大多数汉字都是具有强大语义携带能力的语素（或者被视为语素）。最后，汉字传统上以连续行书写（仅受到书写表面长度的限制），中间没有任何中断或者空间，也没有任何标点。中文这些特点对于汉语和文学的意蕴相当深远。中文还有以下补充特征：（1）屈折词缀的丢失；（2）省略部分对于传递语义并非必不可少的词句；（3）在诗歌与散文中极端强调（词汇、语法和句法的）对仗；（4）对双音节耦对与结构的强烈偏好；（5）强制性词序（主谓宾，修饰词在被修饰词前），只有极少数倒装的例外情况（与为了效果可以自由改换语句成分位置的拉丁文以及其他屈折语言不同）。这些现象明显会以各种方式给中国文学上色。

中国文学史充满了中文这些特质（以及本章中提到的汉字的其他特质）所带来的影响的生动例子。总体而言，简洁被抬到了极其重要的位置，情感、情绪和印象的表达价值被认为高于逻辑分析思维能力，同时拥抱具体意象，冷落抽象概念。每当中国的作家、词典编纂者和评论者想要定义某物时，他们经常借助于文字双关。两个汉字的发音如果很接近，人们就用它们来相互解释，而罔顾其各自的实际词源。虽然对于词源考察而言，这是一种很危险的方法，但是几乎所有前现代中国学者都心照不宣地信任它，频频借助于它。迷恋于狭隘的文字双关，这生动表现了汉字的权力和威望。这一声势浩大的权力和威望，使得汉字不仅对文学，还在一定程度上对语言本身起到了塑造性作用。

·现状及其展望

汉语很可能已经存在了至少四千年，汉字的使用也超过了三千二百年。中国文学可以追溯到约两千六百年前，于是中国的文学传统有着悠久历史。虽然和中国的政治体制和意识形态体系一样，中国文学在其悠久历史中也体现了全面的稳定性和延续性，但也不乏重大变化。文字发生变化，语言发生演进，文学类型来了又去，文学潮流起起落落。然而，在二十世纪，汉字、汉语所经历的变化以及这些变化对文学的影响大得令人震撼，让人不禁思索，在未来类似强度的变化是否会导致全新的语言和文学形式在中国的兴起。

当1911年清王朝被推翻时，一起轰然倒下的还有延续两千多年的官僚体制和帝国结构。随着士大夫阶层的消失，挑选士大夫的儒教为导向的考试制度也土崩瓦解，到此时支撑着士大夫与科举考试的病态的文言才正式寿终正寝。虽然代替它们的民主政体和白话（中国改革者于二十世纪二三十年代所提倡的）至今仍没有完全成熟。不过几乎可以肯定的是，帝国政权、儒家官僚体制和文言文不可能再还魂，尽管颇有一些海外学者及其国内支持者鼓吹所谓“新儒家”。

甚至在清政府被推翻前，至少部分受到耶稣会学者利玛窦（Matteo Ricci，1522—1610）和金尼阁（Nicolas Trigault，1577—1628）字母推广工作的启发，中国的语言改革家已经开始讨论采用一种大众容易掌握的文字。关于汉字的缺点，二十世纪中国最著名的作家鲁迅（1881—1936）在写于1934年的一本小册子《门外文谈》中对此有睿智的审视。去世前，鲁迅据说在病榻上疾呼“汉字不灭，中国必亡”。即使鲁迅并没有真正说过这句话，在二十世纪三十年代末颇有一些人士希望代他完成此“遗志”。不管这句偏激之语是如何流传起来的，它确实显示了汉字能够激发起如此强烈的情绪。

清王朝之后的民国政府实际上向汉字改革家的目标行进至半途，创立了两种辅助语音文字（国语注音符号和国语罗马字——一种巧妙的拼声拼音体系）。国民党残部1949年败走大陆，溃退到台湾之后，兼用了这两种体系。中国共产党取得政权之后，迅速推广了更为激进的语言改革运动。共产党弃用了国语注音符号和国语罗马字，转而创立了一套叫做拼音的罗马字。拼音现在由联合国和国际标准组织认定为现代标准汉语的正式注音标准。在中国，拼音被广泛运用在各种标识上，为信号、电报系统、考古标记、科学术语和公式以及计算机应用服务。（中国的盲文总是采用以语音为基础的这种或那种并不指示词义的拼音体系。）中国所有的学童都用拼音学习读写，在某些实验校区，学生允许使用拼音到六年级。另外，政府现在颁布了拼音使用规则，具体规定了如何以及何时在词汇之间留空格、进行大写、斜体等等，对于仅仅写汉字的人来说，这些都不需要考虑。（包括杰出的信息科学家冯志伟在内的一些专家已经郑重其事地提议在汉字文本之间进行空格。）虽然原来只是作为一种标音，一种为了特定用途而创制出来的辅助性文字，如今拼音在事实上的双文制（digraphia）中已逐渐跻身于正式成员之位。在这逐渐成形的双文制中，另外一位成员也就是汉字。汉子自身发生了翻天覆地的变化，导致过去三四十年没有在中华人民共和国待过的人会有辨认和书写方面的问题。数千个常用汉字被极大简化或者被清理出汉字队伍。中国内地使用的简体字与台湾通行的繁体字大相径庭，独立自成系统，它们的字形和给人的感觉都差别很大。而且中国出版界的通行做法是用简体字印刷古代文本，这经常导致混淆与困惑，因为一个简体字会代表好几个繁体字。中华人民共和国政府希望通过简化汉字使复杂而费时的汉字变得比较容易学习和运用，来实现减少文盲率的目标。由于大多数中国人都乐见于继续使用简体字，所以最终可能会出现一种三文制局面：简体字用于大多数一般用途，繁体字用于古典研究和历史研究，拼音则用于技术性和国际性场合。实际上，这一种三文制一定程度上在今天已经存在。于是，我们可以说，在二十一世纪的门槛上，作为一个整体的“汉字系统”由三个子系统组成：简体字、繁体字和罗马拼音。

虽然有些人也许会失望地将这一错综复杂的情形视为乱象丛生，但也有一些人会将其视为一种挑战而大加欢迎，并开始试验新的书写形式，以迎接扑面而来的复杂局面。当代艺术家徐冰（生于1955年）用他称为“天书”的文字创作了大量作品。徐冰的书和画作包含了数千个精心处理的汉字，看上去像繁体字，但是没有一个字是真实汉字。徐冰所做的，是打乱繁体汉字的各个成分，然后将它们重组在方块中。观众有时大惑不解，他们会花数小时努力“阅读”徐冰的艺术/文学，但是几乎没人能“读懂”它。徐冰惊人的艺术成就在于他解构了传统中国文学和传统中国艺术的同时，又将它们紧紧拼合在一起。

一些人开始在汉字中夹杂拼音。一个臭名昭著的例子，是二十世纪八十年代的话剧《Wo-men》（我们），其标题只用了拼音wo-men，并且在一些版本的全部台词中，全部用拼音wo-men来代替第一人称复数“我们”。这让人很难确定作者（来自某军事单位的集体作者）笔下的wo-men准确所指何意（可能是对英文单词woman的微妙双关语——即所谓的“伪友”^[2]），不过在它开演之前，政府就迅雷不及掩耳地封禁了这部话剧。

现代中国文学中对罗马字的使用甚至发展到了在文本中直接插入欧洲语言的原词和原句。台湾诗人渡也（生于1953年）娴熟地在诗中道出了，英文词love（爱）如何像双手一样安适地隐藏在glove（手套）之中。内地作家曾书写过Zhina的荣耀，Zhina是支那的拼音形式。实际上，罗马文字已然成为汉字书写体系不可或缺的一部分。鲁迅小说《阿Q正传》（见第四编第七章）的家喻户晓，使得中文词典中必然加入Q这个字母。而年复一年，如X光、T恤和BP机等这种类型的新词在汉字中被无穷借用或者创制出来。汉字与罗马字的混合排列现象会继续滋长。

一些流亡作家和海外华人开始用英语和其他外语写关于中国的题材（比如哈金）。实际上，亚裔美国小说家如谭恩美（Amy Tan）和汤婷婷（Maxine Hong Kingston）通过撰写与其华人背景有关的小说而跻身于畅销作家之列。海外华人作家不计其数，如科幻小说家张系国（Chang Hsi-kuo，生于1944年），他用中文来写非中国题材。在这些例子中，我们可以说这是中国文学的国际化。随着海外华人的壮大，中国文学的国际化维度越来越向纵深扩展。

不过，互联网将使中文和中国文学发生超乎想象的转变。这种改变已经如脱缰野马般发生了。为什么？首先是一些基本原因。在互联网上传输与接受汉字，在技术上是可行的。现在已经有许多商业软件支持中文上网。不过比起进行字母传输的软件，中文上网软件相对昂贵和麻烦。从信息科学角度看，汉字在语义上冗余，但是在语音上不足，而语言处理电子系统的突飞猛进是以语音冗余为基础的，它相对并不计较某种文字体系个体成分的语义缺乏。在计算机自动控制中，每个汉字需要两个内存字节，而非像字母那样只需一个字节。28（256）个字符就足以代表一种字母文字中的所有字母（大小写）、数字和标点符号，而216（65536）个字符才能代表得了大多数（绝非全部）汉字。只有认识到汉字表占据了所有Unicode编码（电子信息处理中用来分配世界上所有文字与符号的编码系统）分配的约75%，才能理解汉字的惊人容量。汉字输入带来非常大的挑战，导致很多人不愿意面对它。正如上面所讨论的，不同词典中有数百种汉字排序（以及查找）的方法。相似的，计算机的汉字输入也有数百种方法。大多数中国、日本以及其他地方的计算机非专业使用者倾向于选择自动转换成文字的罗马化输入法。但是划词和同音词的问题——特别是对有文言体偏好的人而言——使得汉字的罗马化输入也极度令人抓狂，耗时耗力。这导致中国的许多互联网用户直接使用罗马拼音，不劳神将其转化为汉字。

中国互联网上有两种使用罗马字母的方式：第一种，也是最流行的，就是用英文写。学过英文的中国互联网用户数量惊人：第二，人数相比第一种少很多的，并且增长速度也较慢的，是用汉字的罗马化拼音写。普通话无疑是罗马化汉语中在互联网上最流行的一种，不过广东话、上海话和台语使用者也为数不少。特别是台语，它拥有很多活跃的网站，很多人用罗马化台语进行交流。随着这些语言出于各种实用目的被运用到实际生活中，它们将发展出种种惯例，借助这些惯例，它们可以成为羽翼丰满的书面白话文。互联网用户已经开始尝试写诗、写散文以及其他文类。看上去也许很吊诡，这一外来的现代技术使中国古代的地区性白话文逐渐获得它们从未染指的书面地位。不过，如果我们回想起另一种外来载体（佛教）曾经在近两千年前促进了书面通用语的萌生，那么现在的现象也就绝不奇怪了。

·总结

中国大地上首先产生了原始汉语，它慢慢演化成包含各种分支、方言和子方言的汉语语族。接下来产生汉字，它最初被用来记录商代卜筮文辞，后来一变而为钟鼎铭文，并最终丰富为一种文字，具有记录各种主题的充分弹性。然而由于它最初的书写介质是难以处理的甲骨、金属，也因为在东亚和周边地区缺少各种文字的竞争环境，高度简略风格的文言，以及略显笨拙的意符音节和方形字体特征一经建立起来，就历经数千年而基本毫发无损。

文言与汉字各安其位之后，中国接下来就开始产生了大量文学瑰宝。早期的文学主要处理伦理政治思想、历史以及抒情冲动。而到了西汉，文学家努力创造更加纯文艺的新写作形式，其中最著名的形式也就是赋。赋的行文为纯然炫技的华丽辞藻，而猝然以道德主义回转收尾，以及实际上对自己全部赋作的回溯性否定，作者希望这样来保证自己不因这些轻佻的作品而遭到谴责。

然而随着佛教来到中国，语言与文学产生了辽阔如海的变化。佛教所催化的显著的语言学和文学方面的变化可以用以下数条概括：一、白话的部分合法化；二、扩充了至少35000个新词汇，其中的许多至今仍通用（如来自梵文upāya的“方便”，来自梵文ksana的“刹那”）；三、对“为文学而文学”的认可；四、促进了文学理论和文学批评；五、音韵学作为一门语言科学而得到发展，被运用到节律中去（如直接参与了律诗的兴起）；六、促进了新的思维模式，特别是天马行空的本体论预设；七、说唱的叙事形式；八、在戏剧中通行的舞台惯例。

佛教对中国语言和文学的影响只有西方带来的范式性巨变能够比拟，后者开始于耶稣会士和他们在十七到十八世纪所启发的考据学，并继续于十九世纪的新教传教士及随着二十世纪中国留学生如潮水般负笈海外而加快马力。现在，沐浴着二十一世纪的朝阳，中国做好了成为全球社区一分子的准备。2000年的诺贝尔文学奖颁给了现代主义剧作家、小说家和艺术家高行健（1940— ）。百年诺贝尔奖第一次颁给中国作家，这标志着中国文学在世界注目下行了成年礼。虽然高行健是法国公民，不过他的作品都以汉语写成，这可以说是全世界讲汉语者的骄傲。

长城不再是中国隔离于世界的象征（历史上中国也从未真正与世隔绝过）。现在的长城象征了陈旧过时的心理，在二十世纪八十年代另一道文化风景《河殇》中被尖锐地批评。飞机拂过在高空中变得渺小的长城，把读过谭恩美小说和英译的李白诗的乘客送到中国。在空间轨道中，人造卫星将电子邮件信息和广播讯号送来送往于中国的各个角落和世界之间——完全不受在高空看上去明显变得微不足道的长城以及所有其他想象屏障的阻挡。在这些信息和讯号中，种下了中国未来语言与文学的种子。

梅维恒（Victor H. Mair）

注释：

[1]Levant，近东的地中海东岸。——译者注

[2]在语言学中，假如甲语言的某词与乙语言的某词书写形式相似或相同，但涵义大不相同，足以导致误解，这对词称为伪友（源自法文faux-ami）。