◎文字学研究
集成类古文字考释成果的检索及其数字化问题[1]
刘志基
(华东师范大学中国文字研究与应用中心)
提要:集成类古文字考释成果历来存在所收古文字考释意见不易查找的问题,在当下的数字化环境下可以寻求如下解决方案:在传统纸质工具书的编纂方面,借鉴数字化的超文本方式,编制多路径索引;同时将考释集成文本数据库化,一方面实现纸质书籍的网络阅读功能,另一方面实现与古文字文献本体的关联,进而使得相关古文字考释意见成为古文字文献本体阅读、查检中能够即时系联的注释信息。
关键词:古文字;考释;集成;检索
古文字考释,反映了学界对古文字的认识。对古文字的大众解读而言,它是知识的来源;对古文字研究而言,它是任何新的认识产生的基础。因此,无论对于普及还是研究,古文字考释的重要性都是不言而喻的。相对个体学者的考释论著,人们一般会更加青睐集成性的古文字考释成果,这是因为在古文字的考释中,有诸多问题学界的认识并不一致,而古文字考释的集成能够更加全面地反映学界古文字释读的认识。
集成类古文字考释工具书的基本任务就是方便人们查找古文字考释意见,因此,检索的效率是其核心功能要求。但是,此类工具书所汇集的众多古文字考释意见,却因信息复杂,头绪繁多,有着特殊的检索难度,迄今为止,并没有形成令人满意的检索体例,而关于这一问题的研究又相对冷落,不利于此类学术工具完善检索功能进而发挥应有的作用。尤其需要指出的是,此类工具书的编纂进入高潮阶段之时,正是中国社会数字化进程不断深入的时段,而在新的文字处理手段为此类成果数字化检索提出了新的研究课题之际,学界的反应依然迟缓。鉴此,下文将就集成性古文字考释的索引所存在的问题以及解决方案提出一些见解,以期引起学界进一步的研讨。
一、存在“问题”的综述
迄今的集成类古文字考释成果,主要是以工具书的形式面世的。因此有必要首先梳理一下集成类古文字考释工具书编纂的发展过程,以及关涉其检索体例的既有相关研究,这有助于我们准确评估以往相关研究成果的得失,进而形成新的认识和对策。
集成性古文字考释类工具书,是在古文字考释研究出现百家争鸣的情况下才会出现的。最先面世的具有重要影响之作是1928年丁福保编纂出版的《说文解字诂林》[2],而其产生的背景是《说文》研究在清代获得空前发展。真正属于出土古文字的集成类考释工具书,则是因甲骨学的繁荣而出现的。1933年朱芳圃编纂的《甲骨学文字编》是第一种带有集释内容的甲骨文考释工具书,此书第一次将甲骨文的字形与考释材料汇集在一起,总结了20世纪最初20年的甲骨文研究成果。巫仲祥论及该书编纂的因由曰:“甲骨出土逾三十年……诸家著述或高文大册,价重连城;或东鳞西爪,散见杂志,承学之士苦无津逮也久矣。”[3]自上世纪中后期开始,出土古文字考释论著汇集整理相关成果出版者颇多,涉及专类文字材料的如《甲骨文字集释》[4]《金文诂林》[5]《甲骨文字诂林》[6]《甲骨文字释综览》[7]《新出历代玺印集释》[8]等。涉及跨种类古文字材料的如《古文字诂林》[9]《古文字释要》[10]。限定某一时段古文字材料的如《出土战国文献字词集释》[11]等。限定某一时段的某一古文字材料的如《秦铜器铭文编年集释》[12]等。更多则是针对某一著录或某一篇古文字材料的,如《楚帛书诂林》[13]等,至于新出楚简,如《郭店简》《上博简》《清华简》几乎每篇都有研究生的学位论文进行过“集释”。
相对于集成性古文字考释工具书本体的层出不穷,对于这种成果的研究显然还没有引起人们足够的重视。就研讨的问题而言,此类研究有些只涉及集成性古文字考释工具书的校订勘误、材料收集、按断水平等方面[14],因与本文论题关系不大,故不在以下综述范围之内。以下仅就涉及检索的相关方面作简要梳理。
1.关于集成性古文字考释类工具书检索问题的研讨
此类工具书被指出的检索问题主要集中于字目的设计方面,大致有如下几点。
一是不能隶定字的考释意见检索存在盲区问题。如对于《甲骨文字诂林》,之其指出:“按照《诂林》目前的检索功能,甲骨文字中已有考释定论而经过隶定的字可以通过《笔画检索》去查找,这自然是没有问题的。问题在于占大多数的是目前尚不能隶定的文字。既然不能隶定,自然也就无法通过笔画去检索,而只能用《字形总表》或《部首检索》去查找。然而,《诂林》的这两个(实际功能是相同的)检索表就其检索功能而言,只能落实到部首这个层次,某个文字在它所属的部首内究竟居何位置则无进一步的查找手段。很显然,一个部首中所属的文字往往是很多的,没有任何检索手段的查找,其效率之低是可想而知的。”[15]
二是字目设立数量少于检索的需要。如柳春鸣将《甲骨文字诂林》类工具书称为“会要类”,进而指出:“这类工具书列举的字形较少,甲骨文一字数形以及相同字形下的细微区别,在这类工具书中反映不够。”[16]
三是古隶定字的检索字目因笔画不统一而影响查检。如对于《古文字诂林》的“笔画检字表”,何崝指出:“本书《凡例》的第二条提到了每册设笔画检字表,但未具体说明笔画检索字表的编纂方法。这些笔画检字表是将繁体字(包括异体字)和古隶定字都收入进去。繁体字一般是有固定笔画的,但古隶定字的每个字是否有公认的固定笔画,这就是个问题。……由于古隶定字字形并非通用字,各家在隶定小篆字形时,难免互有出入,笔画也不一致。例如‘黄’‘五’等字,《古文字诂林》古隶定字与清黄奭所辑纬书的字形就不一样。这就说明,在《古文字诂林》中不一定能查得到清代刻印书中的隶古字。”[17]
四是“笔画检字”“拼音检字”不尽符合古文字检索要求。“汉字繁简字、异体字、古今字太多,有些古隶定字无法确定具体的笔画数,很大一部分字的读音也无法明确,因此用笔画、拼音检字法并不能准确快速地检索所有的甲骨文。”[18]
上述批评意见,无疑都是正确的,但是他们所指出的问题大致属于局部性检索缺陷,比如不可检索隶定字、隶古定字,其实更具有全局性的检索缺陷并非不存在。比如张连航指出的一些形义相关联的字词的考释意见无法系联检索:“例如《释茇》,收录在《古文字诂林》卷一,页482—483‘茇’字条下,但相关的字(词)如拜、拔、祓等字,则另收在其他字条下,未能联系在一起。”对于此类问题的解决,张氏希望能够借助于电子技术运用:“在考释字、词、句时,通过链接等方式查找类似语句,使出土与传世文献能更好地结合。这亦可补后学对古籍的熟悉程度不够之不足。另外,未隶定的形体是否亦可通过电脑程序的转换,直接隶定成文?能否将出土材料输入,即可大致能将不同情况及相关资料查出,并初步通读及解决句法、字形、通假等问题?”[19]张氏的这种想法,虽然没有具体落实的工具书编纂体例设计,但是思考的方向是可以肯定的。当然这已经涉及到集成类古文字考释成果的数字化问题。
2.集成性古文字考释成果数字化检索的研究
随着数字技术的不断进步,包括集成性古文字考释在内的各类古文字工具书都需要借助数字化手段来解决检索难题,这已越来越成为人们的共识。还有学者认为:“数据库甚至可替代某些工具书,如对文献库的成功标注,能使使用者更快地找到以往的研究成果,集释类工具书可以退出历史舞台。”[20]这种意见似乎有些偏颇,电子书无法替代纸质书,这已成为人们的共识。准此,古文字数据库也是不可能完全替代集成性古文字考释类工具书的。因此,我们不仅需要探讨如何研发集释类古文字数据库的问题,纸质集释类工具书如何运用数字化检索手段的问题同样是不可回避的话题。
集成性古文字考释工具书的数字化是以该类书籍的电脑排印为前提和开端的,而该类工具书的电脑排印则以《古文字诂林》为开端,因此有必要回顾《古文字诂林》的电脑排印历程。
《古文字诂林》前的集成性古文字考释工具书均使用剪贴原文或手抄影印的方式来完成排版印刷,或许因为大家都明白这是受制于传统排字印刷技术的原因,因此很长一段时间人们对此种显而易见的不尽如人意之处并没有提出什么批评。然而,随着电脑排印手段的出现,这个问题就被提了出来。之其在批评这种原始书籍制作法“影响视觉效果不说,更容易造成字迹模糊,难以辨识的结果”后进一步指出:“值得重视的是,在印刷技术已经进入电脑时代的当今,这两种传统排印手段(笔者按:剪贴原文或手抄影印)更显现出新的时代局限,也就是说,传统的排印方法,从根本上切断了古文字考释研究成果与现代高科技传播技术的联系,进而阻碍许许多多的人充分利用这种极有价值的科研成果的可能性,也大大降低了工具书自身的价值。”[21]其实《古文字诂林》排印最初也有“剪刀加糨糊”打算,之所以最终选择电脑排印,也正是为顺应数字化时代的新要求:“《古文字诂林》在立项论证时,曾有专家尖锐地提出,若《古文字诂林》不能采用电脑排版而继续使用传统的剪刀加浆糊的方法制版,那么该书的出版就没有价值。”[22]
《古文字诂林》首次实现了大型古文字工具书的电脑排印,因此颇得到一些赞许,被誉为“运用古文字字形库及计算机排版系统等方面都取得巨大的成就或突破”[23],“为彻底解决已存在的汉字古今字形输入电脑奠定了基础”[24]。然而,在取得这种成绩的同时,也还存在诸多问题。
从负责该书排印的电脑专家的撰文中,我们可以知道这次排印工程的目标本来并不仅止于排印一个《古文字诂林》:“当初承接《古文字诂林》电脑排版任务时,上海杰申电脑排版有限公司的管理者与工程技术人员就暗暗定下了一个宏伟目标,一定要把《古文字诂林》最终做成个数据库,用最现代化的数字技术把中华民族最古老的文字传承下去。”为此,他们构建了三个数据库:“字头对象基本属性数据库”“字形库”和“文本资料库”,通过这些数据库的相互关联来支持排印。其中作为主体的“字形库”则“由五部分组成:篆书字形库,由篆书字形以及《说文解字》释义中的籀文字构成。古隶定字形库:由《古文字诂林》主编李玲甫(笔者按:当为“璞”)教授重新隶定,杰申电脑排版有限公司制作。篆书字、古隶定字与楷定字有一一对应关系。古文字字形库:……由甲骨文、金文、陶文等八大类古文字字形组成,字形来自于《甲骨文编》《金文编》《古陶文字徵》等15部研究著作,经扫描、修补、分类整理而成。扩充的GBK汉字字形库:普通的GBK汉字字形库仅提供20902个汉字,对于《古文字诂林》的电脑排版来说,是远远不够的。我们把普通的GBK汉字集合作为A集,利用多平面技术,扩充了B集,每个平面的汉字容量均为20902个字,并保留了继续扩充的能力。目前A、B两集提供了约31000个汉字的容量。杰申专业排版系统字形库:……由杰申汉字内码(双字节码)字形库与杰申补字库组成。目前,杰申汉字内码字形库己涵盖在扩充的GBK汉字字形库中。杰申补字库具有类似于无限扩充的能力,它具有独自添加、编码调用的功能”。[25]
平心而论,《古文字诂林》的电脑排印和数字化处理不可谓不用心,但是,电脑公司开发的这个包含了庞大字形库群的数据库,在支持《古文字诂林》的排印中,并没有真正发挥数字化的功用。笔者作为《古文字诂林》编纂中负责电脑字库字符处理的常务编委,曾经回顾过负责这项工作的艰苦历程:
当大家都觉得电脑排印问题已经解决可以安心审读材料时,却被杰申公司送来的诂林排印清样当头浇了一盆凉水。呈现在大家面前的清样是何等模样呢?与论证会上提交的“形神兼似”的样稿大相径庭的是,清样上能够正确显示的,只是当时电脑输入法可以打出来的文字,而电脑打不出的字则以一个个电话图形替代,填实的电话图形(被大家称为“黑电话”)表示古文字的原形字,双勾的电话图形(被大家称为“白电话”)表示古文字的隶定字。同时,电脑公司还随清样交来了厚厚一本古文字字形表,也就是所谓“8大类17种共16万字的强大古文字字形库”的字形,每个字形边上,有一个代表该字形的流水号。这字形表究竟是干什么用的呢?原来电脑公司要求编者对应清样上的每个黑白电话,在这个字形表上找到那个相应的字形,并把这个字形在字形表上的流水号,标注在清样上的这个对应黑白电话上,这样,电脑公司就可以通过这个流水号输入那个古文字。
……
很显然,“黑白电话”的设计,是电脑公司为自己寻找了一个最方便的古文字排印方略,但是这个方略的核心意义,是把在16万字的古文字字形表上找到一个特定的古文字字形这件不啻为大海捞针之事踢回给了编委会。[26]
出现这样的情况,当然也不是电脑公司所希望的。为了管理这个庞大的字形库,电脑公司还设计了一个超大容量多平面汉字平台:“大量出现的图形字、疑难字、怪僻字除了极大地增加扫描、造字的压力外,字库管理的矛盾也日益加剧,造好的字如何能较方便地调用,造过的字怎样避免重复造,造错的字如何纠正过来。因此,设计一个非正规的超大容量多平面汉字平台SMPCSet的要求提出来了。”[27]但是事实上这个平台并没有起到预期的作用。如果“造好的字如何能较方便地调用”的问题真的被解决,电脑公司是不会把“黑白电话”这个难题抛给编委会来解决的。而这个问题无法解决,也就决定了“造过的字怎样避免重复造”的问题不可能得到解决。显然,问题的症结在于:电脑公司虽然有能力成千上万地造字,形成一个古文字的“字海”,但却没有办法对应考释文章中的一个个具体用字,从这个“海”里捞出一根根不同的“针”来。于是我们不得不形成这样的对策:首先设计一套适合古文字字形检索的输入码方案[28],再将电脑公司造字的字形表以逐字切图的方式储存进数据库,然后在数据库里对应这些字形图片按上述编码方案逐一编制检索码,这样就可以运用数据库手段来检索这些古文字字形及电脑公司赋予的流水号,进而对照原稿,为《古文字诂林》清样上的黑白电话逐一标注上流水码。在这一过程中,又遇到一些始料未及的问题:首先是电脑公司造成的那16万个字形,或者说当时通行的那十来个文字编所收的字形,实际用到《古文字诂林》排印中还有很大的缺口,也就是说,诸家古文字考释中用到的千奇百怪的字形,远非这个带流水号的字形表所能覆盖的。造成这种状况的原因很多,其中最常见的是,古文字考释多用“偏旁分析法”,因此考释过程中就会有大量的古文字偏旁被分析出来,而这些偏旁一般只是字的构形成分,并不独立存在,自然在电脑公司的字形表中找不到。有些偏旁,甚至只是考释者想象模拟出来的,因此在实际的古文字资料中也根本没有。当然,要解决这样的问题,只能是字形表中没有的那些古文字,让电脑公司再去造字。于是,整个编纂过程也就伴随着不断造字,不断把这些再造字纳入我们的检索数据库,从而让它们以后在我们能够检索的范围内从无到有这样的流程。需要交代的是,由于这项任务特别繁重,在编纂过程的后期,除了为新造字编制输入码的工作继续由笔者专门负责外,利用检索数据库为校样中的黑白电话填写流水号的工作是由笔者带领若干研究生共同完成的,而这一工作包含着决定哪些字需要新造的任务,由于出自众人之手,又限于编纂时间的紧迫,把已经造过的字再提交给电脑公司造字的失误在所难免。这在客观上也会加剧杰申字库一字多码的混乱情况。
关于集成性古文字考释成果的数字化检索问题的讨论,显然也是需要立足于数字化形式的集成性古文字考释成果研发实践来进行的,然而目前为止,这种实践是缺乏的,因此我们也没有发现这方面更多的深入研究。归纳已有的认识现状,不难发现,由于数字化天然的超文本多路径链接的特性,人们很自然也很容易对集成性古文字考释成果的数字化提出一些笼统的检索效果期待,但这种效果要落到实处,却会遇到很多具体问题,如何解决这种问题,人们还缺乏明确的对策。
二、集成性古文字考释工具书检索体例的重新建构
前文已经指出,集成性古文字考释工具书还有一些更重大的检索问题并未被人提及,我们认为主要是以下两点。首先是不能兼顾释者释字和编者释字这两种基本的检索要求。集成性古文字考释类工具书基本编纂方式是以“字”为单位来汇聚考释论著意见进而为人们提供检索方便的。而其字目有两种确定方式,一种是以编者认为正确的释读意见来定被释古文字的字目归属,可简称“编者字目”;另一种则是以所收考释论著的释读意见来定被释古文字的字目归属,可简称“释者字目”。就检索的效果来看,两种字目设计各有短长。设“编者字目”,可以通过编者的释读整理,把一个特定文字的各种释读意见汇聚起来,这自然是方便读者的。但另一方面,使用“编者字目”,实际是要求使用者在释字上与编者持有相同的认识,这事实上很难做到。更何况,大概编者自己都不能保证自己认同的释字意见都是对的,因此这种体例会有误导使用者的危险。设“释者字目”,因为排除了编者的认识在字目确定中的影响,因而具有客观性,同时可以直观呈现各文字单位的古文字考释之演变发展信息,即,被释为某字的特定古文字都有哪些,在哪些时段发生了哪些变化。但其局限则在于难以呈现某个特定的古文字都有哪些释读意见,而这往往是使用者也很需要的一种信息。迄今为止,古文字考释工具书的编纂并没能在这两种“字目”体例之外找到更好方法,甚至在这两种体例中也并不能做到自由的选择。专类的考释工具书,比如《甲骨文字诂林》《金文诂林》,由于涉及文字种类单一,设“编者字目”相对具有一定可行性,故多采用此种字目体例;而兼类的古文字考释工具书,如《古文字诂林》《古文字释要》,涉及文字种类林林总总,而不同种类文字的字符集就有很大不同,不同断代的字际关系更错综复杂,设“编者字目”难度更大,故设“释者字目”也被视为相对可行的一种选择。显而易见的是,如果只是在这两种索引方式中选择一种,无论是哪种选择,都会有检索盲区的存在。
其次,检索局限于释为某字。对于古文字考释论著的检索而言,仅仅有一个释为何字的索引往往是不够的,因为有些考释意见不仅涉及单个字的释读,有些考释意见有价值的释读并不限于释字,还在于所释字被借用为何字,以致其他方方面面的有用认识。试举一 例[29]:
很显然,此条提要,把释字对象锁定为“”,固然很重要,但是指出它的右旁是“廌”字异体,而它在文例中读为“津梁”之“津”,也很有认识价值。而迄今为止,古文字考释工具书并没有为后两种信息提供检索的路径,这无疑不利于考释研究成果学术见解的查检。
平心而论,以上所说的这种局限,是由传统书籍载体的平面性所引起的,因此人们每每习以为常,甚至刻意追求,以达到节省篇幅的效果。如《古文字诂林·凡例》第九条:“所录考释资料,如涉及两个以上的字且无法分割者,则视其具体情况,或只归于重点考释的字,或归于出现在前的字。”何崝曰:“这一条编纂体例保证了收入的考释资料的完整性,使用时不会增加太多的麻烦;还由于涉及两个以上且无法分割的考释资料并非少数而大大节省了篇幅,提高了使用价值。这一编纂体例是非常科学合理的。”[30]不能不说,这种“科学合理”的评价,只是就节省篇幅而言,就信息检索的全面性而言,却是很不科学合理的。而且,随着数字化带来的超文本关联方式的普遍用于信息传播,这种单线平面的索引方式的缺陷会日益凸显。而相应的改变,也需要借鉴这种超文本的样本。
根据这一思路,我们就集成性古文字考释工具书的检索方式提出一种新的方案,并运用于正在编纂中的《古文字考释提要总览》[31](以下简称《提要》)。这一方案的基本思路,就是通过索引,把超文本的系联移植到纸质工具书上。限于纸质书的平面性,全书内容的正文当然只能根据某一种字目排序方式编辑,而索引的编制,则除了正文字目的索引外,同时完成其他多角度的索引编制工作。兹简介如次。
《提要》属于兼类的古文字考释工具书,故在正文的编纂体例上仿《古文字诂林》之成例,以考释者的释字意见为考释内容确定字目,以此种字目汇聚考释材料,并按《说文》字序逐字编排全书正文。与正文编排相应,首先需要一个“释者字目”的索引。除此以外,根据古文字考释信息的多维度特点,通过对全书所收36000余条考释意见加以一一分析,完成考释内容的多视角标注,开发多路径的索引。
首先,为消除“释者字目”的局限,在编纂过程中,对于释者释字与今日学界主流释字意见不同者,为其标注更具有学界共识的释字字目,并以传统检字表的方式来为全书所收古文字考释提要增加一个名为“编者字目”的检索路径。
第二,对考释意见中除了主要释字还有旁及释字者(如上文举例中的“廌”)和给出“读为”意见者(如上文举例中的“津”)分别标注相关字目,并编成“关涉字”和“用为字”索引。
第三,对于释读程度尚不足以确定被释字形的字目归属,或者考释意见众多、释读分歧较大的特定语境用字,标注该字具体出处,编成出处检索索引。
第四,鉴于声符系联是文字孳乳演变同源关系的一种观察角度,基于“编者字目”的隶定字形,编辑同声符字索引。
上述各种索引的编制,并非只是方便了工具书的检索,对于集成性古文字考释数字化成果的研制,它同样奠定了很好的基础。
三、集成性古文字考释成果数字检索的实现
我们虽然不认同传统的集成性古文字考释工具书会因同类型的数据库的出现而“退出历史舞台”这种意见,但同时也认为数字载体的集成性古文字考释成果将越来越多地出现一定是大势所趋。数字化在材料检索方面具有天然的优势,因此集成性古文字考释材料的数字化也可以视为提升其检索效率的更具有生命力的一种途径。然而,要实现集成性古文字考释成果数字检索,需要完成若干事实工程。
1.严格按照数字处理的标准,实现古文字考释材料的数字化
数字载体的古文字考释成果的检索,与相同内容的纸质工具书的检索,已经不是同一概念了,两者的差别大致是:工具书的检索只是服务于人眼查检的,而数字化的古文字考释成果的检索,虽然最终也是服务于人的资料查检,但前提是要让资料满足计算机机器之眼的识别要求。而古文字考释资料要成为能被计算机识别的资源,首先需要完成自身载体的数字化转换,完成这项工作,需要解决如下问题。
一是集外字的问题。或许会有这样一种误解:把古文字考释论著制作成电子文本,就是考释论著载体的数字转换了,就像现在大量出现的网站上的考释文章那样。事实上问题绝非这样简单。古文字考释论著载体转换的基本要求,就是确保考释论著中每一个字符都具备被精确数字化处理的资格,而不是现在的网刊考释文章那样贴个图来代替通用输入法打不出的字,这是因为贴图在计算机的视野里,其身份是不能被识别的。而这个问题的解决,只能依靠古文字字体的手段。也就是为古文字考释材料中的集外字逐个造字,进而生成能够支持材料的数字化处理的专门字体。古文字材料中的集外字数量很大,我们曾经对甲骨文用字整理最新成果《新甲骨文编(修订版)》的字目的字符集类型进行过统计,结果是60%的字目属于集外字。以此例之,包含古文字内容的数字文本,都需要大量的集外字支撑。而古文字考释论著中的字符缺口,会比古文字一手文献释文中的字符缺口更大,这是因为偏旁等构形元素的分析是古文字考释的基本方法,而在这种分析中还会出现大量真实古文字材料中未见的字符,因为它们只是考释者的想象、推测。因此,集外字的造字数量是相当可观的。
二是排除扩展字。目前在通用电脑字符集中已编码汉字的总数已达9万字以上,但是除了核心部分GBK的20902字外,CJK扩展集的7万多字在数据库中并不能用,即无法实现检索、查询、统计等各种处理。另外,除了6582个扩展A编码字符以外的所有扩展字,并不能实现网络的检索,这也排除了它们在互联网环境中的话语权。也就是说,古文字字体建设中还有一个必须完成的任务,这就是排除GBK以外的7万多个字符。而这些扩展字的来源,却又恰恰是古籍文献和传统字书,多为古文字字符集的不可或缺成员,考虑到古文字考释文献的文本通常会有多种渠道的来源,因而扩展字混入的机会很多,概率很大,排除工作如不到位,个别扩展字的混入,都会导致整体材料数字处理的失败。
三是实现支持古文字考释材料数字化的字符集的一字一码精确控制。相对于集外字造字和扩展字排除,古文字考释材料专用字体的一字一码控制,乃是实现古文字考释材料数字化转换的一个更为关键环节,有着出乎意料的艰巨程度。以被誉为“运用古文字字形库及计算机排版系统等方面都取得巨大的成就或突破”[32]的《古文字诂林》为例,虽然负责该书排印的专业电脑公司“穷10年之精力,建立起一座‘中国古文字字形库’。这里有古隶定、篆书和甲骨、金文、古陶文、先秦货币、简帛、石刻、玺印等近16万个字的字形”,[33]但是由于字体中的字符却并没有经过数字化处理所要求的一字一码的精细化整理,也没有办法但负起被检索、查询、排序等数字化处理的职能,这样的字体,能起到的作用只是显示字形,功能类似于图片,当然,会比一般图片清晰一点。
字体管理的困难是与目前的中文信息化技术条件相联系的。目前古文字字体的创建,只能以“鸠占鹊巢”的方式,借用通用字符集的码位来容纳古文字文献所用的集外字符。因此古文字字体的研制需要承担双重负重:既需要对庞杂的古文字文献用字进行精确性整理,以达到符合数字化处理要求的一字一码的精确对应,进而确定究竟有多少集外字的缺口;又必须在通用字符集的码位借用中避让古文字文献用到的集内字,而这种避让又往往由于新出古文字文献材料的被纳入数字化处理的范围后需要用到原本不用的集内字而作不断调整。因此,古文字数据库建设中的每一次字符输入,输入者都需要能准确把握每一个作为输入对象的集外字在数据库所用字体中的存在状况:是已经有了还是还没有;如果是有了,又被安置在哪个码位。一个古文字字体的集外字通常数以千计,而字符单位的唯一认同并非单一层次:原形、隶古定、通用字形、偏旁构形分类都必须实现唯一性的精确整理,因此必须实现全过程的一字一码实时监控。
除了集外字整理中的一字一码问题外,集内字也存在大量一字多码情况,比如“彝”有四个集内编码字形,“户”有三个,“内”有两个等等,这同样需要做一字一码的精确处理。当然,这已不在古文字考释资料数字化整理的专门范畴,不再展开讨论。
2.考释信息的分类标注
完成载体的数字转换,只是奠定了对这些材料数字化检索的前提条件,要完成理想的数字检索,还需要对资料进行深度的分析整理,也就是把考释论著中内涵的具有认识价值的释读信息都一一加以提示,并加以对应的字符标注。这样,既能创建多路径的人工检索,即如前文言及的古文字工具书的各种检索路径的数字化实现方式;又可以实现与相关释读对象,即古文字文献本体的数字资料,也就是古文字文献数据库中的相关内容相关联,从而实现在文献阅读过程中随时跳转呈现相关考释研究信息的效果。具体标注内容的确定,应该是一个开放体系,可以是针对一般释读要求的,也可以是针对特定研究目标的。关于前者,前文关于工具书的讨论中已有过论说;关于后者,视研究者们的科研要求而定,这里无法尽说。
3.变人工检索为计算机关联检索
考释集成资料的数据库化,为这种材料的计算机识别创造了条件,因此,检索也可以利用计算机的自动识别功能实现一些方便使用者的友好方式。具体来说,以往的检索是人们在阅读古文字文献本体过程中遇到释读障碍,再去查检工具书或数据库。而有了计算机识别助力,人们在古文字文献阅读的过程中,就可以即时获得由计算机系联所提供的与文献本体内容相关联的考释信息。当然,这种便利的获得,需要一个前提,那就是古文字文献本体也实现了数字化,而且字符集的标准与考释材料同一,这样在文献本体阅读中,即可逐字系联考释材料的索引标注字符,进而自动呈现相关考释信息。而考释材料的检索标注路径越多,自动呈现的考释信息也就越丰富。就古文字材料的数字化难度来说,以考释材料为处理对象要大于以文献本体为处理对象,因此,后一方面的数字化成果此前已经较多存在,所以这种关联检索的创建,目前已具有很大的必要性和可行性。
4.传统纸质工具书的数字化检索
“把《古文字诂林》最终做成个数据库”这样的理想早已经被提出来过,虽然当时没有实现,但是不等于不能实现。只要按上述标准实现考释工具书的数字转换,并实现上述多路径检索内容标注,这个理想就会变成现实。由于纸质工具书的不可替代,把集成性古文字考释纸质工具书的内容做成数据库的载体,进而实现全方位的数字检索,也就具有了不可替代的意义。仅就管见所及,迄今为止,此类工具书只有《提要》做到了这一点,兹简介如次。
《提要》除了是一部多卷本纸质书以外,也有一个网络阅读窗口(背后是一个数据库),形成一种传统纸质图书与网络阅读检索相结合的图书呈现形式,故该书以“‘文字网’关联书系”为书名的副标题。该书凡例曰:“本书为教育部人文社会科学重点研究基地华东师范大学中国文字研究与应用中心网站‘文字网’(http://www.wenzi.cn/)的关联文本,即本书的内容为‘文字网’专业数据检索系统的有机组成部分,通过本书的关联编号在‘文字网’上进行检索查询,可以获得更多相关信息:1.考释论著全文;2.字形所出的原始文献材料全貌;3.补充信息,即由于新的材料发现和研究进展所形成对本条考释的补充和修正材料。”其中所说的“关联编号”,是实现纸质书内容的网络关联的一个重要系联点,即在编纂过程中,对全书所收的每一条考释提要,都设置一个具有唯一值性质的“文字网关联号”,这样各种标注就可以对接这个唯一号,从而为全书的多路径检索的精准化奠定基础。而各种路径的检索一旦通过数字方式来进行,就可以变多次翻检为轻点鼠标瞬间跳转,效率也就得到了极大的提升。
5.跟踪数字化进步,提升检索功能
数字检索的高效是依赖于计算机的识别功能而成立的,那么计算机识别功能的提升,也会带动古文字考释资料检索功能的提升,这也就成为古文字考释材料需要实现数字检索的另一种理由。在这一方面,目前可以看到新希望的无疑是古文字图像识别所能带来的效益。
在古文字图像识别实现以前,计算机对古文字资料的识别是有盲区的。古文字材料的数字化转换,主要是通过数据库建设来实现的。古文字资料输入数据库,大致有两种形式,一是文字输入,二是图像输入(一般采用外部关联方式)。文字输入,借助于电脑字符集的编码,相关资料可以获得标志自己身份的唯一识别码,因此它无论被移动到哪里,都是可以被计算机所识别的;图像输入,则由于缺失这种身份信息,计算机输入只能采用“绑定”的方式来认定它的身份,而一旦它挣脱了“绑定”,就会消失在计算机视野的盲区中。而实际存在的古文字资料是不可能都被特定数据库绑定的。这一盲区的存在,会带来两种断裂。古文字第一手材料的原始形态,通常是人们与古文字发生交集中首先照面的对象,因此也是人们最希望以数字化手段检索考释材料来助力研习的对象。然而由图像生成的计算机识别盲点,却使人们无从利用数据库来检索考释资料。具体来说,人们要用数据库来查找考释资料,首先得确定是哪个字的考释资料,从而通过这个字符来实现检索。而遇到不认识的字,计算机也不认识,检索就遇到了断头路——这是人机交互层面的断裂。数据库贮存的数据,只要是计算机可以识别的,都可以通过程序设计,使之发生某种逻辑关联沟通。而这种系统联系,正是关联检索的基础,而图像不被识别,又势必导致相关关联检索的失效——这是计算机信息处理数据链的内部断裂。
由此可见,古文字图像识别完全可以给古文字考释材料的检索带来重大突破。在古文字图像识别已经取得初步成功的当下,把这种数字化进步引进到古文字考释资料的检索开发中来尤须得到重视。当然,将古文字图像识别与古文字考释资料检索挂钩,目前尚属具有一定超前性的新概念,客观而言,既往一些古文字图像识别研发的功能设计并不完全契合古文字考释资料检索的需要,比如识别结果仅仅落实到抽象的字单位而不是具体文献语境用字[34]。因此,使古文字图像识别研发更加精准对应古文字考释资料的检索等各种古文字研究要求,将会是后续重要课题。
Retrieval and DigitizationIssues of Integrated Textual Research Results on Ancient Writings
Liu Zhiji
(Center for the Study and Application of Chinese Characters,East China Normal University)
Abstract:The problem that textual research opinions have always been difficult to find from integrated textual research results can seek the following solutions in today’s digital environment.(1) Using digital hypertext for reference,we can draw up the multi-path index in the compilation of traditional paper reference books.(2) Simultaneously we can integrate textual research and interpretation into text database.We on the one hand realize the online reading function of paper books;on the other hand,realize the connection between textual research results and context of ancient Chinese literature.Thus the relevant textual research opinions can become the annotation information of ancient text literature when reading and checking.
Keywords:Ancient writings;textual research;integration;retrieval
[1] 项目基金:教育部重点研究基地重大项目“系列古文字专题数据库建设”(项目编号:18JJD740004)。
[2] 丁福保编:《说文解字诂林》,北京:中华书局,1988年。
[3] 朱芳圃:《甲骨学文字编》,上海:商务印书馆,1933年,第1页。
[4] 李孝定:《甲骨文字集释》,台北:历史语言研究所,1965年。
[5] 周法高等:《金文诂林》,香港:香港中文大学,1975年。
[6] 于省吾主编:《甲骨文字诂林》,北京:中华书局,1996年。
[7] 松丸道雄、高嶋谦一:《甲骨文字字释综览》,东京:东京大学出版会,1994年。
[8] 王人聪:《新出历代玺印集释》,香港:香港中文大学,1987年。
[9] 李圃主编:《古文字诂林》,上海:上海教育出版社,2004年。
[10] 李圃、郑明主编:《古文字释要》,上海:上海教育出版社,2010年。
[11] 曾宪通、陈伟武主编:《出土战国文献字词集释》,北京:中华书局,2018年。
[12] 王辉:《秦铜器铭文编年集释》,西安:三秦出版社,1990年。
[13] 徐在国编著:《楚帛书诂林》,合肥:安徽大学出版社,2010年。
[14] 如:陈伟武《甲骨文字诂林补遗》,《愈愚斋磨牙集》,上海:中西书局,2014年,第1页;宋镇豪:《百年来甲骨文集成性工具书的编纂》,《历史文献》(第五辑),上海:上海科学技术文献出版社2001年,第253页。
[15] 之其:《读〈甲骨文字诂林〉兼论古文字考释工具书的编纂》,《辞书研究》,1999年第5期,第111页。
[16] 柳春鸣:《甲骨文工具书综论》,《西南师范大学学报(人文社会科学版)》,2000年第3期,第119页。
[17] 何崝:《集古文字研究大成的〈古文字诂林〉》,《文史杂志》2006年第2期,第70页。
[18] 朱添:《甲骨文工具书编纂出版的回顾与展望》,《出版广角》2018年第5期,第43页。
[19] 张连航:《关于编纂古文字工具书的思考》,《辞书研究》,2008年第5期,第22、23页。
[20] 门艺:《由甲骨学工具书的编纂到甲骨文数据库的建设》,《漯河职业技术学院学报》,2019年第5期,第6页。
[21] 之其:《读〈甲骨文字诂林〉兼论古文字考释工具书的编纂》,《辞书研究》,1999年第5期,第113页。
[22] 沈康年:《古文字诂林》数据库的研制与开发,《印刷杂志》,2004年第10期,第40页。
[23] 张玉梅:《〈古文字诂林〉初评》,《辞书研究》,2003年第2期,第105页。
[24] 何崝:《集古文字研究大成的〈古文字诂林〉》,《文史杂志》,2006年02期,第69页。
[25] 沈康年:《〈古文字诂林〉数据库的研制与开发》,《印刷杂志》2004年10期,第40页。
[26] 刘志基:《中国文字发展史·殷商文字卷》,上海:华东师范大学出版社,2015年。第814—815页。
[27] 沈康年:《〈古文字诂林〉数据库的研制与开发》,《印刷杂志》2004年10期,第42页。
[28] 刘志基:《简说“古文字三级字符全拼编码检字系统”》,《辞书研究》2002年第1期,第99页。
[29] 取自《古文字考释提要总览》第三册(上海人民出版社2012年)21页。
[30] 何崝《集古文字研究大成的〈古文字诂林〉》,《文史杂志》2006年第2期,第68页。
[31] 该书由刘志基等主编,上海人民出版社2008年起陆续出版,目前已出五册,2021年内将出第六册即最后一册。
[32] 张玉梅:《〈古文字诂林〉初评》,《辞书研究》2003年第2期,第105页。
[33] 《文汇报》2005年08月25日报道《“更无一字不清真”——国家重点文化工程〈古文字诂林〉编纂记》。
[34] 详见刘志基:《简析古文字识别研究的几个认识误区》,《语言研究》2019年第4期,第89页。