1.1.1 中文信息处理技术的应用
虽然出版行业应用计算机进行排版已有几十年历史,但印刷出版和电子出版之间,在很长时间里软件技术互不兼容,绝大部分常用的文字编辑排版软件都是面向打印和印刷的。印刷排版软件技术的着眼点在于图文呈现,关注字体清晰、印刷精美,印刷版的“人性化因素”使图书不需要任何特殊设备便可阅读,便于注释。从数字技术的角度考察,印刷版的排版软件处理对象为线性结构文件,不具备检索、重用的功能。其后的电子出版发展,产生了全文数据库电子出版物。数据库软件的处理对象是数字化的结构性文件,它能够提供数据存储和分析能力。电子版的优势是可以进行数据的索引、排序、查找、在线浏览、相关一致性检查,可以提供强大的检索功能。
尽管两种出版方式都使用计算机系统,但两种文本的显示格式不能互通,这就提出了如何使创建的数字内容既可以用于印刷版,又可以用于电子版的数字技术要求。解决这个问题的途径是将这些软件输出的结果数据进行归一化处理,将这些数据转换成为XML文件格式存储到内容资源管理系统(Content Resource Management System,CRM)中,经过出版引擎实现出版产品的跨媒体发布。出版信息的XML结构化处理、XML数据的存储与检索,以及出版信息的跨媒体发布,构成了该系统的技术核心,如图1-1所示。
图1-1 内容信息归一化处理跨媒体发布
CRM系统适合跨媒体出版的要求。通过CRM系统,出版信息的跨媒体检索、重用、挖掘、交易能够展开,使出版信息的生命周期得到有效的延长。因此,实现CRM系统中文档格式转换的自动处理,是人们一直追求的目标。但目前的技术离人们的期望还有相当的距离,以至于大量的数据转换需求,衍生出了一个专门从事转换数据格式的数据加工行业。
CRM技术与跨媒体出版技术的有机结合,给数字出版技术提供了巨大的发展空间。数字出版技术属于信息技术的研究与应用领域,因而数字出版的本质是对内容的深度加工、分类与整合,是内容的信息化而不是简单的电子化和屏幕化。中文信息智能化处理是计算机中文信息处理的基础性研究,是信息处理的关键技术。有许多研究人员在这一领域耕耘攻关,但至今仍处在技术突破的前夜。由于中文信息处理的特殊性,解决中文信息的复合出版、自动标引、自动分类、自动聚合、智能检索只有在中文出版的过程中才能实现,只有解决了数字出版关键技术,才能最终解决出版行业信息化落后的状况。