数字出版实用教程(第二版)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2.1 数字化加工的内容

出版资源的数字化加工,是指对出版信息资源的数字化整理,主要是完成对传统资源的加工、分类和标引工作。数字化加工包括两部分内容,一是对已经形成纸质图书的历史出版资源重新进行电子化、代码化识别、审校、重排、标引;二是对目前已经采用电子化、代码化的内容进行基础标引和各种基于专业需求的深度标引。

进行数字资源加工,首先要对所采集的内容进行数字化转换(OCR/SCAN)OCR(Optical Character Recognition),即光学字符识别;SCAN,即扫描。通过光学扫描仪和计算机的配合,OCR软件将图像数据进行运算分类后转化为计算机内码。它可以极大地减轻数据录入工作的强度,提高数据录入的速度。处理,然后进行人工标引加工处理。现在,有的出版社已经自主开发出多核心OCR数据加工生产线,具有完备的流水线式操作体系和管理监控系统。更进一步,信息处理技术能够自动提取其中的标注(Tagged)内容及全文文本,对内容进行过滤、分类或自动摘要。最终,经过标引的内容转化成内部标准格式,并与其关联的对象(包括图片、原版式等)一起装入内容仓库中存储,供查询、挖掘及应用。