上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
1.2.1 数字化加工的内容
出版资源的数字化加工,是指对出版信息资源的数字化整理,主要是完成对传统资源的加工、分类和标引工作。数字化加工包括两部分内容,一是对已经形成纸质图书的历史出版资源重新进行电子化、代码化识别、审校、重排、标引;二是对目前已经采用电子化、代码化的内容进行基础标引和各种基于专业需求的深度标引。
进行数字资源加工,首先要对所采集的内容进行数字化转换(OCR/SCAN)处理,然后进行人工标引加工处理。现在,有的出版社已经自主开发出多核心OCR数据加工生产线,具有完备的流水线式操作体系和管理监控系统。更进一步,信息处理技术能够自动提取其中的标注(Tagged)内容及全文文本,对内容进行过滤、分类或自动摘要。最终,经过标引的内容转化成内部标准格式,并与其关联的对象(包括图片、原版式等)一起装入内容仓库中存储,供查询、挖掘及应用。