项目介绍:2009年起,易成轩公司与国务院台湾事务办公室主办、主管的九州出版社合作,承担该出版社繁体字图书数字化工作。数字化内容包括将竖排繁体纸书文本化,加工成电子图书及出片文件,提供PDF电子文件、重新排版后的电子文件及纸样,同时,提供繁体转简体的电子数据。基本工作流程大体分为以下几点:首先将纸质书扫描,将文字部分进行OCR识别处理和人工校对,然后对校对后的文本按照要求进行重新排版,之后提取繁体文本文件,转换为简体文本文件。文字质量要求万分之一以内的差错率。由于加工后的图书用于正式再版发行,数字化标准较高,且内容上附加多种复杂符号,因此,我公司对项目管理、标准执行、质量检验等方面特别制定了相应的解决方案,采用符合Unicode5.0标准超大字符集字库,并针对竖线、浪线和双排文字(见示图)的还原处理进行了程序开发,有效的恢复了图书本来面貌,且专门开发了多核心繁转简程序,准确的将繁体文本转换为简体文本,文字差错率达到出版标准。
项目特点: 中文繁体通过ocr 实现代码化; 新技术支持传统图书出版 |