日前,中华书局研发完成“中华经典古籍库”第一期数字化成果,完成自有版权的300种共2亿字古籍的数字化,包括了中国传世典籍的最核心部分。这一数据库将依托全国十几家图书馆的平台向公众开放,让中华经典跃然屏幕,让文化真正“活起来”。
完成这2亿字,中华书局用了十年。
古为今用:传承中华文化的时代担当
打开中华书局“中华古籍数据库”,黄褐色的界面充满古典感和文化气息,左侧的目录栏里,各本古籍按照“经”“史”“子”“集”分类排列,纲举目张,条理清晰。
这一数据库保留了标点、校勘、专名、注释等全部整理成果,提供原书扫描图像页与数字文本一一对照,公众将拥有可靠、可直接引用的数字化古籍,实现了中国高质量古籍整理图书的数字化。
浩瀚的文字背后,是烦琐的古籍整理和精细的后期数据加工工作。
早在2003年,中华书局便成立古籍资源部,开展“中华古籍语料库”项目的研制开发,当时还完全没有“数字出版”的概念,古籍资源部主要从事古籍的数字化编辑加工,用6年时间将3亿字的整理本古籍做数字化处理,完成了初步的平台建设和语料积累。
这些语料积累,源自中华优秀传统文化和典籍作品。我国浩繁的文化典籍,是中华民族政治、经济、历史、文化和民族精神的重要载体。据专家估计,中国存世古籍总计在20万种以上,如果计入碑刻、家谱等,数量更多。
“这些存世古籍负载着厚重的中华文明,凝聚着民族智慧,是祖先留给我们的精神遗产。”中华书局总经理徐俊说,弘扬中华民族的优秀文化,为学术研究和广大读者提供高质量的基本古籍,是中华书局长期致力的目标。
内容为王:秉持精益求精的文化品格
20世纪90年代,古籍数字化开始在我国起步,随着网络的普及,古籍数字化迅速兴起。
在古籍数字化欣欣向荣的同时,我们也看到,目前我国古籍数字化在数据质量、数据内容等方面存在诸多问题。个别数字化资源随意节选,以讹传讹,对读者产生了误导;很多古籍数字出版物没有获得合法著作权、网络盗版猖獗,成为知识发展的重大障碍。
“在目前的数字出版界,始终存在一种争议,那就是数字出版应坚持技术为王还是内容为王?”中华书局副总编辑顾青介绍说,“我们在做古籍数字化之前,首先明确了这个问题,确定了‘内容为王、质量至上’的原则。”
对此,徐俊也明确指出:“保证数字产品的合法性和基本质量,是古籍专业社应该做的事,但也正是版权和质量这两点使得专业社古籍库产品研发步履维艰。”
顾青介绍说,由此,我们确定了古籍数字化的几个基本理念:一是古籍数字化一定要以古籍整理为基础,做到内容准确;二是古籍数字化产品必须要拥有合法著作权,确保法律上无瑕疵;三是古籍数字化一定要方便读者使用,让古籍从书页中走到屏幕上来。
攻克难关:打造数字出版的百年老店
“我们点开右侧的‘人名信息关联’功能,输入‘曹操’这个人名,便会出现这个古籍库中所有曹操的人名、别名信息,这对于学者的研究很有帮助。”中华书局市场部主任翁向红说。
然而,外人却很难了解,在这背后,数据编辑工作人员付出了怎样的艰辛。
“这就意味着,编辑人员需要在数据底层把人名、地名、年代等信息都归纳标引出来,再编成可供读者检索的程序,这个工作需要有深厚的专业功底,做到专业领先,同时要攻克技术难关。”徐俊介绍。
为了破解古籍数字化中遇到的难题,中华书局投入了大量精力参与计算机用字规范项目的建设,如“中华字库”“国家数字图书馆汉字规范处理项目”“新闻出版用大字符集”等项目。“通过这些项目的建设,我们规范了计算机古籍用字,积累了大量的汉字属性数据,为古籍数字化的工作提供了基础。也正是有了这些基础,“中华经典古籍库”的造字工作才能顺利展开。”顾青说。
为做到数据持续更新,“中华经典古籍库”计划每年推出一辑数据包,持续收录新出版的优秀整理本古籍,在保证质量的基础上有序扩充数据量,同时不断进行数据的修订与完善。
徐俊认为,未来,古籍数字化需要政府、企业、社会三方面努力,为数字出版营造良好的政策和法律环境,让优秀中华文化走出书本,得到更好地使用和传承。(本报记者 李 慧)