狂人之家 ——记录我们经历的这个时代
标题:
陈尚君:《中国基本古籍库》初感觉
[打印本页]
作者:
狂人
时间:
2015-3-14 19:51
标题:
陈尚君:《中国基本古籍库》初感觉
文|陈尚君
东方早报2009-8-9
《中国基本古籍库》(以下简称《古籍库》)无疑是中国近年古籍数码化方面最值得关注的成就。我所服务的学校图书馆最近花巨资购进可置于局域网的五机版,让我有机会通过校园网较便捷地利用,确实感觉到方便,也发现一些遗憾。谨此写出初步的感受,与学友分享,也提供主持制作者参酌。
据北京爱如生数字化技术研究中心网站(
http://www.er07.com/article/notice.jsp?typeId=118
)的介绍,《中国基本古籍库》先后列为 “全国高等院校古籍整理研究工作委员会重点项目”和 “国家重点电子出版物十五规划项目”,“由北京大学教授刘俊文总策划、总编纂、总监制,北京爱如生数字化技术研究中心开发制作,于2001年3月正式启动,2005年10月全部完成。共收录自先秦至民国(公元前11世纪至公元20世纪初)历代典籍1万种,选用版本12,800个,每种典籍均制成数码全文,并附所据版本及其它重要版本之原版影像,合计全文17亿字,影像1千万页,数据总量约320G。其收录范围涵盖全部中国历史与文化,其内容含量相当于3部《四库全书》,不但是世界目前最大的中文数字出版物,也是中国有史以来最大的历代典籍总汇。”我在最近两三个月内,较频繁地利用《古籍库》,除上述如各大数字无法一一核实,基本情况感觉是属实的叙述。《四库全书》各库收书稍有出入,一般来说是3500种稍弱。收书到一万种,接近三倍于四库,清末民初以前最重要的基本典籍,可以大致周备,对学者当然是很鼓舞的消息。我特别欣喜看到,地方志部分收录200多种,存世的宋元方志以及天一阁明方志的主体部分,都有了电子文本。其他许多清中期以后的著作、四库没有收录的著作可以得到数码全文,也很方便学者。
除了收书数量多,《古籍库》在技术层面为读者考虑上尽了很大努力:阅读界面每页大约800字,字体选用清晰的仿宋体,页面可以横读也可以竖读;所有的古籍都配有原版影像,以便对照;文本可以直接打印;读者可以标点批注,可以分类收集,也可以下载编辑;文本旁边可以显示该书目录,以便读者可以前后翻检,了解所见文本的位置。稍微不便的是文本的复制,限定每次只能复制200字,即一个页面的文字要分四次纔能复制完成。制作者认为这样可以减少大批量复制的可能,尽可能地保护制作者的所有权,用意是可以理解的。另外,似乎在阅读文本时,如果要对阅原版影像,要立即到达该页位置,好像不太方便,当然这也可能是我操作能力不够所造成。
《古籍库》的检索,利用了新开发的ASE检索系统,可以进行分类检索、条目检索、全文检索和高级检索,速度都可以在两秒内完成。实际操作后,可以发现全文检索的结果,每一则都有检索词汇前后文内容的摘录,而且所有检索出来的条目,大体可以按照各书时代前后排列,这对于古籍阅读者在海量检得文献中迅速作出判断,无疑是很必要的。
《古籍库》没有采用传统古籍的四部分类法,而是重新设计为哲科、史地、艺文、综合四库,其中哲科库包括思想、宗教、政治、经济、法制、军事、科技、农业、医学等部,史地库包括历史、地理、外国三部,艺文库包括语文、文学、艺术三部,综合库包括教育、体育、生活、术数、其他五部(类书杂纂、金石目录、西学译着),各部下再分三级类目,总约100目。这样分类,大约主要是考虑现代学者特别是不熟悉古籍四部分类法的读者查阅的方便。就如同四部分类法也有不够科学的地方,新分类法当然也有一些可以再斟酌的地方。如历史库的杂录琐闻目下,收录历代笔记野史800多种,大约将四部分类中的史部杂史类、子部中的小说家类、杂家类很多著作都包括进去了。文学类的诗文别集目下收书超过2700种,即全库的四分之一多,就太嫌拥挤了。演艺杂技目、回教经籍目仅含6种书,启蒙思想目仅含8种,耶教经籍目含10种,收书都很少,显得不够匀称。农学类下有时令节气目,生活类下又有节序礼俗目,本来都归史部岁时类。清玩鉴藏目和书法绘画目下都收了大量书画类书,区分界限也不太清楚。归类方面大体妥当,细节偶有出入,如《祖堂集》应归入佛教而收入五代别集,《杜诗言志》、《李义山诗解》都应归入别集而收入文学理论。
《古籍库》确定的“收书标准为:1、千古流传、脍炙人口之名著;2、虽非名著,但属于各学科之基本文献;3、虽非基本文献,但有拾遗补阙意义之作。”三点其实都很模糊。“名著”而又“千古流传、脍炙人口”,数量很少;“各学科之基本文献”,由于古今学科分野的不同,也很难定义;至于“拾遗补阙”,则凡先人存留至今的任何文献,都具备这些价值。当然,就《古籍库》入收的一万种古籍来说,历代各类主要典籍,绝大多数都收录了,是值得肯定的。没有收录的书,就大类来说,一是汉译佛经全部未收,不知是否认为这些天竺遗文,不宜归入“中国基本古籍”,但连“西学译著”都收,不收《金刚经》、《心经》,不收玄奘的译经,总有些说不过去吧。二是辑佚丛书未收,如马国翰《玉函山房辑佚书》、黄奭《黄氏逸书考》以及汤球的辑佚书,全部没有收入。就某些类已收书来说,如佛教仅106种,道教139种,本草仅录16种,都远不足以反映该学科的成就。至于具有名著或基本文献意义而应该收录的书,我认为医学类著作缺收苏敬《唐修本草》、王怀隐《太平圣惠方》,全国地方总志缺宋王象之《舆地纪胜》,宋人小说缺刘斧《青琐高议》及佚名《绿窗新话》,戏曲方面缺《永乐大典》戏文三种,类书缺《白孔六帖》、《永乐大典》,丛书缺陶宗仪《说郛》,书目缺宋佚名《秘书省续编到四库缺书目》,金石缺清陆增祥《八琼室金石补正》,总集应增加《文选集注》。别集方面,陶渊明集宜增加陶澍注本;曹植集应增加丁晏《曹集铨评》;杜诗注本应增加浦起龙《读杜心解》和杨伦《杜诗镜铨》;李白集应增加杨齐贤、萧士赟《分类补注李太白诗》;颜真卿文集应增加清黄本骥编《三长物斋丛书》本《颜鲁公文集》;白居易已收四部丛刊影印日本那波道圆活字本《白氏文集》,还应收宋绍兴刊《白氏长庆集》,以保存中日传本的不同。此外,日、韩人所著与中国文史研究关系密切的著作,如空海《文镜秘府论》、藤原佐世《日本国见在书目》,也宜收录。
就各书的版本来说,《古籍库》确认的标准为“1、完本而非残本;2、母本或晚出精刻精钞精校本;3、未经删削窜改之本。”就目前国内古籍版本的可利用条件来说,这是大体可行的办法。总体来说能够贯彻始终,在披检中我还见到一些以前没有特别关注的文本,这里就不例举了。细节仍有些出入。比如宋洪迈《万首唐人绝句》,原书101卷,通行善本是1955年文学古籍刊行社影印明嘉靖本。清修四库时,所得为不全的九十卷本。《古籍库》仅录四库本,考虑欠周到。再如宋江少虞《宋朝事实类苑》,以董康影印日本藏78卷本为最善。清修四库时,仅得63卷之文本。现《古籍库》在存录版本时有这两种版本的影本,但录文仍用四库本,很可惜未用足本。宋陈舜俞《庐山记》五卷,清人所见三卷本,其实是将此书前两卷分拆而成,无论四库本或《守山阁丛书》本都不全。近代以来五卷足本始出,常见有《吉石庵丛书》影印日本高山寺古写本以及《殷礼在斯堂丛书》、《大正藏》排印本,稍微有些残缺,目前所知以日本内阁文库藏宋刊本为最善。《古籍库》仅用《守山阁丛书》本,可以说是通行各本中最差的文本。
最不可理解的是,《古籍库》所收书,几乎全部将原书的序跋删去,不作保留。甚至连所附可作备检的版本影像,这部分好像也作了删除。比如我手边有与《古籍库》所据一样的版本,以《四部丛刊》来说,杜牧《樊川文集》卷首有裴延翰序,黄滔《黄御史集》卷首有洪迈序,权德舆《权载之文集》卷首有杨嗣复序,殷璠《河岳英灵集》卷首有自序,都没有保存。其他版本如《续古逸丛书》本《杜工部集》卷首有王洙《杜工部集记》,另《资治通鉴》有神宗序和司马光进表、《通典》有杜佑序,也都删掉了。以上书序对于研究之重要,我想不必作更多的说明了。我偶然查检一些书而对此感到意外,再随机抽检上百种书以后,发现这居然是全部《古籍库》贯彻始终的体例时,不能不对此感到遗憾。不了解制作者这样处理的原因是什么,觉得古人著作的所有序跋,都如同现在一些场面的领导题词或名人捧场般没有价值,还是觉得《古籍库》的目的仅是供一般读者随意阅读,不准备作为研究者参考的文本。似乎很难找到可以解释的合适理由。以前所见《四库全书》或《四部丛刊》全文检索,似乎都没有出现这样的问题。
就古籍数码全文的录入准确性来说,由于所涉古籍数量巨大,各书的录文质量也因原本文字的规范清晰与否而颇有出入。就我个人的接触来说,最初的印象还是相当欣悦,觉得录文准确在预期以上。比较困惑的是最常用的“面”字,包括“东面”、“南面”、“面对”等,几乎很少例外地全部作“麵”,以致不断可以见到“東麵”、“南麵”、“麵對”等。检阅稍多,逐渐发现某些书或某些卷次录文错误颇多。试以宋本《杜工部集》前三卷中一些几乎家喻户晓的名篇为例(引文中加括号注出正字)。有些属于录误,如《北征》:“學母無不爲,曉樁(粧)隨手抹。”《洗兵马》:“成王功大心轉小,郭柏(相)謀深古來少。”更多的则属在繁简互换中造成的错误,如《奉赠韦左丞丈二十二韵》:“李邕求識麵(面),王翰願葡(卜)鄰。”《自京赴奉先县咏怀五百字》:“以茲悟生理,獨恥事幹(干)謁。”“吾寧舍一哀,裏(里)巷亦嗚咽。”《北征》:“坡陀望鄜畤,巖穀(谷)互出沒。” “問事競輓須(挽鬚),誰能即嗔喝。” “見耶背麵(面)啼,垢膩腳不襪。” “瘦妻麵複(面復)光,癡女頭自櫛。” 《赠卫八处士》:“主稱會麵(面)難,一舉累十觴。”《偪仄行赠毕耀》:“速宜相就飲一鬥(斗),恰有三百青銅錢。” 《饮中八仙歌》:“李白一鬥(斗)詩百篇,長安市上酒家眠。”《兵车行》在短短十句中就有四字误录:“耶娘妻子走相送,塵埃不見鹹(咸)陽橋。牽衣頓足欄道哭,哭聲直上幹(干)雲霄。道傍過者問行人,行人但雲(云)點行頻。或從十五北防河,便至四十西營田。去時裏(里)正與裹頭,歸來頭白還戍邊。”繁简体转换由于当年在设计文字改革方案时,不少繁字改简字利用了本来不是同一字的同音字,造成今日电子文本转换中的困惑。估计文本输入的实际操作者由一些文化水平并不高的工人完成,最后也没有经过具有识字能力的专业人员校核,因此留下很多遗憾。当然也有另外一种可能,即前引网站介绍称 “字体转换:可实现文字的繁简、大小、粗细及色彩的自由转换。”其中文字的大小、粗细、色彩的自由转换,在技术上当然早已解决,但繁简要自由转换,就目前来说,似乎还没有技术手段保证不错。(為示例方便,本节引文保留繁体字)
古籍数码化是一项利在当代、功存千秋的工作,不仅给学者以检用古籍的方便,也必将给文史学术的研究带来革命性的变化。现在各种古籍电子文本层出不穷,许多学者都作搜集,但就我所接触的一些学者的认识来说,基本态度是适度利用,谨慎处理,凡加引用,务核善本,不敢轻易信据。从最初的《全唐诗》全文检索算起,中国古籍电子化工作经历了将近二十年的努力,在知识产权无法得到有力保障的大环境下,有关努力始终在追求商业目标和学术建树之间艰难前行,到《古籍库》的完成,成就很显著,但问题仍多。古籍文献学是一门历史悠久而学术要求严格的学问,正是因为有几千年来无数先人持续不懈的努力,才得以有数量巨大的典籍保存到现代。前人治学讲言必有据,孤证不立,重视善本,以古为尚,会校众本,不轻改古书,值得今人师法。我认为古籍数码化的工作必然会经历从无到有、从有到精的过程,在规模初备以后,应该在提高准确性和学术性方面作进一步的努力。换句话说,现在的第一步工作,应该是古籍数码全文录入能反映一种古籍版本的面貌,文字的错误律应该如同纸质出版物那样少于万分之一。以后能够进一步,则希望同一本书可以反映多种版本的不同面貌,同时也应充分吸取现代古籍整理点校的成绩和古今学者研究的见解,从整体上带动中国学术的飞跃。《古籍库》首页说明中称:“可随时进行软件升级和数据更新以确保在持续改进中日趋完善。”从2005年10月建成至今已近四年,应该已经进行多次更新,可惜现在看不到有关记录。对此,我始终保持期待。
2009年7月22日
欢迎光临 狂人之家 ——记录我们经历的这个时代 (http://daxuehewei.com/)
Powered by Discuz! X3.2