编者按:
古籍传承保护是人文社科研究的重要领域,以大数据和人工智能等为代表的信息技术,为古籍传承保护与相关研究提供了新方法,注入了新活力。为集中探讨智能信息环境下古典文献领域的新技术、新工具和新平台,古典文献研究新方向,古典文献教学新变化,古籍整理出版新趋势,北京大学数字人文研究中心、北京大学人工智能研究院共同主办了“古籍智能信息处理”(以下简称“古籍智能”)系列研讨会,并在腾讯会议等平台同步直播,平均在线参加人数超过千人。
2022年3月12日举办的第一讲以“智能时代古典文献学的机遇与挑战”为主题,拉开了“古籍智能”系列研讨会的序幕。在致辞中,中国古籍保护协会刘惠平会长期待各方“在知识体系的多元碰撞中进一步凝聚共识,推动中华古籍在数字化、智能化环境下的深度开发与利用”;全国高等院校古籍整理研究工作委员会卢伟秘书长也强调要“推动古籍数字化、智能化平台的建设以及相关标准规范的形成”。会议由北京大学王军教授和杨海峥教授主持,杨海峥教授和清华大学刘石教授作主旨发言,浙江大学徐永明教授、复旦大学张晓虹教授、四川大学王兆鹏教授、华南理工大学金连文教授、韩国庆星大学许喆教授、上海图书馆刘炜研究员等分别发言。第二讲“古籍数字化平台的建设”于3月26日举行,多家古籍数字平台的创始人从古籍数字化平台的构建与演进、建设与研究模式、可持续化发展和商业探索,以及人才培养等方面进行了研讨。研讨会由北京大学杨海峥教授主持,浙江大学徐永明教授担任主讲人,四川大学王兆鹏教授、上海外国语大学欧阳剑研究馆员、中华书局古联公司总经理洪涛、元引科技有限公司创始人朱厚权发言。4月23日举行的第三讲主题为“历史地理信息系统的建设与发展”,探讨了历史地理信息系统平台建设、古旧地图数字化应用、重点区域历史地理信息沿革介绍、历史地理信息平台关键技术等问题。由复旦大学张晓虹教授主讲,首都师范大学张萍教授、北京大学王长松研究员、西安云图公司总经理张学宝发言。
古籍智能信息处理也是数字人文的重要面向,对数字基础设施建设及相关研究开展意义重大,相信“古籍智能”系列研讨会将成为中国数字人文发展的一个里程碑。因此本刊在会议发言基础上整理成系列笔谈,以飨读者。本期刊发前三组,今后将根据研讨会进度继续推出,敬请关注。
系列笔谈之一:智能时代古典文献学的机遇与挑战
北京大学数字人文研究中心
王军(北京大学信息管理系):智能信息环境对古典文献学的挑战
以大数据和人工智能为代表的信息技术迅猛发展,给各个领域带来了诸多挑战,也提供了前所未有的机遇,古典文献学这门古老的学问也不例外。对于文献整理工作来说,人工智能技术主要体现在对信息环境的改变。人类的信息环境,从金石简帛到抄本、刻本,再到现代铅印和激光照排,一直发展到今天数字化与网络化的互联网融媒体环境。今天,我们正面临一个更大的变革,就是智能信息环境。所谓智能信息环境,就是人机协同的信息环境,即我们从使用机器辅助查找、通过网络环境快速获取信息,演进到对深层知识和知识结构的抽取。在这样的大环境下,古典文献面临着一系列的挑战。首先,它会影响到古籍整理出版行业。根据姜小青老师在《中国出版史研究》上发表的文章统计,从1949年到2019年的七十年间共整理出版了37,973种古籍。[1]根据《中国古籍总目》,存世的中国古籍总计约二十万种。按照以往的速度,还需要300年左右才能完成所有存世典籍的整理工作。在人工智能技术的辅助之下,包括OCR文字识别、自动标点、命名实体识别等步骤,我们很有可能在数十年间就完成所有典籍的数字化整理。此外,更大的影响在于智能技术将使得古籍整理工作的重点发生改变。过去古籍整理的目标是把传统纸本古籍经过对勘、点校、释义等整理环节后再出版,方便现代读者阅读。在智能技术的支持下,现在我们可以将古籍中所蕴藏的古代历史文化知识抽取出来,构造成各种各样的知识库,转化为知识图谱的形态来支持各类互联网前端应用,例如,我们可以将从古籍里抽取出来的知识整合到“抖音”或“今日头条”中,使它在更大范围内让广大网民触及,这是在智能技术支持下可开辟的新领域。也就是说,古典文献可以为深度学习等智能技术提供丰富的古代历史文化语料。
我认为古典文献学与相关领域的跨界融合会越来越明显。智能技术与古典文献学研究的结合,会使得建立在古典文献基础之上的古代历史、古代文学、古代思想史、语言学等学科的研究出现渗透融合的趋势。因此,如何形成多学科交叉的课程体系、培养复合型的古典文献学人才是高校古典文献专业亟待解决的问题。与此同时,也要更加重视传统的古籍研读训练,深耕阅读文化,通过古籍阅读提升全民人文素养。
今天,我们所处的互联互通的全球互联网环境使得跨文化、跨地域的交流与合作无比便捷。中国古籍不仅是中国的文化遗产,也是世界文明不可或缺的一部分。我认为,充分利用中华典籍这一宝贵的文化遗产来促进国际文化交流和世界和平,也是古典文献学义不容辞的责任。
现在是古籍数字化和古籍智能化开发的好时机。今天,既有政府主管部门的支持,也有出版社和众多数据库厂商的努力。我们高兴地看到像字节跳动、阿里这样一些互联网大厂也进入到这一领域。此外,还有广大的古籍爱好者在积极地参与和推动。如何凝聚多方力量,广泛动员社会参与,促进多方协作、促进开放共享,也是“古籍智能”系列研讨会要讨论的主题。
杨海峥(北京大学中国语言文学系):变革中的古典文献学
谈到智能时代古典文献学的机遇和挑战,我们首先要对传统的文献学进行回顾,即传统意义上的文献和文献学到底是什么。
“文献”这个词,最早出现在《论语》中:
子曰:“夏礼,吾能言之,杞不足征也;殷礼吾能言之,宋不足征也。文献不足故也,足则吾能征之矣。”
东汉郑玄分别以“文章”和“贤才”来解释这里出现的“文”和“献”。我们结合具体时代背景可知,孔子所说的“文献”是针对涵盖范围非常广泛的儒家的“礼”而言的。要把这些包括国家典章制度乃至个人道德规范、行为准则的庞大概念和广泛的内容传达下去,既需要成文的记录,也需要博学多识的贤才,这就是“文献”最初的含义,它是由典籍和贤才两方面构成的。“文献”的概念在使用的过程中也慢慢发生改变,元明以后,我们在提到“文献”的时候,就更加偏重于“文”,也就是文献典籍了。《现代汉语词典》和《汉语大词典》都提到“所谓的文献就是有历史价值或参考价值的图书资料”,这是我们今天对“文献”的定义。我们所说的古代文献,或者说古典文献,从今天学科分类的角度来看,包含了文学、历史、哲学、语言、医学、法律、经济、科技、宗教等多学科的图书资料,涵盖了中国古代文化以及学术史的方方面面。
那么什么是“古典文献学”呢?中国古代没有文献学之名,但有文献学之实,就是把目录、版本、校勘融为一体的传统校雠之学。今天所说的古典文献学,从狭义来讲,是中国古代传统校雠之学的延伸。从广义来讲,可以概括为关于古代文献的阅读、整理、研究和利用的相关学问,是既研究古代文献的生成、使用、流传与衍变,又包含了古代文献的语言文字、文本形态以及思想内容等各个方面在内的综合学科。古典文献学关注的核心是文献的本体,而对于文献本体的研究又关联到古代文化和学术史的方方面面。
由于古典文献学作为一门学科具有这样的特点,所以要做古典文献学研究,既要有版本学、目录学、校勘学、辑佚学、辨伪学等与文献本体密切相关的基础知识,又要有文字学、音韵学、训诂学等传统小学知识作为必备的学术背景。1958年,国务院古籍整理出版规划领导小组在北京大学建立第一个专门培养古籍整理人才的古典文献学专业,并于次年开始招生,是全国高校中最早设立的培养古文献学研究与古籍整理专门人才的学术机构,成为新中国古籍学科专业建设的开端。1981年9月,中共中央下发了《关于整理我国古籍的指示》,全国古籍整理研究事业走向繁荣,古典文献学科也进入快速发展时期,经过六十多年的发展,在古籍整理与研究、古典文献学人才培养等方面取得了显著成绩。
当代社会已进入信息时代。信息技术的发展和运用,对人类社会生活的各个方面产生巨大影响,古籍保护、整理和出版事业也不例外。古籍数字化技术的运用,既对传统的古籍保护、整理和出版工作模式提出挑战,也为古籍保护、整理和出版提供了重大机遇,必将带来古籍保护、整理和出版工作的革命性变化。古籍数字化无疑是当代古籍保护、整理和出版工作的主要发展方向。
中国古籍数字化是随着改革开放以来科技的进步而开始的,经过了起步、探索、基本完善再到商业应用和网络化的过程,至今有40年的历史。最初的古籍数字化是将古籍通过图片扫描和文本处理手段,将古籍的内容变成电脑的可读数据。之后又发展了强大的检索功能。像《四库全书》、二十四史等规模很大的古籍,因为有电子版的文本及检索方式,大大扩大了使用者的范围,也提高了古籍图书的使用效率。与传统纸本相比,使用方便、检索快捷是数字化古籍的优势所在。
随着科技的发展,古籍数字化也在不断发展和进步,近年来“中国基本古籍库”“中华经典古籍库”等古籍数据库的开发,又将古籍数字化推进到了一个新的阶段。数字化古籍在古籍的传播和利用上已经显现出极大的优势,在学术研究中的利用率也在不断提高。2018年4月,中华书局下属古联(北京)数字传媒科技有限公司负责建设和运营的“籍合网”正式上线,“籍合网”集中整合多种古籍数字化产品,提供标点、注释、校勘、翻译等在线编辑模块,在强大的资源支撑下,古籍整理者可以方便地参考和利用已有成果。古书的自动翻译和标点,繁简字体的转换,通假字的识别等成为目前古籍数字化的热点。
比如北京大学数字人文研究中心开发的“吾与点”古籍智能处理系统,通过用机器大规模采集古汉语语料,实现了自动句读、命名实体识别等基本的古籍整理功能。自动标点、自动分词、自动关系识别等高级功能,也在陆续地开放、测试。系统能够处理各类古籍文本,无论是先秦典籍还是明清小说,目前模型在混合类文本测试集上的句读平均准确率超过94%,达到了实用标准。在《尚书》《春秋》等先秦上古语料上对人名、地名的泛化识别准确率分别达到87%和82%。这表明当前基于预训练模型的深度学习方法在中华古籍文本上的句读和专有名词识别已经取得与专业人员相媲美的表现。这一较高的准确率也让我们思考,在智能时代可以对古籍的传统句读方式做一些怎样的调整。
再比如北京大学数字人文研究中心所开发的“宋元学案知识图谱系统”,对240万字的《宋元学案》进行了文本处理和分析,将学案中的人物、时间、地点、著作以及它们之间的复杂语义关系提取出来构造成知识图谱,提供可视化展现、交互式浏览、语义化查询等功能。系统以知识图谱为底层数据结构,根据文本设计了系统功能和界面,提供了“概览”和“精读”两大类功能。读者可以纵览整个学术史衍化脉络和完整的师承关系网络,从中选取感兴趣的人物、地点、事件、学说来汇聚相关的资料,观察学者的游历行迹,阅读其学说精华片段,考察其学术关系网络。系统还为读者提供了年号对照、宋代地图和职官图等背景知识辅助工具。也就是说它将所涉及的学者之间完整的师承关系,以及我们所感兴趣的人物、地点、事件、学说等相关资料都汇集在一起。通过使用“宋元学案知识图谱”,可以便捷地获得相关学术史的演化脉络。
由上可知,新技术和新流程给古籍整理与研究带来了极大的便利,也提供了新的思路。同时,智能时代也使传统的古典文献学面临机遇和挑战。人文学者如何参与到古籍数字化的具体工作中,如何与技术人员合作,需要具备哪些方面的新知识,如何保证结果的准确性,不被机器“误导”而是能更好地“利用”,这也是我们面对的挑战。此前已经有学者指出,古籍数字化的理论问题比技术问题更为重要,因为一旦理论发生了偏差,技术越高明,则解决方案越是难以成功。
我们需要培养出对古文献学、古籍保护、信息技术及数字化流程都比较熟悉,又能将各方面有机融合的古籍数字化人才,这类人才不仅要对古籍及传统文化有清晰的认识,更要以信息技术作为手段来传播、推广古籍善本资源以及包含在古籍中的传统文化内涵,同时还能承担古籍数字化的建设及运营管理等工作。
古典文献学可以说是我国历史最为悠久的传统学科之一,研究方法成熟。所以我们在进一步夯实学生传统的古典文献学基础的前提下,要适应智能时代古籍工作的需要,推进学科交叉,将信息智能技术和传统的中国古典文献学相结合,探讨古籍人才培养的新思路、新方法。通过举办系列讲座、设立选修课、暑期学校等形式,使学生了解智能信息环境下古典文献领域应用的技术、工具和平台,了解古典文献研究的新拓展和新方向,在多元碰撞中思考人文与科技之间的关系,根据新时代的要求在研究方法和课程体系上进行有效的调整。不是简单地拼合信息技术和古典文献学两个学科,而是将两个学科有机融合,达到在传统文献学基础上推陈出新的效果。探索出适应新时代要求的古籍人才培养模式成为了我们需要思考和解决的当务之急。
总之,作为一位学习古典文献学出身,一直在高校从事古典文献学教学的老师,我对于古籍整理及古典文献学研究在智能时代所面临的机遇和挑战深有感受。现在北京大学数字人文研究中心筹办“古籍智能信息处理”系列研讨会,把古典文献学、数字人文、人工智能等各个领域的专家学者汇集到一起,对古籍智能信息处理所涉及的各个子领域做深入的讨论和交流,大范围地普及和传播古籍智能领域的相关知识和技术,这对于促进在智能信息环境下古籍整理和研究所需要的跨学科人才培养,拓展古典文献学的研究方法,以及推进古典文献学和相关的文史领域的研究,都将发挥非常重大的作用。
刘石(清华大学中国语言文学系):大数据时代的新型文献学
这几年来,我们在数字人文方面做了一些工作,比如,申请了国家社科基金重大项目“基于大数据技术的古代文学经典文本分析与研究”;创办了《数字人文》刊物;建立了国内首家数字人文门户网站;开设了“DH数字人文”微信公众号。我们一直致力于培养年轻的数字人文学者,这学期第一次开设了数字人文相关课程,承担课程的老师也是我们团队的成员,不仅有古代文学专业的老师,还有计算机、统计专业学的老师。
以上工作都是以数字人文为核心的。按我自己的理解,“数字”是一个内涵丰富、多层面的概念,由不同的角度、不同的学科、不同的方法共同支撑起来。对于我们清华大学数字人文团队来说,确实是以古典文献作为研究基础,或者说古典文献是近些年我们的着力点。去年我和李飞跃老师合写的一篇文章《大数据技术与传统文献学的现代转型》,[2]同本次研讨会主题比较吻合,才敢和大家汇报一些我们的想法。
文献学的发展有一个漫长的历程。文献的载体从甲骨金石、简牍缣帛,到纸张,再到现在的数字化文献。大数据技术带来了文献的数字化时代,必然而且已经引发了文献的变化。我们将此变化从三个角度来标识:文献生产的创革,文本形态的新变和知识获取的拓展。这三方面的变化,最终一定会促进目前就已经开始了的传统文献学的现代转型。我们从这个角度来观察,可以发明大数据技术下新型文献学的实践功能,而且也可以借此认识大数据技术与传统学术本身的深层关联。
当时我们写这篇文章,背后有一个认识,即数字人文时代的到来毕竟还算是初期,并不是所有人都能够理解,这是很正常的。包括我们自身在这个浩瀚无比的“海洋”能够做多少、能够认识多少,是很难说的。所以,有人对数字化产生不理解,认为它可能会破坏传统学术应有的发展,都是非常正常的。在这个情况下,我们