4月17日下午,武汉大学教授、数字人文研究中心主任王晓光在华东师大闵行校区图书馆做了“全球视野下的数字人文:研究与实践”的演讲,从数字人文的时代兴起的背景谈起,解释相关概念、研究对象、研究方法和工具、发展趋势等,最后谈到了在大数据时代关于人文社科研究路径创新的问题。该演讲系华东师范大学第五届思勉人文思想节的系列名家演讲活动中的一场,由华东师范大学中文系教授、图书馆馆长胡晓明主持。以下系演讲现场实录稿节选。(澎湃新闻实习记者 潘体芳)
武汉大学教授、数字人文研究中心主任王晓光在华东师大闵行校区图书馆做了“全球视野下的数字人文:研究与实践”的演讲数字人文兴起的时代背景
自然科学和社会科学主要是揭示研究对象的基本性质和规律,研究的目的是为了获得对象的普遍知识。但是人文学科更关心人的生存及其意义,更关心的是人的价值存在和价值实现。柏拉图说我们要建设理想和美好的社会,但是理想和美好的社会是什么样的?并不是规律,是我们探索的过程,而且不同的学者的认知、目标是有差别的。
2005年美国总统信息技术咨询委员会(PITAC)发布的报告中,提出计算机科学虽然本身就是一门学科,但是这门学科可以促进其他学科的发展,而且21世纪在经济上最有前途的研究前沿,都有可能通过熟练掌握的先进计算机技术并且运用技术得到解决,计算思维、计算技术的发展可以整体上推动美国所有学科的发展,保证它全方位的竞争力。不仅仅是在信息产业上的竞争力,计算有赋能的作用,可以赋予其他学科更大的能力。
我们现在关心的是怎样利用计算思维来和其他思维一起推动思维的进步,以及解决问题方式的进步。今天的计算机技术是上个世纪40年代开始发展的,60年代有了数据库,80年代有了互联网,90年代有了物联网,21世纪有了大数据,人工智能发展了,技术在不断进步,在进步的同时我们的理念在创新,技术不仅仅作为富有的赋能,还带来了人的思维改变。此外还有知识共享和开源。今天软件开发开源的思想是非常重要的,像谷歌公司把最重要的算法开源了,推动了算法不断迭代更新。还有大众的协同,比如维基百科,知识生产让每个人都能参与进来,而不仅仅是专家。还有人机协同,今天人工智能发展,未来人将会跟机器协同处理各种工作。
技术的进步同时,人的思维理念也在进步。在自然科学领域,计算机彻底改变了自然科学研究的面貌。自然科学领域里对于计算机的技术已经有相当深刻的运用,比如美国高校的化学研究,现在第一步就是做计算,用高性能计算机做模拟分析,筛选出几百个或者几十个分子式,再做传统的化学实验,而不是先做实验再计算。
在社会科学领域,研究怎么样利用计算机建模模拟和分析各种各样社会现象?怎么样利用计算机数据分析来做?用计算机和大数据来做,计算机相关技术已经在改变社科研究的基本过程。到了互联网时代,大量依靠大数据来做研究,比如传播研究领域用社交媒体来做,用社交媒体推特上的数据,而不是抽样的小样样本做社会关系方面的研究。
人文学科虽然关注的是个体、群体以及社会整体的精神或意义世界,但是这不意味着人文学术和知识生产活动不会受到技术的影响。有些学者尤其是资深老牌学者,可能对技术有一定抵触,但是我们发现人文学术研究不可能离开技术的影响,因为人文学科生产的知识成果,直接表现为各种形式化的符号,如文字、图像、声音、视频。
信息技术改变了目前的信息环境,信息化环境带来了互联网、带来了大数据,人文知识的表现样式也被改变了。信息技术已经在改变人文学术具体研究对象,研究对象很多时候就是符号,以及符号上承载的思想,进而通过改变、通过影响符号而影响整个人文学术的流程,所以人文学科的数字化转型,是社会数字化转型的重要的组成部分。但是在转型之中,我们必须要明白到底人文学科里面什么东西没有改变?人文学科的终极目标会否改变?会不会因为数字化影响发生改变?对于这个问题我们必须保持高度的警戒。
什么是数字人文
数字人文在最早的时候称之为人文计算,追溯到1949年意大利神父罗伯托布萨在IBM公司帮助下对神学家托马斯的研究工作。当年对于托马斯的作品使用的还是传统的计算机,拿的是传统的卡片,有500份,成本相当昂贵。到了1954年,出现了磁带,开始做迁移,转移到了磁带上,数据量达到了1500多万的数字量。
我们发现,人文计算的起点就是文献资料的电子化。电子技术把印刷的东西开始进行电子化,不仅改变了人们获取资料的方式,也改变了使用的方式。
计算机科学家说,使用的工具影响了思维方式和思维习惯,也将深刻影响我们的思维能力。在我们使用印刷术的时候和使用电子技术的时候,看起来好象是资料的一种改变,实际上在改变我们的思维,在改变我们的思维能力,这种认识就逐渐地推动了人文计算思维的发展。怎么样利用计算机技术来解决和发现人文问题,并解决人文问题新的思维模式,导致人文计算的产生。人文计算理念首先在于语言学,在此之后逐渐向其他领域扩展,向历史、艺术、音乐、宗教其他人文学科开始扩散。不仅仅是技术的扩散,实际上是思维模式的扩散。从人文计算到数字人文,这个词汇有变化的过程,西方在1980年代的时候一直用的是人文计算,从2004年开始,我们改变了话语。话语的改变有时候蕴含着一种思想的改变,计算这个词听起来对于人文学科来说有点刺耳,一直强调的是思想怎么计算有点刺耳。
数字人文研究什么?
数字人文研究什么?数字人文是计算或者数字技术和人文学科的交叉点,包括的是系统化使用数字资源。在人文研究领域里面使用数字资源,一方面包括数据,另一方面包括各种各样数字化工具,以及对这个过程的反思性的行为。数字人文宣言中也进行了尝试性的定义:用一种新的从事学术的方式(强调的是协作、跨学科、计算化的切入)在教学、出版和研究过程中使用计算技术(强调了这样的特征,把数字技术和数字方法、数字工具用到了人文研究里面)。
在这个领域里面,印刷不再是唯一的重要的媒介,数字工具、各种技术和数字媒介正在改变知识的生产和传播,媒介技术的改变对人类知识生产和传播、教学方面的改变是底层的,改变了知识的状态,这是非常颠覆性的改变。
今天,人类刚刚进入数字社会,我们在这样的初始阶段所认识到的数字技术对于社会的影响,仍然是不全面的,是非常粗浅的。
数字人文的研究主题、方法和工具
到底数字人文领域里面研究什么主题?传统的人文研究从来不会想到建模,说到建模是数学工作,或者是计算机领域的事,但是数字人文的研究非常强调建模,我们今天使用主题模型去做大的文本集合关键主题的提取,我们需要新工具方法帮助我们研究实现新的需求。
我把数字人文分成了三个方面。
第一,数字层面。怎么样利用新的信息化技术,创新方法和研究路径?比如说建设预料库挖掘,进行专题数据库进行挖掘统计分析,比如说通过文本挖掘技术,还有图像自动识别技术,去分析潜在的隐层的模式出来,让计算机辅助我们理解,以前这种情况主要靠人,但是大的模式人是解读不出来,所以需要计算机帮助我们来做,所以工具在任何时代、任何学科都是非常重要的解剖的工具。
第二,工具层面。我们需要开发新的工具或者软件平台,比如数字出版工具。
第三,数字人文研究不仅仅是强调资源上的改变、工具和方法的改变,更加强调的是面向未来真正新的问题。问题可能由技术带来的,比如互联网虚拟现实、大数据、人工智能带来新的问题。也可能是技术对于资本主义的影响,比如说对我们国家经济影响,电子商务、数据的遗忘权等。人类正在向数字社会迁移,在数字社会里面我们遇到新的传统的社会不会遇到的问题。
数字人文的研究流程,在方法上能分成:获取数据、创作、分享数据、分析数据、解释数据、分发数据和活动,这些活动都是数字分析方法的应用,涉及工具很多,比如在出版方面、图像的处理上面管理与分析方面,文本编码分析。
中国当代数字人文发展的重点
具体来看目前中国当代数字人文发展的重点是什么?目前来说重点对几大数据库,对它的研究项目做了统计,对国家社科教育部基金用数字数据库做了统计,我们发现相关的项目非常多,而且增长速度开始在加速增长,从2009年开始加速,在早期的时候量不是很大,但是从09年开始加速增长,如果看这个不是很清楚,我们再看看社科重大和重点基金代表了我们国家顶层,或者学者们的集中判断,他们的基本认识,重大和重点基金里面,在09年以前基本没有关于数字人文的项目,但是09年以后一下子变成了9个,2016年变成了18个翻倍了,到了2017年又再次翻倍达到37个,目前社科重大基金里面仅仅十分之一都是做数据库建设的,我们来看这些项目,拓本数据库、体育非物质文化数据库、方言数据库、俗语数据库、唐宋编辑地图、藏语语料库等等,抗战数据库,这些数据库项目是最重要的,目前我们还停留在数字资源建设的层面上,看词频越大代表词频越高,数据库语料数据库建设,目前数据库建设是数字人文研究里面基础设施建设的基础部分,是少不了。
我们起步并不算晚,最早的时候仅仅是项目检索结果可以追溯到1991年,那个时候武汉大学情报学院前身,现在是管理学院,那个时候老的系管主任,还有在91年清华大学也做了数据库建设,后来系主任焦老师也做了数据库的工作,都是比较早的。现在2017年社科重大的十分之一都和这个相关的,2018年我没有做统计,但是基本接近40多个都是做数据库建设的,社科重大基金里面,现在更加宽了,比如说铜鼓数字记录、少数民族民族数据库记录、手工艺要素数据库、户籍制度数据库、档案数据库、古籍档案、民间信仰数据库,族谱数据库等等,通过这些看到今天资料数据库整理是工作很重要的一部分。
还有数据平台建设,比如北京大学开放数据平台,复旦大学人文领域平台,一方面学者自己做数据库,高校做数据平台,支撑数据库建设很重要。我们介绍一下数据研究中心的工作,我们主要做智慧数据,主要是人文社科数据资料数字化处理方法,还有人文社科相关的数据分析软件,我们做软件开放出来给学者们使用。我们做成果,数据可视化、语音分析、文本挖掘等等开发成果,这是主题演化可视化分析语义增强、语义检索记录等等。这是我们做的诗歌制图,我们把以前的诗歌只是传统的样式,但是变成知识图谱,我们对文化图谱进行了标注,对敦煌相关文献做了知识图谱构造,这是以前不存在的工作。这是我们对莫高窟做了标注,用了多种方法。
为什么谈智慧数据?是战略问题,人文社科今天的研究,正在计算思维下有新的变化,比如有开放思维、计算量化思维、协同思维、跨学科思维和关联度思维,这是人文数字化以后带来新的思维变化,除了需要大数据支撑,还需要关联数据,需要开放资源,同时我们希望有Smart、data,有一些特征,比如说长达2000年全球协作、数据驱动、融合性的分析和视觉化的分析,这是数字人文基本特征,需要新的思维和新的数据作为支撑,这个时候我们这个学科干这个事,就是提供新的数据做支撑的,我们做什么?因为我们认识到基本的认识,就是数据科学正在成为所有的现代科学基础性的学科,尤其是在人文领域里面,随着传统文献资源数字化,一切文献都可能会成为一种可计算数据,数据科学不仅仅是自然科学,还在支撑人文社科,以前我们的人文社科主要靠脑袋想,以后可能还会有数据的处理问题,这个时候都依赖于数据科学的发展,而我们数据科学基础理论一个研究方向,而且数据处理和文献阅读对于人文学者来说是非常重要的,相对自然科学来说,人文学者更依赖于阅读和使用电子文献,因为花