中国语言学年鉴2022：语料库研究与应用综述（一）

随着大数据和人工智能技术的深入发展，语料库语言学取得了一系列新进展。2021年度，语料库建设、语料库研究和以语料库作为工具的语言研究均涌现出诸多成果。语料库建设具备了更大规模的能力，语料库主题更加细化；语料库加工的精细化和自动化程度增强；语料库管理系统功能扩展，可用性提高；语言学、翻译、二语教学等领域广泛应用语料库方法开展研究，取得了丰硕的成果。

下面将先介绍2021年度中国语料库建设的基本情况，包括用于语言研究的现代汉语语料库、垂直领域专用语料库、平行语料库、中介语语料库和多模态语料库的建设情况；然后叙述语料库加工和管理方面的新进展，介绍语料库相关规范的修订情况，其中语料库管理方面着重介绍语料库分析系统的发展；最后分领域综述语料库应用的情况。

一、中国语料库建设的基本情况

2021年度国家社科基金立项中，涉及语料库的项目有18项，其中重大项目2项，重点项目3项，一般项目13项。18个项目中，明确包含语料库建设的有4项，分别为重大项目“围绕汉语的超大型多语汉外平行语料库集群研制与应用研究”，一般项目“中缅边境地区少数民族语言生态调查及语料库建设”“传统秦腔汉英多模态双语语料库构建与英译研究”“中原古都城市圈今官话、晋语的深度调查与语料库建设研究”，其余均是基于语料库的研究项目。此外，2021年中国社会科学院将“中国国家语料库建设”列为“十四五”规划重点建设项目，预计为期5年建设完毕。

在语料库建设方面，2021年度没有新的大规模通用型汉语语料库发布。语言研究及其他垂直领域新建了多个专用型语料库；平行语料库与中介语语料库有所发展；多模态语料库的研究热度较高，国内学者在多语言、多领域、多用途上做出新尝试。

（一）用于语言研究的汉语语料库建设

南京师范大学于2021年正式发布了“左传历史人文知识库”。该知识库以先秦历史典籍《左传》为对象，除分词、词性标注外，还标注了人名、地名、国别和地理位置信息，形成了多维标注的人文知识库。其中，分词与词性标注的语料已经用于2021年至2022年在法国举办的第一届古汉语分词和词性标注国际评测。该知识库使用可视化技术建成了在线查询网站，支持对词语、人物等要素的时空分布、人物游历距离等进行计量分析，为文史和语言的量化研究提供新的视角、数据标注方法与技术解决方案。

美国语言数据联盟（LDC）平台正式发布了南京师范大学和美国布兰迪斯大学合作建设的中文抽象语义表示语料库（2.0版，简称CAMR V2.0）。该语料库共包含20078句标注语料，采用基于图（graph）的形式化表示方法，对汉语整句语义进行了精细加工。该语料库在2020年国际跨语言语义解析评测CoNLL2020中作为训练和评测数据，取得了和英文几乎相同的标注效果，将汉语的语义自动分析精度从60%左右，大幅提升至81%，推动了汉语句子的自动分析技术。

兼语结构是汉语中常见的一种动词结构。侯文惠、曲维光、魏庭新等的《面向中文AMR标注体系的兼语语料库构建及兼语结构识别》 [《清华大学学报（自然科学版）》第9期 ] 总结出一套兼语语料库标注规范，构建了包含4760个兼语句的面向中文抽象语义表示（AMR）标注体系的兼语语料库，弥补了该类语料库的空白。该语料库将助益于自然语言处理中识别汉语兼语结构的工作。

零指代是汉语中普遍存在的一个现象，在汉英机器翻译、文本摘要以及阅读理解等众多自然语言处理任务中都起着重要作用，目前已成为自然语言处理领域的一个研究热点。孔芳、葛海柱、周国栋的《篇章视角的汉语零指代语料库构建》（《软件学报》第12期）提出了篇章视角的汉语零指代表示体系，对325篇文本进行了汉语零指代的标注，构建了服务于篇章分析的汉语零指代语料库。该语料库将为篇章视角的汉语零指代研究提供必要的支撑。

反问句是汉语中常用的表达方式，具有丰富的感情色彩，正确地识别反问句将会改善情感分析等任务的结果。李翔、朱晓旭、刘承伟等的《面向新闻评论的汉语反问句语料库构建》[《山西大学学报（自然科学版）》第3期 ] 提出了一种基于半监督学习和主动学习的半自动反问句语料收集方法，构建了面向新闻评论的汉语反问句语料库，语料库规模达到6000余句。

此外，王贵荣、饶高琦、荀恩东的《基于大规模语料库的现代汉语动宾搭配知识库构建》（《中文信息学报》第1期）总结了动宾搭配的知识体系并制定了相应的形式化检索式，通过从BCC语料库中抽取动宾搭配和初步消歧，获得了包含300万动宾搭配对的搭配知识库。

（二）垂直领域专用语料库建设

另外，其他垂直领域也广泛应用语料库促进本行业发展，对行业型、专业化的小型专用语料库建设开展研究，这类成果包括：

北京外国语大学DEAP学术英语语料库的多个子库建设完成。韩喜春、晏远方的《ArtDEAP艺术学术英语语料库的创建》（《语料库语言学》第1期），王丽、刘娣、邹茜的《EduDEAP教育学学术英语语料库的创建》（《语料库语言学》第1期），布占廷、吴亚静的《PhilDEAP哲学学术英语语料库的创建》（《语料库语言学》第1期），张乐的《StatDEAP统计学学术英语语料库的创建》（《语料库语言学》第2期）朱晓丽、吴敏的《MathDEAP数学学术英语语料库的创建》（《语料库语言学》第2期）分别对这些子库的建设情况进行了介绍，为广大专用英语（ESP）研究者提供了多样化的教学和研究资源。

在生态农业旅游领域，为了给海外游客提供便利以及更好地实现旅游文化推广，翟洁的《生态农业旅游语料库创建与分析》（《核农学报》第7期）创建并分析了生态农业旅游语料库，指出语料库在生态农业旅游中的运用可以有效为旅游英语翻译提供便捷，并且在很大程度上提高了旅游英语表达的规范性与旅游英语语言学习质量。化学行业中，陈峰、黄勇、王和私的《化工英语语料库的构建与应用前景》（《材料保护》第3期）研究了化工英语语料库的构建与应用前景，该类语料库对化工英语的教学和翻译研究，以及化工经济的发展都具有现实意义。麻建学的《粮油食品合同英汉平行语料库的建设及其在翻译中的应用》（《中国油脂》第9期）阐述了粮油食品合同英汉平行语料库的建设过程，并对其在翻译中的应用进行了研究。李秀文的《材料英语语料库的建设及应用——评〈复合材料与工程专业英语〉》（《材料保护》第3期）研究了材料英语语料库的建设及应用。

（三）平行语料库建设

徐秀玲、许家金的《燚炎英汉平行语料库的创建》（《语料库语言学》第1期）对北京外国语大学建设的燚炎英汉平行语料库的建设情况进行了介绍，该语料库是一个按布朗语料库模式创建的英汉平行语料库，由许家金统筹设计，徐秀玲等人完成语料的采集、整理、对齐工作。燚炎语料库含新闻、通用、学术、小说4种体裁，并可细分为15个子类。该语料库库共包含500对英汉平行文本，每对文本包含约2,000词的英语原文及其对应的汉语译文。该语料库总规模约260万字词，其中英语原文1,005,249词，汉语译文1,625,701字。

沙九、冯冲、周鹭琴等的《面向司法领域的高质量开源藏汉平行语料库构建》（《中文信息学报》第11期）提出了一种针对司法领域藏汉平行语料的轻量级构建方法，并据此构建了16万级规模的藏汉司法领域语料库。

李晓倩和胡开宝的《〈习近平谈治国理政〉多语平行语料库的建设与应用》（《外语电化教学》第3期）对29种语言的多语平行语料库的建设情况进行了介绍。该语料库收入了《习近平谈治国理政》第一、第二、第三卷所有已出版发行的原文及其不同语种译文。

胡霄钦和王秀丽的《法汉指称链条平行语料库的建设与应用》（《语料库语言学》第1期）介绍了法汉指称链条平行语料库的建设方法，包括语料库的设计、语料收集、语料加工、语料对齐、语料标注和指称链条平行语料库的检索及分析，旨在为其它语种指称链条平行语料库的构建提供可借鉴的方法和标准，并为汉法指称链条的对比研究及应用提供经验实例和数据模型。

（四）中介语语料库建设

由北京语言大学牵头的“全球汉语中介语语料库”（1.0版）2021年面向全球开放，张宝林的《“全球汉语中介语语料库”（1.0版）面向全球免费开放》（《世界汉语教学》第1期）对此进行了介绍。该语料库收入外国汉语学习者产出的原始语料2275万字，包括笔语语料、口语语料和视频语料。语料标注内容包括汉字、词汇、短语、句子和句子成分、语篇、语体、辞格、标点符号、口语语料库和视频语料的语音标注、视频语料的体态语标注等10个层面。该语料库为汉语教学与研究提供了较为充分的资源支持。

郝瑜鑫、王雪琳、刘海涛的《基于句法标注语料库的汉语中介语动词配价发展计量研究》（《语言文字应用》第1期）包含了句法标注中介语语料库的建设，该文基于该语料库对某高校一到四年级英语母语背景学习者汉语动词配价发展进行了计量研究，为二语教学提供了参考。

（五）多模态语料库建设

2021年度，国内学者在多语言、多领域、多用途上的多模态语料库建设上做出了新尝试。

徐琳宏、刘鑫、原伟等的《俄语多模态情感语料库的构建及应用》（《计算机科学》第11期）在分析多模态情感语料库的相关研究及情感分类方法的基础上，构建了包含181个场景、3278条话语，涉及82名发言人的俄语多模态情感语料库，解决了俄语的多模态情感语料库较少的问题。

黄立鹤和吴赟的《基于贴真体验与建模的多模态口译教学语料库构建及应用》（《外语教学理论与实践》第4期）研究了基于贴真体验与建模的多模态口译教学语料库构建及应用。探讨了口译活动亲历过程与口译教学贴真体验的关系，总结了基于贴真建模思路的分析框架构建及特征提取，并使用ELAN工具根据该思路对情境口译语料片段进行标注，对国内构建可触发学生贴真体验的多模态口译教学语料库具有指导意义。

林玉萍、郑尧月、郑好洁等的《基于医学影像分割方法的多模态语料库构建》（《模式识别与人工智能》第4期）构建了青光眼症状相关的多模态语料库。在建库过程中提出了基于深度水平集算法的医学影像分割方法，对青光眼症状的分割进行实验，实验结果可以精准分割眼底图像中的视盘和视杯。在分割结果的基础上，实现了结合自然语言处理技术标注电子病历文本。该语料库将有助于今后的病状判断与分析。

林玉萍、龙红龙、李彪等在《基于医学影像和病历文本的甲状腺多模态语料库构建与应用》 [ 《西北大学学报（自然科学版）》第2期 ] 中提出了一种基于特征筛选的深度学习分类方法，以精确识别甲状腺结节良、恶性肿瘤，将分析结果用于构建甲状腺多模态语料库。

李小华和唐青叶在《国内多模态翻译研究的可视化分析：现状、问题及建议》[《北京科技大学学报（社会科学版）》第5期 ] 中利用Citespace软件分析了2009至2020年国内多模态翻译的研究现状。该研究发现，2015年以来，多模态口语语料库的建设，以及基于多模态语料库的教学研究在翻译领域的重要性逐步提升。

孙旭、刘剑、付紫瑶等的《基于多模态语料库的痴呆老人言语行为特征研究》（《海外英语》第20期）通过田野采录疗养院现场情况，并使用ELAN工具对语料进行标注，建立了痴呆老人言行和未患病老人言行两个多模态语料库，有助于老年痴呆的早期预警和康复医疗。

未完待续

购书二维码

长按识别二维码

购买《中国语言学年鉴2022》

云奕文章网

中国语言学年鉴2022：语料库研究与应用综述（一）

相关推荐：