如何给语料分类，语料分类的原则和标准

语料库建设中涉及的主要问题包括：
（1）设计和规划：主要考虑语料库的用途、类型、规模、实现手段、质量保证、可扩展性等。
（2）语料的采集：主要考虑语料获取、数据格式、字符编码、语料分类、文本描述，以及各类语料的比例以保持平衡性等。
（3）语料的加工：包括标注项目（词语单位、词性、句法、语义、语体、篇章结构等）标记集、标注规范和加工方式。
（4）语料管理系统的建设：包括数据维护（语料录入、校对、存储、修改、删除及语料描述信息项目管理）、语料自动加工（分词、标注、文本分割、合并、标记处理等）、用户功能（查询、检索、统计、打印等）。
（5）语料库的应用：针对语言学理论和应用领域中的各种问题，研究和开发处理语料的算法和工具。
我国语料库的建设始于80年代，当时的主要目标是汉语词汇统计研究。进入90年代以后，语料库方法在自然语言信息处理领域得到了广泛的应用，建立了各种类型的语料库，研究的内容涉及语料库建设中的各个问题。90年代末到新世纪初这几年是语料库开发和应用的进一步发展时期，除了语言信息处理和言语工程领域以外，语料库方法在语言教学、词典编纂、现代汉语和汉语史研究等方面也得到了越来越多的应用。
语料库与语言信息处理有着某种天然的联系。当人们还不了解语料库方法的时候，在自然语言理解和生成、机器翻译等研究中，分析语言的主要方法是基于规则的（Rule-based）。对于用规则无法表达或不能涵盖的语言事实，计算机就很难处理。语料库出现以后，人们利用它对大规模的自然语言进行调查和统计，建立统计语言模型，研究和应用基于统计的（Statistical-based）语言处理技术，在信息检索、文本分类、文本过滤、信息抽取等应用方向取得了进展。另一方面，语言信息处理技术的发展也为语料库的建设提供了支持。从字符编码、文本输入和整理，语料的自动分词和标注，到语料的统计和检索，自然语言信息处理的研究都为语料的加工提供了关键性的技术。

云奕文章网

如何给语料分类，语料分类的原则和标准

如何给语料分类，语料分类的原则和标准

相关推荐：