3.2.2 语言语料库
统计语言学习离不开语言数据,语料库就是存放语言样本的数据库。从20世纪80年代以来,基于规则的语言分析方法不能覆盖海量语言事实,特别是互联网的兴起,导致语料规模暴增。因此,急需建设多语种、多媒体、跨地域的语料库。语料库涉及建设、加工、管理、应用多个环节,可以分为以下几类:以语料库内容加工程度划分为生语料库和标注语料库,以语料库代表性和平衡性为主要区分依据分为平衡语料库和平行语料库,以语料库用途为划分依据的通用语料库和专用语料库。上述语料库也会随着语料分布时间而变化更新[6]。
1.生语料库和标注语料库
这是从语料库加工层次看,生语料是没有加工过的原始语料,而标注语料库则是针对自然语言处理流程中各节点对应的语料资源进行分析,经过加工处理并标注了信息的语料库。其中,分析内容主要包括词法标注、句法成分标注、语义角色标注、语用信息标注等,并辅助任意层次的标注。标注语料库包括分词语料库、分词与词性标注语料库、句法结构树库、篇章结构树库等。
2.平衡语料库与平行语料库
平衡语料库需要考虑语料的代表性和平衡性,同时兼顾语料的真实性、可靠性、科学性、代表性以及权威性。语料分布包括了科学领域分布、地域分布、时间分布和语体分布等,语料数量选取、语料使用场景、语料动态发展变化等,都会影响语料的平衡性。平行语料是指不同语言之间平行采样和加工-形成的语料,比如机器翻译中使用的双语对齐语料库、英语国家的英语比较研究语料库等,需要考虑跨语言语料选取的时间、对象、比例和文本数等问题,目前缺乏一个公认的平衡和平行语料库的构建标准。
3.通用语料库和专用语料库
在抽样时,考虑各领域平衡问题的语料库就是通用语料库;为了行业(专业)目的,只采集特定领域、地区、时间、类型的语料就是专用语料库,比如新闻语料、科技语料、中小学语料、北京口语语料等。这两个概念有相对性。
随着语料动态采集和动态加工,上述语料库的深加工也具有时序特征,形成了共时或历时语料库。然而,由于缺乏公认的语料库加工规范,难以重复利用和整合。此外,语料库也面临着知识产权问题,比如文本知识产权和语料库知识产权及衍生产品归属问题。未来,我们需要考虑语料库建设方式、数据和算法同步研究的发展模式。