4 基于词频的现代汉语语体计量研究
4.1 引言
语体是在长期的语言运用过程中,为适应不同交际领域的需要而形成的民族共同语的功能变体,具体表现为:受语境类型制约而选择的语音、词语、句式、辞式等语言材料和手段所构成的语言运用特点体系。语言特征,即语音、词汇、句式与修辞等语言结构运用特点的综合,是语体形成的内部因素,也是语体的基本构成要素和语体研究的对象。语体特征的研究,不仅应该研究构成不同语体的语言结构有哪些,还应该研究这些结构使用了多少。因为语体受语言结构使用频率的影响,并由语言结构的频率差异引起。语言结构的计量特征是分析语体的物质基础。如果将语言交际活动视为语言结构出现的随机事件过程,就可以用统计规律对其进行客观描述,语体特征也就表现为语言结构的统计规律与差异。
然而,国内的语体研究“仍以定性研究为主”(赵雪,李平,2013:56),“思辨性研究占主导地位、量化研究方法尚未得到足够的重视”(邓鹂鸣等,2012:33)。相比之下,近些年来,国外的一些计量语言学家借鉴文献计量学、信息科学与经济学等相关理论,提出了一系列基于语言结构统计特征的文本计量指标,以20余种语言的真实文本对这些计量指标在语言类型学研究中的表现进行了探索,初步发现某些指标具有区别语言类型的作用(Popescu,2009:24)。这些指标在同一种语言的文本当中还可能因作者、语体等因素而有不同表现,即文本计量指标可能具有区别文本语体、风格或作者的作用。
那么,这些指标中哪些具备区分语体的作用呢?这是本章试图回答的主要问题。既然语体由语言结构使用频率差异引起,那么如果能够从文本的计量指标中找到语体的区别性特征,便能够为语体理论研究提供较为客观的数据支持,增强语体描写与比较研究的精确性。接下来的问题是:要研究哪个层面的语言结构计量特征呢?在语言系统当中,词汇层面的计量研究是最易于开展的。在语言使用当中,词汇方面的差异也是人们能够最直观感知到的。本章研究的文本计量指标均建立在词频统计的基础上,着重探讨这些基于词频统计的计量指标在不同语体文本中的差异。
基于词频的文本计量指标大多与文本的词汇丰富性有直接关系。词汇丰富性(lexical richness或vocabulary richness)指语言使用中的词汇丰富程度,通常包括复杂性、多样性、独特性、词汇密度、错误率等方面(Read,2000)。本章主要指词汇多样性(lexical diversity),即语言中用词是否丰富多样,是否较少重复。描述词汇丰富性的方法有很多,常用的是词的“型例比”(type/token ratio, TTR)以及在此基础上通过代数处理得到的各种变体(Herdan,1960)。最初的TTR值受文本长度影响很大(Arnaud, 1984; Richards,1987),后来的各种变体都是为了降低TTR对文本长度的敏感度。然而,这些研究没能完全避免文本长度的影响(Malvern & Richards,1997; Jarvis,2002;Durán et al.,2004;陆芸,2012)。另一种办法是在样本大小上做文章,例如抽取不同样本长度的Split TTR(Engber,1995; McKee et al.,2000)与截取等长样本的Equal TTR(Dizney & Roskens,1966; Biber,1988; Laufer,1991; Waller,1993)。但是,这样做不仅没能妥善解决TTR对文本长度的敏感性问题,还因截取或抽取语料样本徒增了语料代表性问题(张艳,陈纪梁,2012)。相比之下,基于词频的文本计量指标的计算以全篇文本为基础,因而不存在语料代表性问题。但是,词频指标在描述文本的词汇丰富性方面,特别是在区分语体的潜在可能中,是否也会受文本长度的影响呢?这是本章拟回答的另一个问题。
为了探讨这两个问题,本章在现代汉语真实文本中考察基于词频的文本计量指标与文本长度的关系,探索这些指标在区分语体方面的作用。第二节介绍研究使用的语料样本和统计方法,详细分析各项指标;第三节通过对现代汉语新闻语体语料的统计分析讨论文本的词频计量指标在区分语体方面的作用。