4.2 语料与方法_计量语言学研究进展-QQ阅读男生武侠网

上QQ阅读APP看书，第一时间看更新

4.2 语料与方法

4.2.1 语料样本

语体特征涉及的语言结构要素繁多，语体分类标准与层级体系复杂。为了尽量控制影响因素，本章将研究范围限定在现代汉语新闻语体中。新闻语体是现代汉语中的典型语体，具有较好的代表性和规范性；报道和评论是新闻语体中最典型的两类。因此，从语体（口语和书面语）和文体（报道与评论）这两个因素考虑，确定了口语报道、口语评论、书面报道和书面评论四类新闻语料样本。每类样本选取30个文本，每个文本都是一篇完整的新闻文本。口语报道选自2006年6月北京电视台《首都经济报道》节目与2006年1月北京电视台《特别关注》节目的转写文本，这两个节目是“说新闻”的典型代表。口语评论选自2011年10月至2012年1月中央电视台《焦点访谈》节目的转写文本（不包括采访内容）。书面报道选自2011年12月至2012年1月的《人民日报》头版的新闻报道文本。书面评论选自2011年10月至2012年1月《人民日报》的社论和评论员文章。这些语料使用由中国传媒大学胡凤国副教授开发的CUCSegTag程序进行了自动分词并加以人工校对，然后编写程序算出每个样本的词频数据作为下一步计算各项词频计量指标的基础。

4.2.2 词频指标

词x在一个文本中的出现次数即该词的使用频次，记为f（x）。将文本中所有词的频次按降序排列，f（x）在序列中的秩（次序）记为r（x）。r（x）与f（x）形成的序列对称为词频（word frequency）。例如表4.1，第1列rank=x是自然数序列，第2列f（x）是每个词的使用频次。这个文本中共有107个不同词型，总共出现了178次。文本中的总词型数（即通常所说的词汇量）记为V（V=r max），总词次数（文本长度的一种计量方式）记为N（N=f（r））第3列F（x）称为累积频次，F（x）=1 f（x）。第4列至第6列依次为频率秩（rrel）、频率（frel）和累积频率（Frel），其中rrel =（其中r即rank=x）, frel（x）= ，Frel（x）=。图4.1（a）是该文本的词频曲线，图4.1（b）是累积词频曲线，图4.1（c）和图4.1（d）分别是频率曲线与累积频率曲线。

表4.1 文本词频数据示例

图4.1 文本词频曲线示例

与词频相对应的另一个概念是“词频谱”（word frequency spectrum）。在一个文本中，出现频次为x的词的个数记为g（x）, x与g（x）形成的序列对（按x升序排列）就称为词频谱。例如表4.2，在某文本中，单现词（hapax）共有77个，出现过2次的词有17个。G（x）是g（x）的累加，表示出现次数小于等于x的词的总个数，即G（x）=g（x），其最大值即文本的词型数V。grel（x）表示g（x）在V中所占的比例，即grel（x）=；Grel（x）表示G（x）在V中所占的比例，即Grel（x）=。W是频次x的个数（不包括零值）。图4.2（a）是示例文本的词频谱曲线，图4.2（b）是累积词频谱曲线，图4.2（c）和图4.2（d）分别是词频谱率曲线与累积词频谱率曲线。

表4.2 文本词频谱数据示例

图4.2 文本词频谱曲线示例

在上述词频与词频谱数据与曲线的基础上，可以定义以下一些文本的计量指标。

A.h点（h-point）、indicator-a与指标R1

Hirsch（2005）提出的用h指标衡量学者个人论文产出数量和质量的方法引起了文献计量学等领域的广泛关注。Popescu等人将其引入语言学领域（Popescu & Altmann, 2006; Popescu,2009）。在文本的词频曲线中（例如图4.1（a））, h点是指频次f（x）与秩r（x）相等的点，即f（h）=h。如果文本的词频数据中不存在这样一个实际观测值，可以通过计算得到一个具有相同意义的h值（参考Popescu（2009:17-19）与Strauss et al.（2008:100））。h点将词频曲线分成了助词—句法意义词（auxiliaries, synsemantics, etc.）与实义词（autosemantics）两个部分（可以近似理解为虚词与实词两部分）。在x∈[1, h]的范围内是虚词部分，它们虽然数量不多（相对于文本的词型数V），在文本中的使用频次却具有绝对优势；在x∈（h, V]的范围内是大量的实词，虽然它们的使用频次在文本中并不高，却在词汇丰富性方面做出了更多贡献。

然而，h点作为一个文本词频计量指标并不十分理想，因为它与文本长度N相关。Popescu（2009）认为，h点与文本长度N之间存在N=ah2的关系。因此，。这使得原本受文本长度影响而不便在文本间进行比较的h点可以通过指标a（indicator-a）来进行比较。Popescu（2009:23）同时指出，h点与indicator-a既可以作为语言类型学上分析综合维度的统计量，又可以作为一种语言内部关于文本特征的统计量。但是，indicator-a的意义并不像h点作为实词与虚词的分界点那样明确。不同类别的文本在实词与虚词使用方面可能有所不同，那么indicator-a作为一个与h点有关的词频统计量能否反映出这种不同来？如果可以，是否受文本长度的影响呢？寻找基于词频（谱）的文本区别性特征，正是本章研究的目的之一。

有了文本词频的h点，在累积频率曲线上（图4.1（d）），以x=rrel（h）为分界线，曲线下的面积被分成两部分。其中左侧的面积代表了虚词在文本中的累积概率，右侧面积则代表了实词在文本中的累积概率。那么，与h点有关的另一个词频指标——文本中的实词覆盖率R1就可以定义为：。在实际文本的词频曲线中，h点左边有时也会有实词，右边也会有虚词出现，公式中的是针对这种情况的微调。

上述指标是建立在词频数据基础上的。如果将相同的想法应用于词频谱数据，就产生了下面一组指标。

B.k点（k-point）、indicator-b与指标R2

在词频谱中，k点是使得频谱g（x）与秩r（x）相等的点，即g（k）=k。在文本的词频谱曲线中（例如图4.2（a））, k点左边是低频词，右边是高频词。

与通过indicator-a来消除文本长度对h点统计量的影响一样，可以通过indicator-b来消除文本长度对k点统计量的影响。只是这次使用的手段不是文本的词次数N，而是词型数V，因为k是关于词频谱数据的统计量。indicator-b的计算公式为：。它是从词频谱方面定义的一个关于文本高频词与低频词使用情况的统计量。

在累积词频谱率曲线上（图4.2（d））观察k点，以x=rrel（k）为分界线，曲线下的面积被分为两部分。其中左侧的面积代表了大量低频词的词型数在文本总词汇量中的比例；右侧的面积代表了少量的高频词的比例。那么，表示低频词的词型数在文本总词汇量中比例的指标R2就可以定义为：。与R1的计算公式类似，R2的公式中以给予修正。

以上两组指标是建立在词频曲线和词频谱曲线上的。除了这两条曲线外，还可以通过累积频率曲线来研究文本的词频特征。

C.m点（m-point）、m点覆盖率（m-coverage）与指标R3

累积频率曲线上（图4.1（d）），累积频率的秩rrel与累积频率Frel都在区间（0,1]内。该曲线上的任意一点到点（0,1）的距离为：。理论上，该曲线上存在这样一个点，它与点（0,1）之间的距离最短。这个点记为m点，m是使得距离D最小时的rrel的值。Frel（m）表示的是 rrel =m时的累积频率，称为 m点覆盖率（m-coverage）（Popescu,2009:52）。那么，m点覆盖率究竟是什么呢？m点将曲线分成了两部分。位于m点左侧的词使用频次相对较高，位于m点右侧的则是那些只出现一两次或少数几次的词，暂且称之为“罕见词”，其实也是另一种程度上的非常用词。Frel（m）是位于m点左侧的词的累积频率，即m点覆盖率。那么，表示非常用词覆盖率的词频指标R3就可以定义为：R3=1-Frel（m）。

上述三组指标都是建立在按频次由多到少排序的词频（谱）数据上的，如果将词频按由少到多排列，又会有下面的新发现。

D．基尼系数（Gini's coefficient）、指标 R4、n点（n-point）与 n点覆盖率（n-coverage）

词频数据如果按照频次由小到大排列，如表4.3所示，fr为词频，r为序列的秩，rr为相对秩，pr为词出现的概率（即频率）, Fr为累积概率（频率），其中。以表4.3数据为基础的累积频率曲线中（图4.3），观测曲线（实线）位于理论直线（虚线，通过点与点（1,1），可以近似为直线y=x）下方。理论直线代表了每个词被均衡地使用次的情况。观测曲线从定义来看，实际上就是经济学中的洛伦茨曲线（Lorenz curve）。将洛伦茨曲线与理论直线间的面积记为G，即基尼系数（Gini's coefficient）。G越大，文本中词的使用就越不均衡；反之G越小，文本中词的使用就越趋于平均。为了更直观地使用基尼系数，可以从词汇使用均衡程度的角度定义一个新的词频指标，即：R4 =1-G，其中：（Popescu,2009:57）。

文本洛伦茨曲线上的任一点到点（1,0）的距离。类似于在累积频率曲线上定义m点的方式，在洛伦茨曲线上定义一个n点（n-point）:n点是洛伦茨曲线上到点（1,0）距离最小的点。通常这个点是非常用词。将n点的累积概率记为Fr（n），它表示的是位于 n点之前的所有词的累积频率，称之为 n点覆盖率（n-coverage）。洛伦茨曲线与累积频率曲线建立在互为倒序的词频数据基础上，它们具有一种对称性（以点为圆心旋转180度），存在如下关系：Fr（n）=1-Frel（m）=R3。

表4.3 倒序词频数据示例

图4.3 文本洛伦茨曲线示例

上述四组指标当中，多个指标与距离、面积等几何概念有关。下面这一组指标则直接使用了几何面积来定义文本的词频特征。

E．词频几何学指标A、B和A/B

观察词频曲线，点（1, f（1））是曲线上的第一个点，代表使用频次最高的那个词；点（V,1）是曲线上的最后一个点。由这两个点与h点（h,h）构成了一个三角形。这个三角形的面积记为Ah，则：（h向下取整数）。Ah的理论最大值记为Amax，则：。指标A定义为Ah与Amax的比值，即：。从面积的角度去理解，指标A表示在给定词汇量V与文本长度N的情况下的词汇利用率。利用率越高，被频繁使用的词数量就越多，词汇丰富性就越小；若利用率越低，文本中低频次词的数量就越多，词汇丰富性就越大。指标A是一个能够反映词汇丰富性的统计量。

相应地，在词频谱曲线上，点（1, g（1））代表文本中的单现词，点（W,1）代表文本中使用频次最高的词。由这两个点与k点（k,k）构成了一个三角形。其面积记为Bk，则：Bk=。Bk的理论最大值记为Bmax，则：Bmax=（W-1）（g（1）-1）。指标B定义为Bk与Bmax的比值，即：。在词汇量V与文本长度N给定的情况下，Bk的大小取决于k点的位置。当三角形的面积Bk越小时，低频词的数量就越多，文本的词汇丰富性就越大。指标B也是一个能够描述词汇丰富性的统计量，它从词谱频的角度对文本词汇利用率进行测量。

指标A与指标B的比值（即A/B）称为“措辞指标”（wording indicator），这个指标反映了文本在词、词形、用词的重复与变异方面的综合特征（Popescu & Altmann,2006）。

以上五组指标分别从实词与虚词、常用词与非常用词、词汇使用均衡程度、词汇利用率等角度对文本的词汇丰富性进行测量。此外，还可以从词频（谱）的集中程度和多样性方面进行考察。

F．重复率与熵

重复率（repeat rate）是描述集中程度的统计量。词频的重复率：；词频谱的重复率：。在词频中，重复率高（即集中程度高）意味着有更多的词重复出现。极端情况是文本中只有一个词被重复使用了N次，此时RRr =1，词汇丰富性达到最小值。在词频谱中，重复率高（即集中程度高）意味着有更多的词向低频次使用趋势靠拢。极端情况是所有的词都只使用1次，此时RRs =1，词汇丰富性达到最大值。由于重复率RRr∈,RRs∈，数值都比较小，也可以采用相对重复率来表示。相对重复率的计算有两种不同的方法（Popescu,2009:167），分别是：RRr, rel =，RRs, rel=或RRr, rel2 =，RRs, rel2 =。相对重复率与词汇丰富性的关系同重复率与词汇丰富性的关系恰好相反。

熵（entropy）是用于描述多样性、不一致性和不确定性的统计量。词频的熵：Hr =；词频谱的熵：Hs =。在词频中：熵越小，集中于某一部分的词的数量越多；熵越大，词分布得就越均匀。在词频谱中：熵越小，词分布得就越均匀；熵越大，词的使用就越趋向于不均衡。Hr∈（0, ld（V））, Hs∈（0, ld（W））。为了在具有不同总量（指文本长度N或词汇量V）的样本间进行比较，通常采用相对熵。词频的相对熵：Hr, rel =；词频谱的相对熵：Hs, rel =。

表4.4简要总结了上述15项词频（谱）指标。

表4.4 基于词频（谱）的文本计量指标

4.2.3 研究方法

首先，根据上述公式计算研究使用的120个新闻语料文本的全部指标。在此基础上，通过散点图观察各指标分别与文本长度、词汇量的关系，然后通过以各项指标为因变量、以语体和文体因素为自变量、以文本长度为协变量进行的方差分析来寻找能够区分文本的词频计量指标。之所以将文本长度作为协变量在方差分析中进行考察，主要是为了确定这些计量指标在不同长度的文本中的稳健性，探索这些指标在区分文本过程中是否受文本长度的影响。