2.4 汉语词长分布演化
在本节中,我们将会深入考察汉语的词长分布演化与齐普夫—阿列克谢耶夫公式中参数a演化的关系。之所以选用汉语作为考察的对象,主要原因是汉语是当今唯一发展了上千年而没有中断的古老语言,这对我们的历时考察非常有利。另外,还有一个原因是Popescu et al.(2014)通过参数a对不同语言进行分组的结果显示,汉语与他们所考察的近一半语言具有相似性。这说明,对汉语进行词长分布的考察具有语言共通性。
具体来说,本节旨在解决以下几个问题:
(1)汉语的历时词长分布是否都能用齐普夫—阿列克谢耶夫公式进行拟合?
(2)如果问题1的答案是可以,那么齐普夫—阿列克谢耶夫公式中的参数a是否展示出历时的变化规律?
(3)汉语词长分布表现出了怎样的历时变化规律?参数a的变化是否与词长的变化有内在联系,其联系的机制是什么?
(4)从历时角度看,汉语词长和词频之间是否仍表现出了相互依存的关系,是否符合幂律分布?从词长和词频关系拟合模型的参数历时变化是否能够看出汉语词汇发展演变的一些规律?
我们知道汉语的历史文本大多是文言文的,只有很小一部分是白话文,这种情况时代越远越突出。因此,选择合适的、能最大程度反映各时代真实口语面貌的文本是科学考察汉语历时词长分布的关键点。
我们认为,白话小说是比较合适的选择,原因有二:其一,白话小说是最为接近时代口语特点的文体;其二,选择白话小说,语体风格唯一,这就更易于解读齐普夫—阿列克谢耶夫公式中参数的可能历时变化。
白话小说起于唐宋,但为了保证可靠性,我们从宋元算起,分四个时段,即“宋元、明、清、现当代”,时代的划分以及语料的选取我们参考了徐时仪(2015)。宋元距今有1000年上下,四个历时阶段文本的选取情况见表2.18,由于宋元时期文本较少,为了保证每个时段语料大小的一致性,后面三个时段的语料都参照宋元语料规模做了随机选取操作。值得注意的是,宋元阶段《京本通俗小说》语篇的选取也参考徐时仪(2015)做了一些取舍。
表2.18 历时文本语料
关于语料选取的大小问题,Strauss et al.(2006:277-294)认为,一方面,统计更长的文本不一定能够产生更好的结果,另一方面,增加文本长度也不必然会产生更坏的结果。因此,统计文本的选择要适宜,既要能反映时代语言的特色,又要便于语言处理。另外,该文还认为,“具有同质性的文本不会干扰语言规律的得出,而不具有同质性的文本则会导致文本统计失真”。
这样的语料选取,一方面,在保证语料具有代表性的同时,又便于语料的人工参与处理,从而保证分词的正确率;另一方面,保证了统计语料的同质性,使不同时段的统计结果具有可比性。
为了提高研究结果的准确性,数据收集过程中研究者剔除了语料库中的人名、地名、机构名等专有名词,以及一些外来语。由于文本规模较大,且白话文本较文言文更接近当代汉语,我们用ICTCLAS 2008对所有语料进行了分词处理,并且人工核对结果,保证处理结果的正确率在98%以上。然后研究者用Java语言编写了一套计算机程序,统计出了每个语料库中不同词长(按音节,一般一个字即为一个音节)词汇的词汇类符数、词汇总数和平均词汇数(即“平均词频”)。
本节所用的回归分析、模型估参及拟合度检验工具是NLREG和Altmann-Fitter。数学模型拟合度检验的主要依据是拟合优度R2的值,如果该值越接近1,说明观察数据与数学模型的拟合效果越好。
2.4.1 历时词长分布
词长分布有两种类型:一种是静态词长分布,即基于词形的词长分布;另一种是动态词长分布,即基于词例的词长分布。静态词长分布展示了随着语言发展,词汇总量的构成变化在长度上的状况;动态词长分布则展示了随着语言发展,实际使用中词汇的长度构成变化。简单地说,它们的差异在于静态词的计算不重复,而动态词的计算则是可重复的。然而,静态词长分布和动态词长分布又是密切相关的,词的产生和词的使用是相互密不可分且相互作用的。
表2.19和表2.20分别是静态和动态词长分布的历时数据。在表2.19中,Xi是词长,Fi是静态词频(即词形数), Pi是静态词长分布概率。而在表2.20中,Xi是词长,是动态词频(即词例数), 是动态词长分布概率。Pi和的值精确到0.0001。
表2.19 历时汉语文本的静态词长分布及各词长占比
表2.20 历时汉语文本的动态词长分布及各词长占比
据表2.19、表2.20:(1)单音节词数从宋元到明、清略有上升,但基本保持在近4300个,差别不是很明显,然而在现当代语料中降到3327,下降非常明显。通过两个表中数据计算平均词频,可以得出,各个长度的词频从宋元到清有明显下降,到现当代又有显著回升。一句话来说,从宋元到清,单音节词语数基本呈增加趋势,但平均使用频数减少;再到现当代单音节词语数减少,但使用频数增加。(2)对于双音节,从宋元到现当代,词数和平均频数都一直呈增长趋势。(3)三音节和四音节从宋元到现当代词数基本处于增长趋势。(4)五音节、六音节及七音节词无论词数还是平均频数都较低,且变化不大。
综合来看,汉语词长的发展趋势是多音节化。以二、三、四音节词汇(词形)占整体比重而言,从宋元到现当代依次为75.68%、77.88%、79.22%、85.59%。可以看出,到现当代后词汇的多音节化趋势明显加快了。但从词汇的使用,即词符角度来说,却有较大的波动性,二、三、四音节词汇所占整体比从宋元到现当代依次为17.79%、35.59%、23.85%、31.49%,而且远小于单音节词符的占比。
为了更直观地对比不同时段的词长分布差异,我们绘制了词长分布图2.17、图2.18。
图2.17 基于词形的词长概率分布(静态词长分布)
图2.18 基于词例的词长概率分布(动态词长分布)
从图2.17、图2.18的词长分布可以看出,尽管不同时段的词长分布在某个特定词长上有些差异,但更重要的是,它们的分布趋势基本是相同的,也就是说,从宋元至现当代,在汉语词长分布上(不管是词形还是词例上),它们的整体趋势是相似的。
我们先用齐普夫—阿列克谢耶夫公式y=cxa+blnx对静态词长分布和动态词长分布的各个时段的数据(即Fi和值)进行拟合,结果显示静态的拟合成功,而动态的拟合失败。这意味着这一模型不适合拟合动态的词长分布。其原因可能是,从类型学的角度来看,几乎所有的语言的静态词长分布都是钟形分布,而动态词长分布并不如此(Altmann,2013)。因此,后面我们选取了另一个更适合的模型——Beta公式,重新对动态词长分布的数据进行了拟合。
图2.19是静态词长分布拟合的结果。
图2.19 用齐普夫—阿列克谢耶夫公式对历时静态词长分布进行拟合
图2.19显示了静态词长分布的拟合结果,可以看到,它们的分布倾向于钟形分布。表2.21是拟合参数结果及拟合优度。
表2.21 用齐普夫—阿列克谢耶夫公式对历时静态词长分布进行拟合的参数
我们可以从表2.21中看到,参数a的值从时段1到时段3一直在增长,而到了时段4虽有所降低但仍大于时段1和时段2。从这组数据来看,它似乎不能支持之前的齐普夫阿列克谢耶夫公式中的参数a随时间增长的假设。但如果我们换一个思路,即认为如果这个假设是对的,那么我们该如何解释时段4时a的值反而比时段3小了呢?我们认为主要原因可能是时段4的词长类1的概率急剧降低造成的,如图2.18所示。时段4的词长类1为什么会急剧下降呢?20世纪初汉字简化运动及汉语词的多音节化趋势增强是主要的原因。另一个很可能的原因是文本选择的问题。
然后我们用Beta公式
对动态词长分布进行了拟合。在Beta公式中,x表示词长类,y表示词概率(此处即指), C是常数且在本章分析中是非重要参数,a和b是两个表示高低排序数据点的标度指数,n是层级变量的上限(这里指最大词长类),参数b→0极限相当于幂律公式。
图2.20是拟合结果图,可以看出词长类1的概率在减少,而词长类2、3和4等较高级词长类的概率在增加。
图2.20 用Beta公式对动态词长分布数据拟合
表2.22展示了图2.20中参数估计和拟合优度。
表2.22 用Beta公式对动态词长分布数据拟合参数
我们可以从表2.22中看到,参数a的值随着时间推移而变小,而与此相反,参数b的值随着时间推移而增加。结合上面所说的Beta公式参数的意义,这里的两个参数值的演化意味着高位数据点的变小(即单音节词概率的减少)和低位数据点的变大(即多音节词概率的增加)。这两个参数的变化如实反映了汉语动态词长分布的历时演化过程。
然而,由于上面用齐普夫—阿列克谢耶夫公式拟合静态词长分布数据时参数a的值的演化没有完全反映参数a的值随着语言语龄的增加而变大的假设,我们需要更进一步的考察来看参数a的值的演化是否存在规律。
为了进一步考察,我们提出以下两种方法。第一,我们用四个常用的数据分布计量指标(将在下文介绍)对词长分布数据进行考察,看看词长历时分布是否在这四个指标上表现出什么规律。第二,为了反映词长分布的未来变化趋势,我们为每个词长类建立演化模型,获取每个新阶段的词长分布数据,然后再次运用齐普夫—阿列克谢耶夫公式对数据进行拟合,并观察参数a的值的变化趋势。
首先来看第一种方法的结果。
我们使用的四个常用分布统计指标是:(a)型例比(type/token ratio);(b)方差(variance);(c)偏度(skewness);(d)峰度(kurtosis)。结果见图2.21。
图2.21 四个统计指标的历时变化
第一个统计指标——型例比,常被用作词汇丰富度的测量指标。我们可以从图2.21(a)中看到,它的值随着时间变小。这说明,就本章所用文本而言,词汇的丰富度是呈减少趋势的。
第二个统计指标——方差,即我们常用的标准差的平方值,常被用作分布的宽度测量。从图2.21(b)中我们可以看到,它的值在逐渐增大,也就是说,汉语词长分布的宽度越来越大。这说明了汉语词汇使用从以单音节为主到以单音节和多音节共同为主的演化路径。
第三个统计指标——偏度,常被用作分布的对称度考察。偏度值为0意味着分布是完全的对称,而越大的正(负)偏度值意味着分布平均值的右(左)侧的长尾越明显。我们可以从图2.21(c)中看到,汉语词长分布的偏度值随着时间变大,这意味着其分布平均值右侧的长尾越来越明显(即越来越多的高词长类如四音节词、五音节词、六音节词等的出现)。
第四个统计指标——峰度,它与分布的尖峰和厚尾有关。一般来说,较大的峰度值(kurtosis>3)反映的分布是高尖峰和厚长尾分布特点(Kalimeri et al.,2015)。我们可以从图2.21(d)中看到,词长分布的峰度值随着时间增加(并且都大于4),这说明汉语词长分布越来越具有高尖峰和厚长尾的特点。
综合以上四个指标的统计结果,我们可以初步得出结论:汉语词汇发展有着明显的倾向于多音节化的趋势。
下面我们再来看第二种方法。对于每一个词长类的四个阶段的值,我们分别都用线性模型y=ax+b进行拟合,并根据获得的参数来预测将来的值。例如,对于词长类1,用y=ax+b对四个时段的数据进行拟合后获得的线性公式为y=-0.03251x+0.28345,然后我们就可以获得时段5(即未来第一个时段,其与时段4的间隔与前四个时段之间的间隔相同)的词长类1的词概率值是0.1209。由于时段4的词长类1的词概率值是0.1373,词频是3327,我们就可以通过比例算出时段5的词长类1的词频数是2929.60(小数存在是由于词频数是由比例算出,而非实测,最终拟合数据时进行四舍五入处理)。
以此类推,通过对每个词长类的数据进行拟合,我们得到图2.22(词长大于4的词长类没有进行拟合,原因是其占比极其小,可以忽略不计)。
图2.22 汉语静态历时词长分布各词长类的线性拟合
我们从图2.22可以看到,词长类1的词概率线性减少,词长类2、3和4的词概率线性增加。然后我们按照四个词长类的拟合公式计算出未来四个时段的词长分布数据,如表2.23所示。需要说明的是,由于词长类5、6和7的词概率在前四个时段变化极小,因此在未来四个时段(时段5至时段8)中,我们仍用时段4的数据代替。除此之外,考虑到词汇总数也会随着时间增长,我们也需要建立一个词汇总量线性增长模型,并将表2.23中的词长分布数据标准化,从而获得能够反映词汇增长的标准化各词长类频数。如何获得词汇总量的线性增长模型呢?做法跟各词长类的线性模型获取一样,我们用线性模型y=ax+b对时段1至时段4的词汇总量进行拟合,获得线性公式y=2063 x+15320,然后据此公式计算出未来四个时段的词汇总量。最终获得的各时段各词长类标准化频数见表2.23中的fi。
表2.23 预测未来时段5至时段8的词长分布数据
我们在获得了预测未来时段5至时段8的词长分布数据后,再次用齐普夫—阿列克谢耶夫公式对表2.23中的词长分布数据fi进行了拟合,结果参数、拟合优度见表2.24。
表2.24 用齐普夫—阿列克谢耶夫公式对未来时段5至时段8的词长分布预测数据进行拟合的结果
我们能从表2.24中看到,参数a的值从时段5到时段8是一直递增的。这就证实了关于齐普夫—阿列克谢耶夫公式中a值随语言语龄的增长而增加的假设。而接下来的问题是到底是什么语言因素的变化导致参数a的值随着语言语龄的增加而增加。
关于这个问题,首先我们要从词长分布的变化来看。通过观察时段1至时段4的词长分布曲线,我们会发现,其词长分布形状越来越趋向于钟形分布。而这其中的主要原因就是汉语多音节词随着时间增长。多音节词的增长反映在词长上的变化就是汉语所有词的平均词长在增长。这个发现或许会给我们一点启示。接下来我们就来看看汉语平均词长的历时变化。
平均词长是一个很重要的语言学特征,它在词汇层面反映了一种语言的复杂程度。“通过观察到平均词长λ与每个词长类的相对频数 pi之间的特殊关系,谢巴诺夫(Čebanov)第一次提出泊松分布是适合所有语言的词长分布模型。”(Grzybek,2006a)另外,平均词长(mean word length,简写为MWL)也常被用到语体类型的识别中去。
平均词长分为两种类型:静态平均词长(SMWL)和动态平均词长(DMWL)。静态平均词长的计算基于词形,公式为:
其中n表示词长类总数,Xi表示某一词长类i, 表示某一词长类i的词形数。
而动态平均词长的计算基于词例,公式为:
其中n表示词长类总数,Xi表示某一词长类i, Fi表示某一词长类i的词例数。
我们用线性公式y=ax+b对时段1至时段4的静态和动态平均词长数据进行拟合,结果见图2.23。
图2.23 汉语历时静态和动态平均词长线性拟合
我们可以从图2.23看到,静态平均词长和动态平均词长都随着时间增长。这意味着词长的增长可能是词长演化的一条基本规律。因此,我们可以推测,齐普夫—阿列克谢耶夫公式中参数a的演化可能与这一规律相关,即参数a的值随语言语龄的增长是由于平均词长的增加导致的。
观察图2.23我们发现,不管哪个时段,动态平均词长总是小于静态平均词长。这个现象可以用齐普夫的“最省力原则”来解释:在人类语言交流中,说话者总是倾向于使用较短的词语来表达同样的意义,以此来节省说话所做的功。因此,词长和其使用频率即词频有着密不可分的关系。我们可以推测出,在词长演化的过程中,其与词频的关系也可能发生了演化。下面我们将考察词长演化与词频的关系。
我们运用计量语言学中最常用的模型拟合工具Altmann-Fitter对汉语词频对词长的历时依存数据进行拟合、估参。以拟合优度R2为拟合优度标准,我们发现,四个时段的数据都符合幂律分布。
表2.25、表2.26是基于四个语料库的汉语词长与词频的关系表。其中,Xi表示词长,y表示词频(平均词频), y'表示依据公式y=axb计算出的理论词频,y″表示依据公式y=axbe-cx计算出的理论词频。
表2.25 “宋元”和“明”语料库中词长与词频之间的关系
表2.26 “清”和“现当代”语料库中词长与词频之间的关系
词长和词频的关系有两种描述方法,一种是以词频为自变量,词长为因变量;另一种是以词长为自变量,词频为因变量。关于前一种,即词长对词频的依存关系,之前很多学者已经有所验证,而后一种,即词频对词长的依存,学界所做的验证比较少。由于本章考察的是词长演化对词频的影响,我们遂采用后一种描述方法。具体方法为文本中所有的词按照词长排序,然后依次计算每个词长类中的词的平均使用频率(mean word ratio,缩写为MWR)。MWR的计算公式如下:
其中,Fi表示词长类i的词例数,表示词长类i的词形数。平均词频其实就是指某一词长类的词的平均使用频率。例如,本例中,词长类1的词例数为454820,词形数为4277,那么这一词长类的MWR就是106.34。
从表2.25、表2.26中四个语料库的平均词频y可知,在汉语中,从宋元到现当代,词频都和词长之间存在明显的依存关系:随着词长的增加,词频降低。例如,就“明”语料而言,随着词长的增加,词语的使用频数从单音节的100.3176逐渐降到七音节的1.0次。不过,本研究也注意到,对于一些长度较大的词如五音节、六音节、七音节的词,可能会出现一些波动,如明代的六音节的平均词长大于五音节,现当代中七音节的平均词长大于六音节。这些情况的出现是由于在汉语中高长度音节词的使用较少或极少,因此,其出现带有很大的偶然性,这是小样本语料统计无法避免的,但对于长度较短的音节词频统计不会出现这种情况。
由表2.25、表2.26还可知,随着词长的增加,词频降低的幅度是很大的,呈现出一种非线性模式变化。从表中我们对y=axb和y=axbe-cx两个模型的拟合数据结果来看,两个公式的拟合效果都很好,根据“奥卡姆剃刀”原理(这个原理被称为“如无必要,勿增实体”,即“简单有效原理”),我们倾向于认为y=axb更好些。
关于y=axb(即冥律定律公式)中的参数b, Baixeries et al.(2013)经考察得出,平均话语长度(mean length of utterance,缩写为MLU,其测量可以作为句法复杂度的一种简单测量方法)随着参数b的降低而增长。这一研究证明,冥律定律公式中的参数b与语言的复杂度是紧密相关、共同演化的。而具体到本章的平均词长,我们也可以推测它们之间的相关性。图2.24是本例中参数b的历时线性拟合。
图2.24 用线性公式y=ax+b拟合参数b的历时变化值
从图2.24中我们可以看到,参数b的值呈线性减少趋势。这表明词长与词频关系的幂律性的减弱,而这其中的原因就是多音节词的平均使用频率的增加。另外,如果认为平均词长可以作为测量语言复杂度的一个参数,那么汉语的复杂度是随着语龄的增加而增加的。
汉语词长的历时演化是一个多音节化的过程。除此之外,与之相关的几个因素也发生了共变。在词形成过程中,汉字是一直简化的,而根据彭泽润(2006),汉语的声调的发展也是处于简化进程中的。而在词使用的过程中,词长和词频相互作用,词频又受到社会、民族心理等因素的影响。总之,汉语词长是作为语言自组织系统的一部分演化的。词长演化与其他相关因素的相互作用如图2.25所示。
图2.25 词长演化中的关键因素交互作用
我们可以从图2.25中看到,左侧的循环圈反映的是词产生机制,右侧的循环圈反映的是词使用机制,而不管是词产生还是词使用,它们都和词长密切相关。词长是词演化的关键因素。这个示意图的运行机制可以做如下解释:随着社会的发展,越来越多的概念会出现,而这些新出现的概念是原有的音素或音节不能描述的,因此语言词汇的多音节化过程开始了。多音节化的结果是词汇词长的增加。而由于词汇长度的增加,一种语言词汇的冗余度就会大大增加,在“最省力原则”的作用下,词汇的声调和汉字开始简化。随着词长的增加,语言交流中所使用的多音节词必然会越来越多。像词频会作用于词长一样,即使用频率越高的词在词演化过程中会变短,词长也会作用于词频,即语言交流中,人们倾向于使用词长较短的词来表达相同的意义。词长和词频的相互作用、相互制约使一种语言的词汇长度控制在合理的、符合社会发展程度和人脑记忆空间大小的范围内。这张示意图再次证明了语言是作为一个复杂自组织系统演化的,并且词长演化受到高效交流的原则制约。
2.4.2 小结
基于以上考察分析,本节得出以下结论:
(1)从宋元至现当代,大约一千年的时间内,汉语双音节词一直处于优势地位,约占总词形数的68%~70%,这说明汉语中双音节词占据优势地位之后在词长整体分布上变化不是很大。汉语词语的静态(词形)平均词长一直处于增长状态,从宋元时期的1.19,增加到现当代的2.09,其中单音节词比例的减少以及三、四音节词比例的增加是直接原因,而社会的发展进步、新概念的层出不穷、汉语不同音节数有限是多音节词语增加的根本原因;汉语词语的动态(词符)平均词长虽有所增减,但一直围绕在1.3附近。
(2)汉语静态词长分布可以用齐普夫—阿列克谢耶夫公式y=cxa+blnx进行拟合。
(3)基于每个词长类的分析及四个词长分布统计指标——型例比、方差、偏度、峰度的分析,我们得出汉语词长的演化是一个多音节化的过程。这个演化过程反映在齐普夫—阿列克谢耶夫公式中参数a值的演化上。汉语词长分布的历时演化证实了一种语言的语龄越大,参数a的值就越大的假设。
(4)通过进一步考察汉语词长分布历时演化与平均词长的关系,我们发现,平均词长的历时增加可能是齐普夫—阿列克谢耶夫公式中参数a的值历时增加的原因。
(5)根据协同语言学理论,我们发现,汉语词长的演化不是孤立的,而是发生在一个自组织的语言系统中的。通过考察词长和词频的历时关系变化,我们发现,词频和词长相互依存。这说明,词长的演化是在“最省力原则”控制下的;词长的演化是为了更有效率的人类语言交流。