第二节 数据质量检验的统计分布法与经济计量模型法
一 统计分布法
(一)基本思路
统计分布法假定所要检验的统计指标总体服从某一种分布,从而对所观察的统计数据进行统计分布一致性检验,如果能够通过一致性检验,则认为统计数据在总体上是可信的,否则就表明统计数据可能存在质量问题,需要进一步观察分析,并应用有关准则找出待评估指标在各个个体上取值的异常点。在此基础上还要对异常点做进一步的审核。
(二)统计分布法的种类
根据用于检验的分布的不同,统计分布法可分为常规统计分布检验法和非常规统计分布检验法。
关于常规统计分布检验法的应用主要参见成邦文等的系列论文。成邦文等人论证了在社会经济系统中,反映研究对象规模大小的统计数据(如产量、产值等)近似服从对数正态分布。他们提出:可以采用K-S检验法、x2检验法进行对数正态分布检验,如果统计数据不符合正态分布,则进一步根据3σ法则,识别出异常点;最后将识别出的异常点与前期对比,如果数据没有剧烈变化,则认为该数据是正常的,否则,就认为该数据存在质量问题。
傅德印(2001)提出用茎叶图、字母值、箱线图、编码表、悬浮式直方图、阻尼线性或非线性平滑法及中位数平滑法等探索性数据分析方法来探测个体数据中存在的异常点以控制汇总数据的质量。该方法弥补了常规统计分布检验法在无法获得理论分布时难以应用的不足,可看成是一种非常规的统计分布检验法。另外,近年来在国外应用比较广泛的Benford法也属于非常规的统计分布检验法。
(三)对统计分布法的评价
统计分布法较好地运用了统计学理论与方法,其操作也相对简单,容易被基层统计人员所接受。运用统计分布法进行数据准确性评估的前提条件是待评估指标服从某一特定分布。但在绝大多数情况下,人们并不知晓待评估指标是否真的服从这一先验分布。这便构成了该方法最大的不足。另外,应用统计分布法检验统计数据的质量需要相对较大的样本量。多数官方综合统计数据特别是年度数据常常具有小样本的特征,因而并不太适合运用统计分布法检验。
二 经济计量模型法
(一)基本思路
所谓经济计量模型,就是根据一定的经济理论和实际统计数据建立的反映某一经济变量及其主要影响因素之间数量关系的方程式。数据质量检验中的经济计量模型法是假定现实经济中的经济变量(统计指标)之间的关系能够用一定形式的经济计量模型来很好地加以描述。在此前提下,首先根据一定的经济理论,同时利用统计数据和计量方法构建经济计量模型,然后对实际的统计数据和模型之间的吻合情况进行分析,如果模型拟合得很好,估计的参数符合经济理论的分析,同时通过残差分析发现的异常点比较少,则可以认为所利用的统计数据质量较高,反之,则说明所利用的统计数据可能存在质量问题,需要做进一步的分析。
(二)面板模型的基本形式
目前用于统计数据质量诊断的计量模型主要是单方程结构模型。单方程结构模型具有多种形式,其中的面板数据模型最具一般性。下面,我们对此做简要的介绍。
所谓面板数据,就是由不同个体的时间序列数据组成的二维数据。从纵向看,它是含有N个个体成员的时间序列数据;从横向看,它是T个时点上各个体形成的截面数据。
面板数据线性模型的最一般形式可用式(4-1)表示。
其中,yit为被解释变量,表示1 ×k维解释变量,αit表示模型常数项,为k×1维参数向量,uit为随机扰动项,N表示个体截面成员的个数,T表示每个截面成员的观测时期总数,k表示解释变量个数。
根据截距项向量 α 和参数向量 β 中各分量的不同限制要求,可以将式(4-1)进一步演化为以下3种形式。
1.不变系数模型
该模型又称为混合回归模型,模型中,截距和斜率在不同个体上都相同,即假设在个体成员上既无个体影响也无结构变化,模型的原假设为::αi=αj, βi=βj(i, j=1, 2, …, N)。
2.变截距模型
该模型的斜率是常数,截距项随个体的不同而改变,即假设在个体成员上存在个体影响而无结构变化,并且个体影响可以用截距项αi(i=1, 2, …, N)的差别来说明。相应的模型原假设为:αi≠αj, βi=βj(i≠j; i, j=:1, 2, …, N)。
3.变系数模型
该模型中,截距项和斜率都随个体的不同而改变,即假设在个体成员上既存在个体影响,又存在结构变化,该模型为无约束模型。
将面板模型运用于数据质量检验时,一般将所要检验的统计指标作为被解释变量,将其他相关的且被认为相对准确可靠的指标作为解释变量。
(三)模型形式的设定检验
利用面板数据进行分析,首先要确定模型的设定形式,如果模型形式设定得不正确,估计结果将与模拟的经济现实偏离甚远。模型形式的检验主要是检验参数αi和βi是否对所有个体样本点和时间都是常数,即对以上和进行检验。
在假设成立的情况下:
在假设成立的情况下:
其中,S1、S2、S3分别表示无个体影响的不变系数模型、变截距模型和变系数模型的残差平方和。
给定显著性水平α,查F分布表得到用于检验的临界值和。首先对假设进行检验,若,则接受原假设,模型为不变系数模型;若,则需进一步对假设进行检验,若,则接受,模型为变截距模型;若,则模型为变系数模型。
(四)面板模型的估计
数学上可以证明估计面板模型比较理想的方法是广义最小二乘法。
(五)面板单位根检验
为了防止变量的非平稳性导致的伪回归,在估计参数之前,应首先检验各变量的平稳性。不变系数模型中变量的单位根检验方法与一般回归模型的检验方法一样。异质面板数据的单位根可采用Pesaran(2007)方法进行检验。该方法原理如下。
设数据由以下过程生成,
原假设H0: bi=0对应所有的 i,备择假设 H1: bi<0, i =1, 2, …, N1, bi=0, i=N1+1, N1+2, …, N。基于式(4-1)可以得出系数bi的t统计量,记为ti(N, T)。
其中,Δyi′ =(Δyi1,lt@span sub=1> Δyi2,lt@span sub=1> …,lt@span sub=1> ΔyiT)′,lt@span sub=1> y′i,lt@span sub=1> -1=(yi0,lt@span sub=1> yi1,lt@span sub=1> …, yi, T-1)′,lt@span sub=1>。
由上式可构造统计量:
利用该统计量可检验变量的平稳性。
(六)参数可靠性分析
参数可靠性分析是在保证所构建的模型足够有效即方程的拟合程度相当高的前提下,对利用统计数据得到的参数估计值进行观察和分析。根据分析角度的不同,它又可分为参数经济意义分析和参数稳定性分析。
参数经济意义分析就是对解释变量系数估计值的经济意义进行分析,判断其是否与经济理论或构建模型时的预期相一致,如果两者不一致,那么样本数据就可能存在质量问题。参数经济意义分析法在GDP数据质量的诊断方面比较常用,Klein和Ozmucur(2002)就曾根据15个基本经济变量指标的变动率与中国GDP增长率的关系完全符合经济规律的分析结果,认为中国GDP数据并不存在明显的高估。
参数稳定性分析是对不同时期和不同个体解释变量的系数进行比较,观察其变动的幅度,看其是否处于可接受的范围,倘若超出了可接受范围,又不存在其他可以解释这一变动的原因,那么可以判断样本数据可能存在某些质量问题。孟连和王晓鲁(2000)在Klein和Ozmucur方法的基础上建立模型并引入时间和地区工具变量对GDP数据进行准确性分析便是这种方法的一种应用。
(七)异常点分析
在所拟合的模型能够通过有关检验的基础上,还可以进一步进行异常点分析。所谓异常点分析,就是在计算模型残差的基础上,利用一定的方法去发现可能存在异常的样本点。
异常点分析的具体步骤如下。
第一步,计算模型拟合的残差:
第二步,利用统计方法对残差进行检验,检验该残差是否已达到异常的程度。实践中常用的统计检验方法主要有以下3种。
(1)奈尔(Nair)检验。该方法适用于总体标准差σ已知的场合。记奈尔检验统计量为Rn,则有:
其中,xd为观测残差值,为残差的样本均值,σ为总体标准差。
根据检出水平α、删除水平α∗以及样本容量n,查“异常值奈尔检验法临界值表”得到检出临界值R1-α(n)和删除临界值,若Rn>R1-α(n),则xd为检出异常值,若,则xd为宜删除异常值。当可能存在多个异常值时,可以将观测数据按非降序排列,先对最靠边的一个值(极端值)进行检验,若该值为异常值,再对删除该异常值后的n-1个观测值继续检验,依此类推,直到不能检出异常值为止。
(2)格拉布斯(Grubbs)检验。当总体服从正态分布,且总体标准差未知时,可以利用格拉布斯检验法。具体方法如下。
记格拉布斯检验统计量为Gn,则有:
式中,xd和x-与奈尔检验中的意义相同,为样本标准偏差,格拉布斯检验法的检验步骤与奈尔检验相同。即首先计算出检验统计量Gn,查表得到检出临界值G1-α(n)和删除临界值(n),若Gn>G1-α(n),则该端点值为检出异常值,若,则该端点值为宜删除异常值。多个异常值的检验步骤与奈尔检验法相同。
(3)迪克逊(Dixon)检验。迪克逊检验法也是在总体标准差未知的情况下适用。迪克逊检验统计量记为D,计算之前首先对观测序列进行非降序排列,得到顺序统计量x(1), x(2), …, x(n),并按表4-1给出的公式计算迪克逊检验统计量之后,查“双侧异常值迪克逊检验法临界值表”,当检出水平为α时,得到检出临界值,当删除水平为α∗时,得到删除临界值。当D >D′,且时,判断 x(n)为检出异常值,当D′>D,且D′>D~(1-α)(n)时,判断x(1)为检出异常值,否则没有异常值。当D>D′,且时,判断x(n)为高度异常值,当D′>D,且时,判断x(1)为高度异常值,否则没有宜删除的高度异常值。
第三步,判断被认为高度异常的样本点的统计数据是否真的存在质量问题。现实中出现异常点的原因有多种,既可能是由被解释变量的数据质量引起的,也可能是由选用模型不恰当或者选用的解释变量存在质量问题引起的,甚至这种异常恰好是真实情况的反映。所以在找出异常点之后,还必须进一步深入实际,了解具体的情况,在基本排除其他原因后,才能得出该样本点上所要检验的统计数据确实存在质量问题的结论。
表4-1 迪克逊统计量计算公式
(八)对经济计量模型法的评价
经济计量模型法实质上是对传统的基于相关关系检验方法的一种改进。通过在数据质量检验和评估中引入现代经济计量分析方法,可将实证分析建立在经济理论和统计理论的基础上,并且有利于更加充分地汲取各种有用的信息,减少传统分析中的表面化和偶然性,从而在一定程度上提高了数据质量检验和评估方法的科学性。但是,也必须指出该方法仍存在不少局限性。
首先,正确应用该方法的基本前提是:所构建的模型确实能够很好地反映所要检验的统计指标(被解释变量)与其他指标(解释变量)之间客观存在的数量关系与变动规律。同时,作为解释变量的其他指标的数据还要真实可靠。现实中,这一基本前提有时很难得到满足。
其次,即便上述前提可以成立,由于各种非统计数据本身质量问题的其他原因(如经济数据的识别力较差、模型可能存在多重共线性等),模型的参数与经济理论不符或者缺乏稳定性的现象仍有可能发生。异常点的出现也是如此,难以将其完全归结为数据质量问题。
最后,前面所介绍的异常点诊断方法还暗含了一个逻辑缺陷,也就是它默许了样本中异常点的存在。但是众所周知,在估计模型的参数时,如果使用的样本带有异常点,就很可能使参数估计发生偏差。也就是说,在这种情况下得到的模型残差是不可信的,进而导致基于模型残差分析得到的异常点也不太可靠。
总而言之,至少在现阶段,我们不能被经济计量模型的“科学外衣”所迷惑,不宜过高地估计经济计量模型在统计数据质量检验和评估中的作用。