第一节 数据质量检验的传统分析法和调查误差评估法
一 传统分析法
这里所谓的传统分析法,指的是目前统计实践中得到广泛应用的一些常规逻辑性检验方法。主要包括以下几种。
(一)基于平衡关系的评估方法
从理论上讲,不少经济指标之间存在着一定的平衡关系。例如,国内生产总值(GDP)可以从生产、分配和使用的角度进行计算。根据国民经济核算的“三方等价”原理,采用三种方法计算得到的GDP在理论上应该大致相等。再如,GDP加全社会的中间消耗应等于社会总产出,GDP等于三次产业增加值之和,支出法GDP应该为消费、资本形成总额以及净出口之和,全国GDP应该为国内各地区GDP的总和,全国的居民消费价格指数(CPI)应该等于国内各地区CPI的加权平均数,等等。基于平衡关系的评估方法,就是将各种有关的统计数据资料集中在一起观察,从总体上检验数据相互间是否存在应有的平衡关系。如果发现某一组统计指标数据明显违背了它们之间理应存在的平衡关系,则表明该组统计指标数据存在质量问题,需做进一步的分析和核查。
(二)基于相关关系的评估方法
在一定时期内,许多社会经济现象都存在着比较稳定的相互依存关系。例如,增加值率、财政收入占GDP比重以及三次产业增加值之间的比例等在较短时间内相对稳定,产出与投入之间通常应保持大致同步的变动关系等。基于相关关系的评估方法,就是对理论上存在较高相关性的一组指标进行观察,检查其相关关系是否出现异常的变动。统计实践中,这种方法主要是根据指标间的比例关系、部分指标与总体指标间的结构关系以及相关指标的弹性系数的变化等进行判断。对此,通常可以给定一个允许变动的区间,当观察到的变动超出这一区间时,则认为所观察的统计数据可能存在质量问题,需做进一步的分析与核查。
(三)对传统分析法的评价
传统分析法的最大优点是通俗易懂、简便易行。它既可用于对源数据和中间数据的评估,又可用于对官方综合统计数据的评估,因此在实践中得到了非常广泛的应用。许多研究学者乃至媒体也经常将其作为最基本的分析工具,对中国政府统计数据的准确性提出疑问。例如,在2010年的“两会”期间,“两会”代表曾就各地区GDP的总和显著大于全国GDP的现象提出疑问;Rawski(2001)则以1997—2000年中国实际GDP增长24.7%,而在同一时期能源消耗却下降了12.8%等为理由,提出对中国GDP增长的疑问;等等。
但是运用传统分析方法须满足一定的前提,即所观察的指标之间确实存在平衡关系或高度的相关关系。如果这一前提不成立,则应用这一方法可能会得出错误的结论。另外,利用这类方法评估的结果比较粗略并存在多重指向性。一方面,只要被评估的统计指标数据间没有出现大的逻辑关系矛盾,该组数据就可能被接受,但合乎逻辑平衡关系只是统计指标数据准确的一个必要条件而非充分条件;另一方面,被评估的统计数据违背了特定的逻辑平衡关系或相关关系,虽然表明该组数据中可能存在质量问题,但却未能判断究竟是哪一个指标的数据发生了问题。以Rawski的质疑为例,任若恩(2002)在评论Rawski以及孟连和王小鲁的研究时便指出:关于经济增长率和能源增长率应该大致相等的假定,现实中不一定成立,工业增加值与货物运输、能源消费量等的相关关系也很难稳定。另外,在1997—2000年,由于存在对小煤窑的关停并转等治理,煤炭的正确统计受到一定的影响。因此,我们认为这一阶段中国的能源消费数据很可能是被低估的。不能仅仅根据能源消费量数据的下降,来判断这一阶段我国GDP增长存在水分。
二 调查误差评估法
(一)调查误差的种类
统计数据准确性评估归根结底是对数据中所包含误差的评估。从数据的生产过程来看,这种误差主要表现为统计调查误差。统计调查有两大误差来源。一是抽样误差,二是非抽样误差。抽样误差只存在于抽样调查中,它是由样本推断总体过程中不可避免的误差,目前学界对抽样误差的研究已经非常成熟,只要设计出具体的抽样方式、给出样本估计量,就能得到相应的估计量的误差公式。除了抽样误差以外的所有其他误差都是非抽样误差。非抽样误差又可分为抽样框误差、无回答误差和计量误差等。相对而言,非抽样误差比较难以计算和控制,而且它普遍存在于各种形式的调查中,可能发生在从设计、实施、数据处理到数据发布的每一个环节。它会对调查结果造成相当严重的偏倚,从而影响统计数据的质量。下面我们所要讨论的调查误差主要是指非抽样误差。
(二)非抽样误差的测定
在统计实践中,通常基于事后重复调查去评估和测定非抽样误差。该方法是在进行第一次调查的基础上,在更为理想和规范的条件下(如选用更有经验的调查员、加强对抽样调查过程的监控等)再组织一次抽样调查,然后将两次调查所获得的随机子样本数据进行比较,并据此估计出整个初始调查数据中所含偏差的大小。在具体估计总体偏差大小时,采用的估计方法通常包括两种:一是双系统估计,即同时使用初始调查资料与事后质量抽查资料进行估计;二是以事后质量抽查资料为准进行估计。美国、瑞士等国家的人口普查均根据事后抽样调查,利用分层双系统估计方法,评估本国人口普查数据的误差大小。中国在进行第二次经济普查时曾以事后质量抽查资料为准,通过计算全国经济普查的单位填报率及主要指标误差率等评估普查数据中的调查误差大小。
调查误差评估法主要适用于对原始调查数据质量的控制和检验。应用此方法的前提条件是事后重复调查必须是高质量的调查,只有这样才能以重复调查的结果为依据去评估第一次调查的质量。同时,采用这种方法需要耗费较多的资源。另外,如何分别对各种类型的非抽样误差,尤其是因各种原因引起的计量误差,进行检测和度量,也有待进一步的研究。