关于统计数据这回事
对于中国经济统计数据的准确性问题,很多方面都很关心,尤其有了“中国经济一枝独秀”这个说法以后,外界更是非常关注。引起我们特别注意的一个原因是,很多文章经常列出一大堆数字来分析经济情况,不能不涉及这些数字的可靠性问题。
还有一个理由使我想在这里谈一谈对这个问题的看法。不久前,一份杂志的记者就此问题采访了我,但后来我从那份杂志上读到采访文章,觉得与我的原意不一样,所以想自己来说一下。另外,我对中国经济统计的很多方面都了解不多,只是对统计数据的消费量比较大一些,因此这里只是从统计数据消费者的角度看问题。
任何经济统计都可能产生误差,需要注意的只是这中间有多大主观因素的影响,以及误差的可能大小。在最近几年,中国GDP的增长率报告为7%~8%,如果有人说有一到两个百分点的误差,我觉得也无法断然否定。这个话的意思是,既没有办法否定,也无从肯定。进一步说,报告的增长率有高估的可能,但也不能完全排除低估的可能。当然我自己觉得略有高估的可能性比较大,因为有一些间接的依据使人朝这个方向去考虑。不过这样的分析只是提出了一些疑问,一般情况下并不能给出肯定的结论。对类似的种种情况,我是作为一种不确定性来对待。归根结底,我们生活在一个有很多不确定性的世界里,对许多事情不知道或者知道得不多、不全、不准。
在这样的基础上通过分析统计数据来得出一些结论,就需要对误差的各种可能性有所考虑。这个考虑是与研究的目的有关的。在这里,我们关心的主要是宏观经济的短期波动,侧重于考虑一段时间内的经济景气状况。因为经济景气状况是相对的,所以,如果对经济增长率的高估是系统性的,比如说每年都高估一个百分点或者10%,对我们的分析和结论几乎没有影响。如果误差是随机的,有时高估有时低估,而且常常有一个百分点之大,就有可能存在比较大的问题。在最坏的情况下,这种影响可以使有关结论基本不成立。所以,研究宏观经济的短期波动,必须非常注意这类统计误差。
一个例子是1998年第四季度的GDP数据。那一年提出了保8%增长率的目标,各级政府比平时更加关心统计数据。从数字本身看,也非常奇异。如果确有异常误差的话,影响会相当大。对这样的情况,经济学一直在想办法处理以减弱其影响,现在的一些经济计量分析软件中就有检查和处理异常数据的程序。就1998年第四季度的数据来说,我自己做过很多假设分析,光花在这上面的时间就有几十甚至上百个小时。一般来说,在经济形势发生较大变化的时候,可以从不同的角度来核对一些数据。比如有时统计数据显示工业生产增长率很高,对这样的情况拿不准,就可以看看主要产品的产量,还有进出口的数字,等等。提到这一点的意思是,严肃认真的分析总是要努力克服统计数据误差的影响。当然没有办法完全排除,有时候还会搞出更大的错误来,这也是分析结论带有不确定性的一个原因。
就过去几年的情况来说,我的感觉是,除1998年第四季度的数据可能存在比较大的误差以外,其他季度的数据在主要方面基本上是吻合的。有一些不能完全确定的迹象显示,季度、月度数据的合理性比过去有所提高,但仍然存在不少问题。
如果是比较一段较长时期的经济情况,就需要对数据的系统性误差有所把握。比如说,按公布的数据,1998年以来的经济增长率比此前20年的平均增长率低两个多百分点,这是一种长期的趋势性变化还是仅仅由通货紧缩引起的相对短期的变化?考虑这样的问题,不能不对数据的系统性误差作出估计。如果数据误差很大,那么1998年以来经济增长率比此前20年平均低两个多百分点这个“事实”就有很大的问题了。在考虑这样的问题时,我倾向于认为,现在的经济增长率统计误差超过两个百分点的可能性非常小。这里说的是误差的最大可能,没有任何意思说确实有两个百分点的误差。
[1] 原文刊于《财经》2002年第8期,2002年4月20日。