第一节 统计与统计学
一、什么是统计学
统计作为一种古老的社会实践活动,已在人类社会存续数千年;而统计学作为这种社会实践活动的经验总结和理论概括,也有了300多年的历史。可以说,自从有了人类文明社会,就有了统计实践活动。无论是在人们的日常生活中还是在国家治理中,统计都作为一种重要的管理手段被广泛地重视,从而演变成一种系统的理论工具。
当今人们对“统计”一词赋予诸多含义,因此,统计有多种多样的理解。它可以指统计数据的收集活动,即统计工作;也可指统计活动的结果,即统计数据;还可以指分析数据的方法和技术,即统计学。
与其他学科一样,统计学是随着人类社会的发展和社会管理的需要而发展起来的。伴随着人类社会由低级向高级演进,统计活动也逐渐变得复杂起来,仅仅用数字计量的简单统计活动已不能满足社会的需要,人们开始对客观现象进行定量分析,并不断地在数据的处理和分析中进行抽象、概括和总结,于是,统计学的产生就顺理成章了。
统计学家给统计学(statistics)下了不同但相似的定义,《不列颠百科全书》将统计学定义为“一门收集、分析、表述和解释数据的科学”;《韦伯斯特国际辞典》对统计学的定义是“统计学是一门收集、分析、解释和提供数据的科学”;美国学者特里奥拉在他所著的《初级统计学》教科书中指出,“统计学指的是一组方法,用来设计实验、获得数据,然后在这些数据的基础上组织、概括、演示、分析、解释和得出结论”;我国学者贾俊平在其所编著教科书《统计学》(第二版)给统计学下的定义是“统计学是收集、处理、分析、解释数据并从数据中得出结论的科学”。上述关于统计学的概念有一个共同的特点,即与数据的解释与分析相关。因此,总结上述定义,我们可以将统计学的含义概括如下。
定义1.1 统计学,是一门研究大量社会现象和自然现象的总体数量,包括收集、整理和分析统计数据的方法论科学。
为了能对统计学的定义有一个清楚的理解,我们将统计学归纳为如下几个特点。
1. 数量性
统计学的认识力首先表现在它以准确性和无可争辩的事实为基础,同时,这些事实用数字加以表现,具有简短性和明显性。数量性是统计学研究对象的重要特点。
2. 总体性
统计研究社会现象和自然现象的数量方面指的是总体的数量方面。从总体上研究社会现象和自然现象的数量方面,是统计学区别于其他社会科学的一个重要特点。社会现象是各种社会规律相互交错作用的结果,它呈现出一种复杂多变的情景。统计学对社会现象总体数量方面的调查研究,用的是综合研究方法,而不是对单个事物的研究,但其研究过程是从个体到总体,即必须对足够大量的个体(这些具体都表现为一定的差别、差异)进行登记、整理和综合,使它过渡到总体的数量方面,从而把握社会现象的总规律、总水平及其变化发展的总趋势。比如,了解市场物价情况,统计着眼于整个物价指数(如居民消费价格指数CPI)的变动,而不是某一种商品价格的变动,但物价统计必须从了解相关代表性商品的价格变动情况开始,才能经过一系列的统计工作过程,达到对于物价总体数量变动情况认识的目的。
3. 具体性
统计学研究的数量方面是指社会现象和自然现象的具体的数量方面,而不是抽象的数量关系,这是它不同于数学的重要特点。统计学与数学相比,有如下两点不同。首先,从研究对象上看,数学研究的是没有量纲或没有单位的抽象的数,而统计学研究的是有具体实例或有计量单位的数据。其次,统计学与数学研究中所使用的逻辑方法也是不同的,数学研究中使用的是纯粹的演绎,而统计学则是演绎与归纳相结合,占主导地位的是归纳。数学家可以坐在屋里,凭借聪明的大脑从假设命题出发,推导出漂亮的结果,而统计学家则要深入实际收集数据,并与具体的实际问题相结合,经过大量的归纳才能得出有益的结论。
4. 指导性
统计是研究大量社会现象和自然现象数量规律的一门方法论科学,所以统计学方法可以帮助其他学科探索内在的数量规律性,为人们的实践活动提供方法论依据,从而指导人们的实践活动。例如,美国季度国内生产总值增长率、月度通胀率或失业率一公布,马上会引起银根松紧、利率调整甚至华尔街股市涨跌等一系列的连锁反应。不仅如此,这些数据往往能在几分钟内传遍全世界,一些国家不得不迅速做出相应的反应。统计数据对经济政策的影响和指导性作用显而易见。
5. 广泛性
统计学研究的数量方面非常广泛,它指全部社会现象的数量方面。广泛性这一特点,可区别于研究某一特定领域的其他社会科学(如政治学、经济学、社会学、法学等)。
二、统计学的研究对象
统计学将大量社会现象和自然现象的总体数量作为研究对象,并提供一套科学的统计方法来分析和探索数量的内在规律性。我们可以通过以下几个具体的例子来说明统计学研究的对象。
对于人类的身高,人们通常认为,父母的身高越高,孩子的身高就会越高;反之,父母的身高越矮,孩子的身高就会越矮。统计学家费朗西斯·高尔顿(Francis Galton)发现了这是一个错误的认识!在他的生物统计实验室里,他收集人类的身高数据,并对这些数据进行分析,发现非常高的父亲,其儿子往往要比父亲矮一些;而非常矮的父亲,其儿子往往要比父亲高一些。似乎是某种神秘的力量,使得人类的身高从高矮两极移向所有人的平均值,这个现象被他称之为“向平均回归”(regression to the mean)。他将这一思想纳入了所构建的统计模型中,从而对人类身高进行仔细研究。他说,假设不发生这种向平均值的回归,那么从平均意义上看,高身材父亲的儿子将与他们的父亲一样也会很高,在这种情况下,一些儿子的身高必须高于他们的父亲,以抵消身材比父亲矮小者的影响,使平均值不变。高身材者这一代人的儿子也将如此,那么会有一些儿子身材更高。这个过程将一代一代传下去。同样地,将会有一部分儿子身材比他们的父亲矮小,而且有一部分儿子将更加矮小,如此下去,不用多少代,人类种族就将由特别高和特别矮的两极构成。显然,上述的情形并没有发生,人类的身高在平均意义上趋向于保持稳定。
在现实生活中被人们饶有兴趣地观察的另一个例子是关于人类性别的结构。众所周知,一个家庭新生婴儿的男女性别是随机分布的。从表面上看,新生婴儿的性别比例似乎没什么规律可循。但如果对新生婴儿的性别进行大量观察统计,就会发现性别比例还是有规律可循的,即婴儿总数中男孩的数量要多于女孩,大致为每生育100个女孩,就有107个左右的男孩。这个107:100的比例就是新生婴儿男女性别的数量规律性,古今中外大致相同,它是人类社会长期遗传与发展的结果。人类社会要延续、要发展,就要保持男女人数的大致相同。但从新生儿的性别比例看,却出现了男女的失衡。这难道不违背人类永续生存的自然规律吗?统计学家们对这一现象进行了分析解释,他们认为,尽管从新生婴儿来看,男性要高于女性,但男孩的死亡率高于女孩,到了中青年时,男女人数就大致相同了。进入中老年后,男性的死亡率仍然高于女性,导致男性的平均预期寿命比女性短,老年男性要少于女性。从一个国家乃至全人类看,如果没有人为的B超、堕胎等干扰,其规律是:婴幼儿时男性略多于女性,中青年时男女人数大致相同,老年时女性又略多于男性。这样既保证人类在中青年结婚生育时性别的大致平衡,又使得在人口总数上男女也大体相当,有利于人类社会的进化和发展。统计学家往往通过对大量数据的分析,来挖掘数据现象背后的规律。
上面的两个例子说明,通过多次观察或试验得到大量的统计数据,利用统计方法是可以探索出其内在数量规律性的。客观事物本身的特点再加上科学设计的统计方法使得我们能够在探索数据的规律方面不断前进。
从客观事物特点来说,任何客观事物都是必然性与偶然性的对立统一,同样,任何一个数据,也都是必然性与偶然性共同作用的结果。必然性反映了事物本质的特征和联系,是比较稳定的,因而它决定了事物的内在本质是有规律可循的;偶然性则反映了该事物每个表现形式的差异。如果客观事物只有必然性一个方面的特征,事物的表现形式会比较简单,我们可以比较容易把握它的规律性。正是由于偶然性的存在,造成了事物的表现形式与必然性和规律性发生偏移,从而形成了表面形式的千姿百态和数据表现形式的千差万别,这样,就导致必然性的数量规律性被掩盖在表面的差异之中了。
前面所说的两个例子,个别家庭父母和子女的身高和每个新生儿的性别都是随机现象,其表现形式也是充满偶然性的,但每个例子本身可以通过对大量数据的收集整理和研究得出其内在的规律性。应用统计方法可以从偶然性中探索到内在的、本质的数量规律:从统计方法来看,统计学提供了一系列的方法,专门用来收集数据、整理数据、显示数据的特征,进而分析和探索(或推断)出事物总体的数量规律性。当然,如果事物本身的规律比较简单,所用的统计方法也就相对容易;如果事物本身的规律错综复杂,所用的统计方法也就相对复杂。而这些又都是统计学所重点关注的问题。
拓展讨论
统计学存在于我们身边许多客观事物中,你还能举出一些例子来说明统计学对人类生活的意义吗?
三、统计学的产生与发展
尽管统计活动在人类社会中已存续数千年,但统计学作为一门独立的学科却只有300多年的历史。一般认为,统计学产生于17世纪中叶,其形成过程是从几个不同的领域开始的,在各自的领域又产生了许多不同的学派,如形成于德国的“国势学派”,形成于英国的“政治算术学派”,产生于19世纪中叶的“数理统计学派”“社会统计学派”等。然而,考察统计学产生的历史,无论是古典统计学、近代统计学,还是现代统计学,其发展过程是沿袭两条主线展开:其一是以“政治算术学派”为开端形成和发展起来的以社会经济问题为主要研究对象的社会经济统计;其二是以概率论的研究为开端并以概率论为基础形成和发展起来的以方法和应用统计研究为主的数理统计。我们对统计学历史的考察就是以这两条主线展开的。
1. 政治算术——社会经济统计
政治算术学派学产生于17世纪中叶的英国,主要代表人物是威廉·配第(Wi11iam Petty,1623—1687)和约翰·格朗特(John Graunt,1620—1674)。
威廉·配第在其代表性著作《政治算术》(1676年)一书中,运用大量的数字资料和定量的研究方法对英国、法国、荷兰三国的经济实力进行了分析与比较,为统计学的产生奠定了基础。配第的这些开创性工作,得到了马克思的高度评价,马克思在《资本论》中评价配第“是政治经济学之父,在某种程度上也可以说是统计学的创始人”。
另一个代表性人物约翰·格朗特,他在1662年出版了《关于死亡表的自然观察与政治观察》。当时,伦敦瘟疫流行,死亡情况严重,引起社会不安。他根据“死亡率公报”对伦敦人口的出生率、死亡率、性别比例,作了分类计算和预测,证明没有悲观的必要。另外,在该书中,他通过大量的观察,研究并发现了人口与社会现象中重要的数量规律性。如新生儿的男女比例稳定在14:13,即我们在前面的例子中谈到的107:100,并解释了这一比例出现的原因。他得出了男性在各年龄组中死亡率高于女性;新生儿的死亡率较高;一般疾病与事故的死亡率较稳定,而传染病的死亡率波动较大等很多富有启发性的结论。更为重要的是,格朗特在研究中运用多种方法对统计资料进行间接的推算,并相互印证。由于约翰·格朗特的这些研究成果,该书被许多统计学家誉为“真正统计科学的肇端”。
政治算术学派的统计学家们基本上沿着威廉·配第开创的政治经济统计和约翰·格朗特开创的人口统计而展开进一步的研究。在经济统计方面,出现了农业统计、工商统计和物价指数计算方法的研究。在人口统计方面,由于研究对象出现了扩展,出现了保险统计、卫生统计或医疗统计等分支。除此之外,人口调查、社会调查、道德统计等也逐渐发展起来。
19世纪中叶以后,包括政治统计、人口统计、经济统计、犯罪统计、道德统计、社会统计等多方面内容的“社会统计学”开始发展起来,与之相适应的社会调查与社会研究也有了较大发展,并成为社会科学研究的重要方法之一。人们试图通过社会调查,收集、整理、分析资料,以揭示社会现象和问题,并提出解决问题的具体办法。例如,法国经济学家和社会改良家李·普莱(Le Play,1806—1882)曾利用“家庭预算表”来研究社会生活水平和贫困问题;德国统计学家恩格尔(Ernest Engel,1821—1896)在他的《比利时工人家庭的生活费》(1895年)一文中,提出了著名的“恩格尔法则”,即“家庭收入越多,则饮食消费支出在家庭收入中所占百分比越少;家庭收入越少,则饮食支出在家庭收入中所占百分比越大”。在这一法则基础上,他又引申出至今仍得到人们广泛应用的“恩格尔系数”,用于衡量人们生活水平。
与此同时,经济调查和经济统计学也迅速发展起来。比如,早在1835年挪威就与人口普查相结合从事农业统计调查;1839—1840年法国进行第一次农业普查;1846年比利时进行了农业普查;1790年美国进行了第一次人口普查等。在这期间,美国、德国等还进行了工业普查。到了20世纪,这些调查活动日臻成熟。为满足国家和社会客观需要而进行的各种经济调查,不仅取得了大量的社会经济数据,为经济学家证实或提出新的经济理论提供了依据,也为统计学家概括和提出新的统计方法提供了数据材料。到了19世纪中叶,德国经济学和统计学家克尼斯(K.G.A.Knies)在他的论文《独立科学的统计学》(1850年)中提出统计学是一门独立的科学。可见,随着统计实践和学科门类的发展和分工,统计学作为一门对社会现象和自然现象进行数量对比分析的方法论科学,已为社会所公认。
此外,20世纪对国民收入的计算和研究、指数的编制及其方法研究、时间序列分析、经济预测和计量经济学等,也都取得了长足的进展。而这些成就,其思想渊源都可追溯到政治算术学派所开创的统计学的理论和方法,这为后来的社会经济统计的发展奠定了基础。
中国最早的人口普查据说始于大禹治水后,2000年10月23日《光明日报》刊登的《中国历代人口与人口普查》一文可供读者了解我国古代的人口普查(链接为新浪网转载链接):http://news.sina.com.cn/china/2000-10-23/137313.html
2. 概率论——数理统计
统计学产生与发展的第二条主线是以概率论为基础形成和发展起来的以随机现象为主要研究对象的数理统计。
在西方,概率论的思想渊源最早可以追溯到意大利的文艺复兴时代,最初的研究是为赌徒们找出掷骰子取胜的一套办法,从而合理地算出成功的概率。这一时期的标志性著作是意大利数学家卡尔达诺(Kirolamo Cardano,1501—1576)出版的《论赌博》一书,他的研究成果为运用数学理论研究概率论开辟了道路。著名的天文学家伽利略(Galilei Galileo,1564—1642)写了一篇同样题目的论文,提出了概率论的基本原理,奠定了数理统计的基础。
几乎与政治算术学派的研究一致,概率论的真正研究历史是从17世纪中叶开始的,这一时期是古典统计学的黄金时代,其主要奠基人是法国的帕斯卡(B.Pascal,1623—1662)和费马特(P.Fermat,1606—1665)。他们将赌博中出现的具体问题归纳为一般的概率原理,为后来概率论和统计学的发展奠定了重要的基础。到了18世纪,积极研究概率论的还有瑞士数学家贝努里(J.Bernoulli,1654—1705),全面论述了概率论原理并将概率论建立在数学的基础上,在其所著的《推算法》一书中,提出了著名的“贝努里定理”,这是大数法则的早期形式。
古典统计时期的概率论基本上是独立发展的,它与社会经济统计没有太多的联系,但这一时期也有学者将概率论尝试着应用于社会现象的研究。到了19世纪,用概率论研究社会经济现象的人日益增多,在这方面做出重大贡献的是法国数学家拉普拉斯(P.S.Laplace,1749—1827)和比利时统计学家凯特勒(A.Quetelet,1796—1874)。拉普拉斯在其所著的《概率论分析》一书中,总结了前人的研究成果,并以大数法则为桥梁,将概率论与社会经济现象联系起来;凯特勒在发展和应用概率与统计方面做出了重要贡献,其著作主要有《概率论书简》和《社会物理学》等,其主要贡献是将自然科学的研究方法引进社会现象的研究中,他发展了大量观察法并为数理统计学的发展奠定了基础。
从19世纪中叶到20世纪中叶,概率论的进一步发展为数量统计学的形成和发展奠定了基础。英国生物学家和统计学家高尔顿(F.Galton,1822—1911)首次提出并阐述了“相关”的概念,并首次提出了“相关系数”的概念;英国数理统计学家卡尔·皮尔逊(K.Pearson,1857—1936)提出了计算复相关和偏相关的方法,并将复相关和回归理论扩展到许多领域。
20世纪初期,大工业的发展对产品质量检验问题提出了新的要求,即只抽取少量产品作为样本对全部产品的质量好坏作出推断。因为大批量产品要做全面的检验,既费时、费钱,又费人力,加之有些产品质量的检验要作破坏性检验,全部检验已不可能。数理统计学派的先驱、英国统计学家戈塞特(W.S.Gosset,1876—1937)建立了“小样本理论”,即所谓的“t分布”。通过这个理论,人们可以从大量的产品中只抽取较小的样本完成对全部产品质量的检验和推断,这样就使统计学进入了现代统计学(主要是推断统计学)的新阶段。以后著名统计学家R.A.费希尔(R.A.Fisher,1890—1962)研究出了F统计量、极大似然估计、方差分析等方法,奈曼(J.Neyman,1894—1981)创立了区间估计理论,并和伊根·夏普·皮尔逊(E.S.Pearson,1857—1936)发展了假设检验理论。20世纪杰出的统计学家不胜枚举,正是他们的努力,推动了统计理论的发展和应用。到了20世纪中叶,现代统计学的基本框架已经确立。
从20世纪50年代以来,统计理论、方法和应用进入了一个全面发展的新阶段。一方面,统计学受计算机科学、信息论、混沌理论、人工智能等现代科学技术的影响,新的研究领域层出不穷,如多元统计分析、现代时间序列分析、贝叶斯统计、非参数统计、线性统计模型、探索性数据分析、数据挖掘等。另一方面,统计方法的应用领域不断扩展,几乎所有的科学研究都离不开统计方法。因为无论是自然科学、工程技术、农学、医学、军事科学,还是社会科学都离不开数据,对数据进行研究和分析就必然要用到统计方法,现在连纯文科领域的法律、历史、语言、文学、新闻等都越来越重视对统计数据的分析,国外的人文与社会学科普遍开设统计学的课程,可见,统计学已经成为一门极其重要的基础性学科。