§1.1 什么是统计学
§1.1.1 “统计”的含义
在日常工作与生活中我们接触的数据很多,例如为了监督商品的质量,质量监督部门经常从市场上抽取部分商品加以检验,并在媒体上公布某类商品的合格率;足球比赛时,解说员经常会引用竞赛双方比赛中攻门的次数和成功率,以说明球队的实力和所发挥的水平;汽车生产企业的管理人员为了经营决策,要随时关注自己产品的生产数量和市场占有率的变化;每年高考后,学校和学生都非常关心考试的成绩、升学率和各高校的平均录取分数;各类药品的说明书中,都注明了该药品对某些疾病的有效性和产生副作用的可能性;等等。这些数据都是通过统计而获得的,常被称为统计数据。事实上,可以运用统计数据从数量上去说明和分析研究的问题十分广泛,所研究的事物可以是某种社会经济现象,例如全国各民族人口的分布状况、各地区居民收入的差距等;也可以是某种自然现象,例如一个地区地震或灾害性气候发生的频率和强度等。
“统计”作为在日常生活中经常使用的名词具有多重含义,一般泛指统计实践活动和统计学,有时也指统计数据或统计资料。统计活动是人们为了认识客观事物,对所研究事物加以观测、分析,以获取数据信息的实践活动。统计资料包括统计数据和依据统计数据所做的分析报告,统计资料是统计活动的成果,它可以为人们制定决策提供依据。人类的统计活动历史久远,可以说自从有了国家便开始了统计实践。据史料记载,中国夏禹时代(公元前两千多年)就有人口的记载,为了赋税、徭役和兵役的需要,历代都有田亩和户口的记录。在古代巴比伦、埃及和罗马帝国都有对人口和资源数量的详细记录。到中世纪,西欧各国都有了人口、军队、领地、职业、财产等数量的记录。
统计学是对统计实践活动规律性的科学总结,是通过研究如何合理测定、收集、整理、显示和分析反映客观现象的数据,以探索事物数量规律性的方法论学科。统计学研究的是怎样用数据去表现事物内在数量规律性的方法,数据是统计学科最基础的核心,因而统计学也可称为是“数据的科学”。世间万事万物依据特定的性质予以归类,可形成作为研究对象的各种群体——现象的总体。无论是属于自然的,还是社会经济的,凡是可以用数据表现的总体,都可以作为统计的研究对象。现在,统计思想和统计方法已经渗透到经济、管理、自然环境、科学实验、工程技术、气象、地震、医药卫生等几乎社会的每一个角落,统计学不仅在以上这些领域得到了发展,即使是在一些过去与数量无多少联系的学科,如政治学、法学、历史学、艺术学、考古学等领域,也都对统计方法技术的应用加以研究和实践。我们已进入信息时代,信息的主体是数据,而凡是有数据的地方就离不开统计学。
§1.1.2 统计学的产生与发展
与人们的统计实践活动相比,统计学产生的历史并不算长,至今只有三百多年。统计学(Statistics)这一名词最早来自欧洲。17世纪中叶德国的海尔门·康令创立了“国势学”,用文字记述国家的地理、历史、政治组织、社会制度、商业和军事力量。1749年,国势学派的主要代表阿亨瓦尔在《近代欧洲各国国势学论》一书中,首次提出了“统计学”这个名词。统计学的另一个来源是英国的政治算术学派,英国人威廉·配第(William Patty)在所著的《政治算术》一书中用大量的数字、重量、尺度等定量的方法,对英国、法国、荷兰三国的经济实力进行了分析和比较。马克思在《资本论》中曾给予威廉·配第很高的评价,认为他“是政治经济学之父,在某种程度上也可以说是统计学的创始人”。此外,英国人约翰·格朗特(John Graunt)在1662年出版了《关于死亡表的自然观察与政治观察》一书,他通过大量观察的方法,研究并发现了人口与社会现象中重要的数量规律性。在研究中,格朗特不但探索了人口变化和发展的一些数量规律,而且还对伦敦市总人口数量做出了较为科学的估计。如果说威廉·配第是政府统计的创始人,那么约翰·格朗特可被认为是人口统计的创始人。可以看出,统计学最早是由于国家和社会管理的需要对社会经济状况的数量描述而产生的。
现代统计学的进一步发展与数学的分支——概率论是分不开的。由于航海、保险、赌博等的兴起,在对具有偶然性现象的研究中,发现某些偶然现象从个别事件看似乎没有什么规律,但通过大量观察又可以发现其中具有一定的规律性。数学家们在研究赌博中的数量规律时,从大量偶然现象中寻找其规律性,于是逐步形成了概率论。在对机会游戏研究的基础上,数学家帕斯卡尔(B. Pascal)和费马特(Pierre de Fermat)将赌博中出现的各种具体问题,归纳为一般的概率原理,为后来概率论和统计学的发展奠定了重要的基础。比利时统计学家凯特勒(Adolphe Quetelet)把概率论的原理引进了统计学,运用大数定律证明社会现象和自然现象的发展变化并非偶然,而是具有内在规律性。概率论引入统计学后,使统计方法发生了很重要的飞跃,在各个领域都创立了许多有效的统计方法,如生物遗传学中的相关回归方法;人口学中抽样方法的应用。这样,逐步形成了建立在概率论基础上的以推断统计方法为中心的数理统计学。数理统计学的产生使统计方法,特别是统计推断方法发生了重大变化,不仅极大地丰富了统计方法体系,同时也使统计方法具有了更加严谨的数学基础。
20世纪初,大工业的发展引起对产品质量检验问题的高度重视,对于大批量产品的生产,要做全面的质量检验特别是破坏性检验已经不可能,从而提出了只抽取少量产品作为样本对全部产品的质量做出推断的要求。1907年,英国人戈赛特(W. S. Gosset)提出了小样本t统计量的概念,指出从大量的产品中只抽取较小的样本就可以完成对全部产品质量的检验和推断,从而使统计学进入了现代统计学(主要是推断统计学)的新阶段。以后费喧(R. A. Fisher)给出了F统计量、极大似然估计、方差分析等方法和思想,内曼(J. Neyman)和皮尔逊(E. S. Pearson)提出了置信区间估计和假设检验,沃尔德(A. Wald)提出了序贯抽样和统计决策函数,等等,到20世纪中叶构筑起了现代统计学的基本框架。
从20世纪50年代以来,统计理论、方法和应用进入了一个全面发展的新阶段。统计学受计算机科学、信息论等现代科学技术的影响,理论统计学新的研究领域层出不穷,例如多元统计分析、时间序列分析、贝叶斯统计、非参数统计、生存分析、线性统计模型、探索性数据分析、数据挖掘,等等。统计学的应用也日益扩展,已涉及社会科学和自然科学的各个领域,形成了社会与人口统计学、经济统计学、管理统计学、生物统计学、医药卫生统计学、气象统计学等应用统计学科。现在,统计学已经发展成为研究领域十分广泛的学科体系。
§1.1.3 统计学研究的特点
统计学是收集、整理、显示和分析统计数据的方法论学科,统计研究或统计活动的目的是为了探索客观事物内在的数量规律性,对客观事物的统计学研究具有以下一些共同特点:
(1)数量性
统计是用来处理数据的,数据由数字组成,但它不仅是单纯的数字,数据是有特定内容的数字,统计是要从有特定内容的数据中寻求有价值的数量信息。所以,统计总是与所研究对象的数量特征相联系的。一切事物都有质和量两个方面,从质和量的辩证统一中研究现象的数量特征,从数量上认识事物的性质和规律性,这是统计研究的基本特点。用统计数据去具体描述和分析事物的数量特征,可以更确切地表现事物发展的状态和程度,通过数据去揭示的数量规律性,能更具体、更准确地说明事物之间的内在联系。所以,从数量上表现和分析事物的特征和规律,是认识客观世界的重要方式。表现事物数量特征的统计数据通常不是指个别的数字,而是指同类的众多数据。因为事物发展变化的数量规律性通常隐藏在大量统计数据之中,需要通过大量观察,利用统计方法对数据进行加工整理,并运用专门的统计方法进行分析才能将其揭示出来。例如,在农业生产中,要从大量的农业试验数据中用统计方法才能探索施肥量与粮食产量之间具体的数量关系;又如,商品广告费用支出与商品销售量的数量关系,要通过大量的广告费用支出和销售量数据才能进行分析并得出结论。统计学正是运用科学的方法去收集、整理、显示和分析事物的数量特征,从而寻求数据中所体现的现象内在联系及数量规律。统计的目的在于对用统计数据所表现的现象数量特征进行研究,离开了统计数据,统计方法乃至统计学就失去了它存在的意义。需要强调的是,统计学研究的是有特定内容的具体数量,例如要研究“工业产品产量”,就必须明确什么是工业,什么是工业产品,如何去计量产品产量;要研究“失业人口”,就必须事先明确怎样去界定就业与失业。统计研究在对事物的数量特征和规律做出结论时,不能脱离所研究事物的具体性质,这是与数学原则所区别的。
(2)总体性
统计研究的总是由同类事物构成的群体的数量特征,单个事物的数量一般可以直接测定,例如了解某一个职工的月工资,只要查阅其工资表即可知道,不需要运用更多的统计方法。所以,单一个体的数量特征一般不是用统计方法研究的对象,而对于一个大的公司或一个地区全体职工的月平均工资,就不能直接观测,而需要用统计方法才能确定。这种由同类事物构成的群体也称为总体。统计总是针对一定的总体,目的是反映总体的数量特征,因为由总体内在必然因素决定的事物内在的数量规律性,要在特定总体中才能体现出来。而个体现象的具体数量特征是内在因素与其他众多偶然因素共同作用形成的,作用于个体的偶然性因素只有在总体中才能在一定程度上被中和或抵消。能够反映现象本质特征的由内在因素决定的总体规律性,只有着眼于总体层面才能被认识。例如,个别商品的价格由于多种因素的影响,在一定时期可能有升有降,而社会商品的价格总水平的变动,则是该时期经济规律和经济政策作用的综合结果。虽然总体的数量特征一般不能直接度量,我们只能对某些个体的特征进行具体观测,但是必须明确,统计研究的主要对象是总体,并不是具体的个体。从对参差不齐的个体数量特征的观测入手,运用科学的方法获得表现总体一般特征的综合数量,这正是统计研究的基本思想和突出特点。统计学提供了一系列的方法,专门用来收集数据、整理数据、显示数据的特征,进而分析和探索(或推断)事物总体的数量规律性。当然,如果事物本身的数量规律比较简单,所用的统计方法也就相对容易;如果事物本身的数量规律错综复杂,所运用的统计方法也就相对复杂。
(3)差异性或不确定性
任何客观事物都是必然性与偶然性的对立统一。同样,任何一个数据,也都是必然性因素与偶然性因素共同作用的结果。必然性因素是相对稳定的,它决定着客观事物内在的本质和联系,是有规律可循的。而偶然性因素导致了该事物每个具体表现形式的差异性和不确定性。如果客观事物只有必然性一个方面的特征,事物的表现形式就会比较简单,就可以比较容易把握它的规律性。正是由于偶然性和不确定性的存在,造成事物的表现形式与必然规律性发生偏移,从而形成了表面特征的千姿百态,也就形成数据表现形式的千差万别。这样,必然的数量规律性就被掩盖在表面的差异性或不确定性之中了。统计所研究的事物总体是由众多个体组成的,这些个体的数量特征由于受多种偶然因素的作用具有差异性和不确定性,我们正是要根据不确定的经验数据去做出推断,从个体的这种差异中去描述或推断总体的特征或必然规律,这才产生了统计学。假如已知一个公司全体职工的总体中每个职工的月工资没有差异,那么对于这些无差异的个体,只需随意了解其中任何一个职工的月工资,也就知道了其他职工的工资水平和全公司职工的平均工资,在这种情况下也就不需要运用什么统计方法了。从大量包含偶然性的有差异性的现象中揭示出事物的必然特征和统计规律性,这是一种基本的统计思想。