1.1 统计学背景知识
1.1.1 统计学概论
统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。统计学用到了数学及其他学科大量的专业知识,其应用范围几乎覆盖了社会科学和自然科学的各个领域。
统计学是一门很古老的科学,一般认为其学理研究始于古希腊的亚里士多德时代,迄今已有两千三百多年的历史。它起源于研究社会经济问题,在两千多年的发展过程中,统计学至少经历了“城邦政情”“政治算数”和“统计分析科学”三个发展阶段。所谓“数理统计”,并非独立于统计学的新学科,确切地说,它是统计学在第三个发展阶段所形成的所有收集和分析数据的新方法的一个综合性名词。概率论是数理统计方法的理论基础,但是它不属于统计学的范畴,而是属于数学的范畴。
一般将统计学分为描述统计学和推断统计学两大类。描述统计学的任务是研究简缩数据和描述这些数据。如将搜集所得的大量数据归类并用表格或图形表示出来。通过计算所得数据的集中量数、差异量数、地位量数和相关系数等特征数值,描述有关事物的典型性、波动范围和相互关系,揭示事物的内在规律。推断统计学是利用数据进行统计检验、统计分析和非参数统计。亦即以一定的置信度,根据部分数据去推断更一般的情况,务使所得的结论能应用于更广泛的范围或根据已知数据结合行业特点进行预测。
从内容来说,描述统计是依据统计的方法对所搜集的数据资料进行加工整理,通过图示、求典型量数等手段对数据资料进行分析和描述。调查和试验是搜集统计资料的主要途径;统计表、统计图是呈现统计资料的主要形式;统计资料的典型量数主要有反映集中趋势的集中量数、反映离散趋势的差异量数、反映相对地位的地位量数和反映观测数据之间相互关系的相关量数等。集中量数是描述数据集中趋势的统计量数,包括算术平均数、加权平均数、几何平均数、中数、众数等,作用是度量次数分布的集中趋势。差异量数是描述离中趋势的统计量,包括平均差、方差、标准差等,作用在于度量次数分布的离中趋势。所谓“离中趋势”,是指次数分布中数据彼此差异的程度,反映了次数分布的离散程序,即变异性。地位量数是描述原始变量在其所分布中地位的量数,包括百分位分数、百分位等级分数、标准分数和T分数等。因相对于次数分布而言,故又称为相对地位量数。相关系数是两列变量间相关程度的数量化指标,包括积差相关系数、等级相关系数、质量与量相关系数、品质相关系数等。描述统计主要是描述事物的典型性、波动范围以及相互关系,从而提示事物的内部规律。
推断统计以描述统计为基础,主要是研究由部分说明整体的理论与方法,即根据局部的信息,利用统计的原理与方法,分析论证在一定可靠度下总体的数量特征或分布特征。推断统计学包括假设检验(大样本Z检验、小样本t检验、χ2检验、F检验、线性回归、多变量统计分析等)、参数估计、非参数检验等。多元统计分析方法是建立在多元统计分布基础上的一类处理多元统计数据方法的总称,是统计学中具有丰富理论和众多应用方法的重要分支,主体内容包括多元正态总体参数估计、假设检验和常用的多元统计方法。常用的多元统计方法又包括多元回归分析、多元方差分析、典型相关分析、主成分分析、因子分析、聚类分析、判别分析等。推断统计学的理论原理包括抽样理论、估计理论和统计检验原理。抽样理论主要讨论在什么情况下可以从样本的特性推论出总体的特性,特别关注样本抽取的原则。只有抽样具有随机性,才能保证推论具有某种程度的准确性。估计理论主要是根据随机抽样的结果来估计总体分布的参数值,分为点估计和区间估计。统计检验主要是根据实际的抽样结果来推论有关总体特征的假设是否与具体的随机抽样所提供的信息相一致。为了在抽样基础上对某种假设是否成立作出判断,就得进行检验。
描述统计是推论统计的基础,后者离不开前者计算获得的值。描述统计是只对数据进行一般的分析归纳,如果不应用推论作进一步的分析,描述统计的结果就不会产生更大的价值和意义,达不到统计分析的目的和要求。当然,有时需要良好的试验设计。只有良好的试验设计,才能使获得的数据具有意义,进一步的推论统计才能说明问题。试验设计,必须符合基本的统计方法要求;否则,再好的设计,如果事先没有确定适当的统计处理方法,在处理研究结果时也可能会遇到许多麻烦问题。
1.1.2 统计数据
统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。统计数据是统计工作活动过程中所取得的反映国民经济和社会现象的数字资料以及与之相联系的其他资料的总称。统计数据按不同的分类规则可以分为不同的类型,这里介绍5种分类规则。
- 按照统计数据的收集方法,可以分为观测数据和试验数据。观测数据(Observational Data)是通过调查或观测而收集到的数据,它是在没有对事物进行人为控制的条件下得到的。有关社会经济现象的统计数据几乎都是观测数据。在试验中控制试验对象而收集到的数据则称为试验数据(Experimental Data)。
- 按照统计数据的来源,可以分为计数数据和测量数据。计数数据(Count Data)是计算个数的数据。一般情况下,调查所得的数据属于计数数据,如常住人口数、男女人数等。计数数据一般取整数形式。测量数据(Measurement Data)是指借助一定的测量工具或一定的测量标准而获得的数据,如身高、体重、考试分数、智力测验分数等。
- 按照数据是否具有连续性,可以分为离散数据和连续数据。离散数据(Discrete Data)又称为不连续数,如球赛比分、班级个数等。这类数据在任意两个数据点之间所取的数值个数是有限的。一般情况下,计数数据是离散数据。连续数据(Continuous Data)指任意两个数据点之间可以细分出无限多个大小不一的数值,如年龄、长度、重量等。这类数据往往取决于测量技术和精度。在实际应用中,离散数据和连续数据在形式上不易严格区分。例如,人数、次数是离散数据,但在统计分析中也常常出现例如平均10.5人、平均9.5次的情况。而连续数据本来只能用区间表示,但为了方便,常用这个区间的中点表示。例如,60kg代表59.5~60.4kg这个区间。
- 按照被描述的对象与时间的关系,可以分为截面数据和时间序列数据。在相同或近似相同的时间点上收集到的数据称为截面数据(Cross-Sectional Data)。在不同时间上收集到的数据,称为时间序列数据(Time Series Data)。
- 按照统计数据反映的测量水平(尺度),可以分为定类数据、定序数据、定距数据、定比数据。
对统计数据的属性、特征进行分类、标示和计算,称为统计计量或统计量度。美国社会学家、统计学家史蒂文斯(S. S. Stevens)1968年按照变量的性质和数学运算的功能特点,将统计计量划分为4个层次或4种计量尺度。由此将统计数据分为4种类型。4类统计数据的关系如图1-1所示。
图1-1 4类统计数据的关系
定类数据(Nominal Data)表现为类别,但不区分顺序,是由定类尺度计量形成的。定类尺度将数字作为现象总体中不同类别或不同组别的代码,这是最低层次的尺度。数字只起符号作用,丝毫不具有“量”的含义。在这种情况下,不同的数字仅表示不同类(组)别的品质差别,而不表示它们之间量的顺序或量的大小。定类尺度的主要数学特征是“=”或“≠”。例如“性别”,“男”编码为1,“女”编码为2。当然,有的定类数据是对定量特征的反映,例如及格-不及格,是按考试成绩是否高于60分来分类的,这类数据形式上是定性,但含有定量的成分。
定序数据(Ordinal Data)表现为类别,但有顺序,是由定序尺度计量形成的。定序尺度不但可以用数表示量的不同类(组)别,而且也反映量的大小顺序关系,从而可以列出各单位、各类(组)的次序。定序尺度的主要数学特征是“>”或“<”。例如“受教育程度”,文盲半文盲=1,小学=2,初中=3,高中=4,大学=5,硕士研究生=6,博士及其以上=7。可以说博士的知识水平高于硕士,但不能说一个博士相当于几个硕士。又如,5名学生的身高分别为180cm、178cm、170cm、165cm、164cm,由高到低对应的排名次序为1、2、3、4、5。身高排名第1的学生与排名第2的学生,身高差距并不等于身高第2的学生与第3的学生之间的差距。所以,此类数据不能进行加、减、乘、除运算,依照定序数据求平均值是根本错误的。
定距数据(Interval Data)表现为数值,可进行加、减运算,是由定距尺度计量形成的。定距尺度也称间隔尺度,是对事物类别或次序之间间距的计量,它通常使用自然或度量衡单位作为计量尺度。定距尺度是比定序尺度高一层次的计量尺度。它不仅能将事物区分为不同类型并进行排序,而且可以准确地指出类别之间的差距是多少。定距尺度的主要数学特征是“+”或“-”。温度、能力分数、智商分数等数据属于定距数据。例如,在一次能力测验中,学生A、学生B、学生C的能力分数分别为90、85、80。比较3个学生的能力时,可以说学生A的能力分数高于学生B,学生B的能力分数高于学生C,还可以说学生A与学生B的能力分数之差等于学生B与学生C的能力分数之差。由于这类数据不从绝对零点开始算起,所以在这项能力测验中,如有学生得分为0,也不能判断该学生在这方面的知识和能力为0。比较时,可以做加、减运算,不能做乘、除运算,不能说学生A的能力是学生B的多少倍。还有,等距数据有时是形式上的,在严格意义上并不等距。例如考试分数,由于题目的难度与分数并不一定呈线性关系,两个分值相同的题目难度不一定相同,因而考试分数在反映学生的能力方面很难等距。如果试卷满分100分,学生得分100分比95分高5分,35分比30分也高5分,但这两个5分是不能等量齐观的,似乎分数越高,难度越大,就像攀登高山一样,越到高处,越难攀登。
定比数据(Ratio Data)表现为数值,可进行加、减、乘、除运算,是由定比尺度计量形成的。定比尺度是在定距尺度的基础上,确定可以作为比较的基数,将两种相关的数加以对比,而形成新的相对数,用以反映现象的构成、比重、速度、密度等数量关系。由于它是在比较基数上形成的尺度,所以能够显示更加深刻的意义。定比尺度的主要数学特征是“÷”或“×”。在统计的对比分析中,广泛地运用定比尺度进行计量。例如,父亲的身高为180cm,儿子的身高为60cm,可以说父亲的身高比儿子高120cm,也可以说父亲的身高是儿子的2倍。
前两类数据说明的是事物的品质特征,不能用数值表示,其结果均表现为类别,也称为定性数据或品质数据(Qualitative Data);后两类数据说明的是现象的数量特征,能够用数值来表现,因此也称为定量数据或数量数据(Quantitative Data)。不同测度级别的数据,应用范围不同。一般来说,数据的等级越高,应用范围越广泛,等级越低,应用范围越受限。等级高的数据,可以兼有等级低的数据的功能,而等级低的数据,不能兼有等级高的数据的功能。当然,可以将高层次数据转化为低层次数据,例如将考试成绩的百分制转化为五等级制。在统计分析中,一般要求测量的层次越高越好,因为高层次的计量尺度包含更多的数学特性,所运用的统计分析方法越多,分析时也就越方便。
区分测量的层次和数据的类型是十分重要的,因为对不同类型的数据将采用不同的统计方法来处理和分析。例如,对定类数据,通常计算出各组的频数或频率,计算其众数和异众比率,进行列联表分析和X2检验等;对定序数据,可以计算其中位数和四分位差,计算等级相关系数等非参数分析;对定距或定比数据还可以用更多的统计方法进行处理,如计算各种统计量、进行参数估计和检验等。我们所处理的大多为数量数据。
需要特别指出的是,适用于低层次测量数据的统计方法,也适用于较高层次的测量数据,因为后者具有前者的数学特性。例如,在描述数据的集中趋势时,对定类数据通常是计算众数,对定序数据通常是计算中位数,但对定距和定比数据同样也可以计算众数和中位数。反之,适用于高层次测量数据的统计方法,则不能用于较低层次的测量数据,因为低层次数据不具有高层次测量数据的数学特性。例如,对于定距和定比数据可以计算平均数,但对于定类数据和定序数据则不能计算平均数。理解这一点,对于选择统计分析方法是十分有用的。
1.1.3 几组基本概念
1.变量、变量值、随机变量
变量(Variables)是说明现象某种属性和特征的名称,是指可变的数量标志和所有的统计指标。在数量标志中,不变的数量标志称为常量,可变的数量标志称为变量。由可变数量标志构造的各种指标也称为变量。例如,在校生人数、商品销售额、产品质量等级等都是变量。变量从上一次观察到下一次观察会呈现出差别或变化。数量变异标志的表现形式是具体的数值,称为变量值。例如:某集团公司下属3个分公司,甲公司的职工人数为650人,乙公司的职工人数为1023人,丙公司的职工人数为890人,要求计算该集团公司下属分公司的平均职工人数。在这里,“职工人数”是一个变量,所要平均的是“职工人数”这个变量的3个数值,即3个变量值。
变量按性质可分为品质变量和数值变量。变量可以是定性的,也可以是定量的。
变量按连续性可分为连续变量和离散变量。因为一个定量变量要么是离散的,要么是连续的。在社会经济统计中,一般表现为只能取整数的变量为离散变量。连续变量的数值是连续不断的,相邻的两个值之间可作无限分割,即可取无限个值,例如人的身高、体重等。连续变量的数值要用测量或计算的方法取得。
变量按稳定性分为确定性变量和随机变量。离散变量的两个变量值之间的随机变量(Random Variable)表示随机现象(在一定条件下,并不总是出现相同结果的现象称为随机现象)各种结果的变量(一切可能的样本点)。例如,某次掷色子的结果,某一时间内公共汽车站等车人数,电话交换台在一定时间内收到的呼叫次数等,都是随机变量的实例,只能取有限个变量值。
社会科学中研究变量的关系,通常把一个变量称为自变量(独立变量),另一个变量称之为因变量(依赖变量)。
2.总体、个体、样本
在统计学中,研究对象的全体称为总体(Population),总体为具有某种特征的一类事物。组成总体的每个单位,即每个研究对象称为个体(Individual)。总体中所包含的个体的数量称为总体容量。容量有限的总体为有限总体,有限个体的数目通常用N来表示;容量无限的总体为无限总体。总体本身的大小,有限还是无限,要依据研究问题的推论范围而定。
从总体中抽出的部分个体组成的集合称为来自总体的样本(Sample)。通常,样本是相互独立且与总体为同一分布。样本中所含个体的数量称为样本容量。总体与样本可以互相转化。例如,某校高三年级学生,可以作为该校现在高三年级的总体,也可以作为该校现在所有学生的一个样本,还可以作为该校过去、现在、将来高三年级的一个样本。
一般地,设X是一个随机变量,X1,X2,…,Xn是一组相互独立且与X同分布的随机变量,则称X是总体,X1,X2,…,Xn为来自总体X的简单随机样本,简称样本,n为样本容量。
3.参数、统计量
参数(Parameter)是相对于总体分布来说的,反映总体基本信息的特征数字,称作总体参数,简称参数。一般来讲,研究者所关心的参数常有总体平均数、总体标准差。
统计量(Statistics)是用来描述样本特征的概括性数字度量。
参数代表总体的特征,是一个常数。统计量代表样本的特性,是一个变量,随着样本的变化而变化。总体参数常用希腊字母表示,样本统计量常用英文字母表示。常用参数和统计量所用字母和读音如表1-1所示。
表1-1 常用参数和统计量所用字母和读音