§2.2 统计数据的整理
§2.2.1 统计分组
(1)统计分组的概念
统计分组是根据统计研究的目的和要求,将总体中的所有单位按照一定的标志分为若干部分或组别的方法。统计分组对总体而言是“分”,即将总体中具有不同性质的单位分开;对个体而言又是“合”,即将总体中具有相同性质的单位归入同一组中。总体分组后,突出了组与组之间的差异,而抽象了组内各单位的差异。
(2)统计分组的作用
统计分组的作用主要表现在三个方面:第一,区分总体的类型。现象的类型多种多样,不同类型的现象存在本质差别,通过对统计数据的分组,就可以把不同类型的现象区别开来以便进行比较、分析。第二,反映现象内部结构和比例关系。通过分组,总体被划分为若干组成部分,计算各组成部分在总体中的比重和各部分之间的比例关系,可以反映总体的构成特征和基本性质。第三,揭示现象之间的相互依存关系。现象之间总是相互联系、相互依存、相互制约的,在分组基础上计算有关指标,可以观察这些现象之间的内在联系和数量关系。
为了充分发挥统计分组的作用,要注意分组原则的科学性、分组的完备性和互斥性。科学性是指统计分组要从统计研究的目的出发,正确地选择分组标志和划分各组界限。完备性是指分组时任何一个总体单位或原始数据都能归属于某一个组,而不会遗漏在外。互斥性亦称不相容性,指任何一个总体单位或任何一个原始数据,在一种统计分组中只能归属于某一个组,而不能归属于两个或两个以上的组。
§2.2.2 次数分布数列
(1)次数分布数列的概念
将总体各单位按某个标志分成若干组,列出各组的总体单位数或各组单位数在总体单位数中所占的比重,这样形成的数列称为次数分布数列,简称为分布数列或次数分布(分配)。分布在各组的数据个数叫次数或频数;各组数据个数在全部数据个数中所占的比重又称为频率。分布数列是统计整理结果的基本表现形式,在统计分析中具有广泛的用途。分布数列可以反映总体的分布特征、结构,并据以研究总体单位某一标志的集中趋势和离散程度。分布数列由两个基本要素构成:一是分组标志的具体表现;二是各组次数(频率)。
(2)次数分布数列的种类
根据分组标志不同,分布数列可以分为品质分布数列和变量分布数列。品质分布数列是按照品质标志分组而形成的分布数列,简称品质数列,是定性数据数列,用来反映不同属性的各组次数在总体中的分布状况,它由各组名称和各组次数构成。见表2-1,将2015年全国就业人口按产业分组,可以分为第一产业、第二产业和第三产业,这便是各组名称;列出每次产业的就业人数,这便是次数,这样就形成了一个品质数列,这是一个定类数据的数列。表2-2是将居民对住房的满意程度分为非常满意、满意、一般、不满意、非常不满意,列出每组的户数,这样就形成了一个品质数列,这是一个定序数据的数列。
表2-1 2015年我国就业构成
资料来源:《中国统计年鉴》(2016年)。
表2-2 某地区居民对住房状况评价
变量分布数列简称变量数列,是按数量标志分组形成的分布数列,由各组变量值及各组次数构成。变量数列可分为单项式变量数列和组距式变量数列。单项式变量数列(如表2-3)是把每一个变量值作为一组,这种分组通常只适合于离散变量,且在变量值的变动幅度不大的情况下使用。在连续变量或离散变量的变量值变动幅度比较大时,应该编制组距式变量数列。组距式变量数列(如表2-4、表2-5)简称为组距数列,是将全部变量值依次划分为若干个区间,将这一区间的变量值作为一组,每一区间两端的值称为组限,各组的最小值称为下限,最大值称为上限。
表2-3 某企业某日工人日产量
表2-4 某地区某年农民人均年收入
表2-5 我国第六次人口普查人口年龄结构
组距式变量数列组限的表示可以重叠,也可以不重叠。对离散变量一般采取不重叠组限形式,即前一组上限与下一组下限分别用两个数值表示;对连续变量理论上说,应采用重叠组限形式,即前一组上限与后一组下限用同一数值。此时,遵循“上组限不在内”的规定,即如果某个变量值刚好等于组限,将其归入下限所在组。但在实际工作中,也常常对连续变量只取整数,且采取不重叠组限,如表2-5。
组距式变量数列中,区间的长度称为组距。对重叠形式的组限,组距=上限-下限,如表2-4第二组组距为4000-3500=500(元);对于不重叠形式的组限,组距=本组上限-上组上限(或=下组下限-本组下限),如表2-5第二组的组距为64-14=50(岁),或65-15=50(岁)。如果第一组只有上限,最后一组只有下限,这样的组称为开口组,这样的数列称为开口数列,如表2-5。开口组一般以相邻组组距为其组距来计算组中值。开口式分组适用于数据集有极端值且较分散的情况。
各组上限与下限的中点值称为组中值,即:,或组中值=上限(下限)∓。组距分组掩盖了各组内的数据分布状况,为了反映各组数据的一般水平,通常用组中值作为该组数据的代表值。但这种代表有一个必要的假定条件,即各组数据在本组内呈均匀分布或在组中值两侧呈对称分布。如果实际数据的分布不符合这一假定,用组中值作为一组数据的代表值会有一定的误差。
组距数列按各组组距是否相等分为等距数列和异距数列。如表2-4中每组组距均为500元,是一个等距数列;表2-5中各组组距不等,是个异距数列。等距和异距的选择,应该根据统计研究目的和现象的特点而定。如果为了直接比较各组次数多少,或现象性质特征的变化是比较均匀的,就可以采用等距分组;否则,就需要采用异距分组。
(3)次数分布数列的编制
编制变量数列的目的在于对定量数据及其特征进行观察和分析。在编制变量数列时,首先要根据研究目的和现象的特点确定是编制单项数列还是组距数列,组距数列是采用等距还是异距,是否需要开口等。下面结合具体的例子说明分组的方法和过程。
【例2-1】下面是某班学生统计学的考试成绩数据,试编制变量数列来反映该班学生成绩的分布特征。该班学生的考试成绩如下:
67 90 52 88 78 91 65 63 66 89 85 77 85 62 76 79
81 42 76 82 84 60 70 85 69 71 76 78 73 86 65 67
75 94 66 83 78 87 70 61 89 75 76 80 72 78 66 88
65 69 64 97 79 76 80
采用手工分组时,要先对上面的数据进行排序(使用计算机分组不必排序)。分组的具体步骤如下:
第1步:确定分组的形式。对考试成绩可编制等距数列。找出数据的最大值和最小值,本例的55个数据的最大值是97,最小值是42,数据的波动幅度(全距或极差)为55分。不及格的有2人,最低分数为42分,故应该采用开口组。
第2步:确定组数。数据分成多少组,一般与数据本身的特点及数据的多少有关。组数太多或过少都不适宜。如果组数太多,数据的分布就会过于分散,组数过少,数据的分布就会过于集中,这都不便于观察数据的分布特征和规律。
第3步:确定组距。组距与组数成反比,可根据全部数据的全距(极差)和组数来确定,即组距=全距/组数。本例中全距为55,组数若为5,则组距=55/5=11。为便于计算分析,组距宜取5或10的倍数,而且第1组的下限应该低于最小变量值,最高一组的上限应高于最大变量值,因此组距可取10分。
第4步:确定组限。组限应是引起事物质变的数量界限,并有利于表现总体分布的规律性。因此组限的选择应当能够反映现象本质特征。本例中成绩是连续变量,可采用组限重叠的形式。
第5步:计算各组次数,形成变量数列。根据所确定的组数、组距和组限,将全部数据归入各个不同的组,计算出各组的频数或频率,即可编制出变量数列。表2-6就是例(2-1)分组整理后所得的变量数列。
表2-6 某班学生统计学成绩分布表
(4)累计次数分布与洛伦兹曲线
变量数列只能反映各组次数的分布状况,但有时我们还需要了解大于或小于某个数的次数或百分数的多少,这时就需要计算累计次数。次数累计的方法有向上累计和向下累计两种,向上累计是将各组的次数(频数或频率)由变量值小的组向变量值大的组累加,各组的累计次数表明小于该组上限的次数或百分数共有多少,如表2-6中,80分以下的共有36人,占全部人数的65.46%;向下累计是将各组的次数由变量值大的组向变量值小的组累加,各组的累计次数表明大于该组下限的次数或百分数共有多少,如表2-6中,70分以上的有38人,占全班人数的69.09%。
累计次数分布不仅可以用表格表现,还可以用折线图和曲线图来表示。对表2-6中的累计次数,我们可以绘制成折线图,如图2-1和图2-2所示。
图2-1 向上累计次数分布图
图2-2 向下累计次数分布图
绘制向上累计折线图时,从首组的下限开始将各个累计次数组的下限纵坐标连接起来,目的是使累计折线图的意义与累计次数的意义一致。
累计频率(%)和累计频率折线图可利用Excel来求得,其操作方法是在“数据分析”工具中选择“直方图”,在出现的对话框选择“累计百分率”和“图表输出”,即可输出频数分布和直方图的同时输出向上累计频率和向下累计频率折线图。
累计次数分布曲线图在统计分析中应用十分广泛,其中影响较大的是洛伦兹曲线。洛伦兹曲线是20世纪初美国的统计学家洛伦兹(M.F.Lorenz)根据意大利经济学家帕累托(V.Pareto)提出的收入分配公式绘制成的描述收入和财富分配性质的曲线,如图2-3所示。
图2-3 洛伦兹曲线和基尼系数
洛伦兹曲线可用于分析一国或一地区收入分配的平均程度。若一国的收入分配是绝对平均的,则洛伦兹曲线为该正方形的对角线,称为绝对平均线;若一国的收入分配不平均,则该曲线就会靠近下横轴和右纵轴。若一国收入分配越是趋向平均,洛伦兹曲线的弧度就越小;若一国收入越是趋向不平均,洛伦兹曲线的弧度就越大。
为了更准确地反映收入分配的变化程度,20世纪初意大利经济学家基尼(G. Gini)根据洛伦兹曲线给出了衡量收入分配平均程度的指标,即基尼系数,其计算公式为:
其中A为实际收入曲线与绝对平均线之间的面积,B为实际收入曲线与绝对不平均线之间的面积。该系数可在0和1之间取任何值,系数越接近于0,收入分配越平均。联合国有关组织规定:若低于0.2表示收入绝对平均;0.2~0.3表示比较平均;0.3~0.4表示相对合理;0.4~0.5表示收入差距大;0.6以上表示收入差距悬殊。基尼系数狭义上专门用于收入分配问题的研究,实际上可拓宽到对一切分配均衡程度的衡量,是一种广义的均衡分析工具。
(5)次数分布的类型和次数分布图
①次数分布的类型。
次数分布的类型主要有三种:钟形分布、U形分布、J形分布。
钟形分布也称为正态分布,其特征是中间变量值出现的次数多,极大值和极小值出现的次数少,即“中间大,两头小”,图形为左右对称的倒挂的古钟,这是客观事物数量特征表现最多的一种形式,如人的身高、农作物产量等,如图2-4。
图2-4
偏态分布根据尾巴拖向哪一方又可分为正偏(或右偏)和负偏(或左偏)分布,如图2-5。
图2-5
U形分布又称为倒钟形分布,与钟形分布正好相反,呈现出“中间小,两头大”的特征。人口按年龄分组的死亡率的分布就呈U形分布,如图2-6。
图2-6
J形分布的特征是“一头大,一头小”。如果随着变量值增大,次数也增多,这种分布称为正J形分布;如果变量值增大,次数减少,这种分布称为反J形分布。如图2-7。
图2-7
②次数分布图。
分组数据频数分布的特征常用直方图显示。以柱形图的形式对频数分布进行图形化描述得到的图叫直方图。直方图是用于展示组距数列分布特征的一种图形,它是在直角坐标中,用横轴表示数据的分组,纵轴表示频数或频率,这样各组与相应的频数就形成了一个矩形,用矩形的宽度和高度(面积)来表示频数分布。对于等距数列,各组频数可以直接作为直方形的高度。图2-8是根据表2-6资料绘制的直方图,从这个直方图我们可以更直观地看出学生成绩的分布状况,即成绩在70~80分的人数最多,60~70分和80~90分的人数相差不大。
图2-8 学生成绩次数分布直方图
但对于异距数列,由于各组组距不同,频数的差异不能直接表明数据分布的特征。这时就需要根据频数密度来绘制直方图,以准确反映各组数据分布的特征。其方法是:以各组频数密度(频数密度=频数/组距)为各组直方形的高度,或先确定标准组距,将标准组距乘以各组频数密度得到标准组距频数,再以各组的标准组距频数为各组直方形的高度。
与直方图作用相似的是折线图。它以各组的组中值为该组的代表值,然后用折线将各组次数连接起来,就形成了折线图,也称为次数多边图。直方图与折线图的面积是相等的,因此,直方图与折线图所表示的分布规律是相同的,是两种面积相同但表示形式不同的次数分布图。如图2-9所示。需要注意的是,折线图的两个终点要与横轴相交,这样才会使折线图下所围成的面积与直方图的面积相等,从而使二者所表示的频数分布一致。
图2-9 学生成绩次数分布折线图
曲线图是折线图的理论图,当变量数列的组数无限多时,折线就表现为一条光滑的曲线。如图2-10所示。
图2-10 学生成绩次数分布曲线图
利用Excel可对原始数据进行分组并得到频数分布和直方图。具体步骤如下:点击“工具”→“数据分析”→“直方图”。在“直方图”中的“输入区域”输入数据所在区域;在“接收区域”输入指定的分组上限值所在区域;在“输出区域”指定频数分布表输出区域的起点单元格;选择“图表输出”;最后点击“确定”即可得到次数分布表和直方图(如图2-11所示,是例2-1用Excel进行分组得到的频数分布和直方图)。
图2-11 Excel的次数分布和直方图
在直方图的任一条形上点击右键,选择“数据系列格式”,在“选项”中将“分类间距”调整为0,即可得到条形之间无间隔的直方图,如图2-8所示。