第三章 概率论与数理统计基础知识
一、事件的概率特性
(一)概率的基本概念
1.概率的统计学定义
概率,又称或然率,是表示某种情况(事件)出现的可能性大小的一种数量指标,它介于0和1之间。
2.主观概率
因为许多决策都难免包含个人判断的成分,这时估计的概率又称作主观概率。主观概率可以理解为一种心态或者倾向性。主观概率一般都是根据经验知识对或有事件做出估计,它在体现当事人主观看法的同时也反映了一定的客观因素。
(二)实验与事件
1.概率论中事件的一般定义
(1)有一个明确界定的实验。具体而言,“事件”是对某一实验某些特征的描述,“事件”是依赖于实验的。
(2)这个实验全部可能的结果是在实验前就明确的。有些情况不能确切地知道一个实验全部可能的结果,但是,可以知道它不超过某个范围。在这种情况下,可以用这个范围来作为该实验的全部可能结果。
(3)要有一个明确的陈述,这个陈述界定了实验的全部可能结果中某一确定的部分。或者说,对实验一个确定的陈述就可以称作一个“事件”。
注:事件不是指已经发生的事情,而是指某种或有情况,它最后的结果在未来才能确定。它发生与否的结果只有在有关的“实验”有了结果以后才能知道。
2.必然事件和不可能事件
(1)必然事件
必然事件就是发生概率为1的事件,换言之,就是即使是在现在也可以断定该事件在未来一定发生。
(2)不可能事件
不可能事件是指发生概率为0的事件,该事件在未来无论如何都不会发生。
(三)古典概率
1.古典概率的定义
(1)“等可能性”实验
如果一个实验有N种结果,而且从实验的条件和实施的方法上去分析,找不到任何理由认为其中某一结果比其他任意结果更具有发生优势,这种情况下,所有结果在实验中有同等可能的出现机会,即1/N的出现机会。常常把这样的实验结果称为“等可能性”实验。
(2)古典概率
设一个实验有N个等可能的结果,而事件E恰包含了其中的M个结果,则事件E的概率P(E)定义为:
P(E)=M/N
注:①古典概率是通过排列组合的思想计算事件发生的概率,而且是客观概率。
②只要事件E中的任何一个元素发生,就说事件E发生了,即事件是实验结果的并集。
③古典概率计算方法能否适用的关键是等可能性的前提条件能否成立。
④古典概率只适用于实验结果的个数是有限的,而且发生等可能性的情况。因此,古典概率计算方法存在很大的局限性,在很多情况下都不能用来计算事件发生的概率。
2.古典概率的计算
古典概率就是在得出基本的组合或者排列数之后,根据等可能性原则计算出所考察事件发生的概率。
注:(1)要讨论古典概率的问题需要掌握基本的排列组合知识及其计算方法。排列的意思是不同的抽取次序表示不同的结果。与排列对应的是组合的概念,即组合之间的区别在于构成元素的不同,而不是元素的排列顺序。
(2)一些常用的排列组合算法,如取物排序、取物不排序、分组等方法在古典概率问题的讨论中都有很大的应用。
(四)概率的统计定义
1.定义
概率的统计定义是通过实验去估计事件概率的方法。
2.含义
一个事件出现的可能性大小,应该由多次重复实验中出现的频繁程度去刻画。该问题的关键是实验必须能在同样的条件下大量次数重复进行,以便有可能观察事件的频率。
3.实际应用中的重要性
(1)提供了一种估计频率的方法。
(2)提供了检验理论正确与否的准则。可以通过实验的方法检验由某种理论计算出来的概率是否正确。
(五)事件的运算、条件概率与独立性
1.事件的蕴含、包含和相等
在相同实验下的两个事件A和B,如果当A发生时B必然发生,则称A包含于B,记为A⊂B。若A、B互相包含,即A⊂B,B⊂A,则称A、B两个事件相等,记为A=B。
2.事件的互斥和对立
若事件A、B不能在同一次实验中都发生(但可以不发生),则称它们是互斥的。如果一些事件中,任意两个事件都是互斥的,则称这些事件是两两互斥的,或简称互斥的。
互斥事件一个重要情况是“对立事件”,若A为一事件,则事件B={A不发生}为A的对立事件,记为。
3.事件的和(或称并)
设有两个事件A、B,定义一个新事件C如下:
C={A发生或B发生}={A、B至少一个发生}
只要A发生,或者B发生,或者二者同时发生,C就发生。这样定义的事件C称作事件A、B的和。因此,可以把A和B看成是C的子事件。记为C=A+B或者C=AUB。
4.概率的加法定理
若干个互斥事件和的概率等于各事件发生概率的和,事件的个数可以是有限的也可以是无限的,这个定理称作(概率的)加法定理,其重要条件是各事件必须是两两互斥的。如果两个事件是对立的,根据加法定理有:P(A)=1-P()。
5.事件的积(或交)、事件的差
设有两个事件A、B,定义一个新事件C如下:
C={A、B都发生}
称为两事件A、B的积,记为AB。一般事件A、B都是一些实验结果的组合,AB则由同属于这两个集合的那些实验结果组成,即这两个集合的交叉。如果A、B为对立事件,那么AB为不可能事件。
设有两个事件A、B,定义一个新事件C如下:
C=A-B={A发生,B不发生}
称C为事件A,B的差,记为C=A-B。A-B就是从构成A的那些实验结果中,去掉同时在A和B中的那些事件。
6.条件概率
一般讲,条件概率就是在附加一定的条件下所计算的概率。在概率论中,决定实验的那些基础条件被看作是固定不变的。如果不再加入其他条件或假定,计算出的概率叫做“无条件概率”,这是常说的概率。条件概率指另外附加的条件,其形式总可归纳为“已知某些事件发生了”。
7.事件的独立性和概率乘法定理
(1)事件的独立性
如果两个事件之间存在一定的关联性,那么在给定其中一个的前提下,另一个的发生概率和其无条件概率P是不一样的。反之,如果两个概率相同,即一个事件的发生与否对另一个事件的发生概率不会产生影响,则称它们是条件独立的,两个事件为独立事件。
多个事件独立性的定义可以由两个事件独立性直接推广而得到。
(2)概率乘法定理
当事件是相互独立的,那么事件交集的概率是各个事件各自概率的乘积。
注意:①一些事件A1,A2,…,如果其中任意两个都独立,则称他们两两独立。由相互独立一定能得出两两独立,但是反过来不一定成立。
②乘法定理和加法定理一样,都能够把复杂事件概率的计算归结为更简单的事件概率的计算,但要满足一定的条件:相加是互斥,相乘是独立。
8.全概率公式
(1)完备事件群
设B1,B2,…为有限或无限个事件,他们两两互斥而且在每次实验中至少发生一个,即B1+B2+…=Q(必然事件),=φ(不可能事件)(i≠j),这样的一组事件又称作“完备事件群”。
(2)全概率公式
任何一个事件A发生的概率可以表示为:
P(A)=P(B1)P(A|B1)+P(B2)P(A|B2)+…
这就是著名的全概率公式,全概率被分解成许多部分之和。
它的理论和实践意义在于,在许多情况下直接计算A的概率不容易,但A总是伴着某个B,适当构造一组B往往会使问题变得简单。全概率公式在整个概率论中,用处非常广泛,起着重要的作用。
二、随机变量及概率分布
(一)随机变量
1.随机变量的基本概念
(1)随机变量的定义
随机变量就是指那些“其值随机会而定”的变量。
含义:①机会表示实验的结果,一个随机实验有很多可能的结果,随机变量就是实验结果的函数。
②随机的含义在于实验前不能预知它将取何值。
(2)随机变量的分类
随机变量按其可能取值的全体的性质,分为两类:
①离散型随机变量
其特征是只能取有限个值,或者虽然在理论上可以取无限个值,但是这些值可以毫无遗漏的一个接一个排列出来。
②连续型随机变量
这种变量的全部取值不但是无限的,而且还不能毫无遗漏的一个接一个排列出来,而是充满一个区间。
2.单维随机变量特征
(1)概率函数和概率密度函数
①离散型随机变量的概率函数
对于离散型随机变量,概率函数可以衡量变量取某值概率的大小。
需要指出的是,每个取值概率应该介于0和1之间,而且所有可能取值对应的概率之和应该等于1。
②连续型随机变量的概率密度函数
对于连续型随机变量,概率密度函数可以反映出变量取某值的“强度”。
(2)分布函数
设X为一个随机变量,函数P(X≤x)=F(x)(-∞<x<+∞)为X的分布函数。
注意:这里并未对X的属性加任何限制,它可以是离散型的,也可以是连续型的。
(3)连续型随机变量密度函数的性质:
①所有概率密度函数非负。
②在随机变量的定义域内,概率密度函数的积分等于1。
③随机变量介于两点之间的累积概率等于概率密度函数在该区间内的积分。
(二)条件概率分布与随机变量的独立性
1.条件概率分布
(1)条件概率分布的概念
一个随机变量或者向量的条件概率分布,就是在某种给定的条件之下的概率分布。
注意:这里所说的条件不是指保证实验正常进行的基础条件,而是除此之外的附加条件。它一般采取以下形式,设有两个随机变量或者向量X、Y,在给定了Y取某个或某些值的条件下,去求X的概率条件分布。讨论条件概率的意义在于,很多情况下变量之间往往是相互影响的,这使得条件概率成为了研究变量之间相互依赖关系的一个有力工具。
(2)离散型随机变量的条件概率分布
离散型随机变量的条件分布用其条件概率表示。
设(X1,X2)为一个二维随机向量,在给定X2取值的条件下,X1的条件概率为二者的联合分布与X2取值概率的商。即:
P(X1=ai|X2=bj)=P(X1=ai,X2=bj)/P(X2=bj)
(3)连续型随机变量的条件概率分布
连续随机变量的条件概率分布用条件概率密度函数表示。
一个变量的条件密度函数为多个变量的联合密度函数与其他变量密度函数的商。即:
f(xl|x2)=f(xl,x2)/f(x2)
也就是说,两个连续随机变量的联合密度函数等于其中一个的概率密度乘以给定该变量的情况下另一个的条件概率密度。
2.随机变量的独立性。
(1)独立性的定义
一般而言,条件概率或者条件概率密度函数是随条件变量的变化而变化的,这反映了两个随机变量在概率上相互依赖关系的事实。如果条件概率或条件概率密度函数不依赖于条件变量的取值,那么条件分布与条件变量的取值完全无关,这时就称两个随机变量(在概率意义上)是独立的。
可以推而广之,给出随机变量独立性一般情况下的正式定义:
如果,对于多个随机变量的联合概率密度函数等于单个变量边缘密度函数之积,就称这些变量是相互独立的。
(2)几个重要定理
定理1:变量独立导致的事件独立性。
如果多个随机变量之间是独立的,则完全依赖于不同变量的事件之间也是独立的。
定理2:如果连续型随机变量的概率密度函数f(x1,x2,…,xn)可表示为n个相异函数之积,而且每个函数只依赖于其中的一个变量,那么这些随机变量是相互独立的,而且每个函数与其自变量对应的边缘分布只差一个常数因子。
定理3:随机变量独立性导致的函数独立性。
如果多个随机变量是相互独立的,以这些随机变量为变量的函数对应的自变量完全不同,那么这些函数之间也是相互独立的。
三、随机变量的数字特征
(一)数学期望(均值)与中位数
1.数学期望
(1)数学期望的概念
数学期望就是随机变量的可能值与该值发生概率之积的累加,换句话说就是随机变量取值分别与各自的发生概率为权重相加的结果。
严格的定义如下:
设随机变量X只可能取有限个值a1,a2,…am,其取值概率分别为P(X=ai)=pi,i=1,2,…,m,则X的数学期望E(X)为:
E(X)=a1Pl+a2p2+…+amPm
数学期望也常被称为“均值”。
当随机变量为连续型时,基本原理与离散型随机变量情况下相同,不同之处在于连续型随机变量的期望值为其概率密度函数在其取值范围内的积分,而不再是相加。
(2)数学期望的性质
①如果若干个随机变量都存在期望值,那么这些变量和的期望值等于各个随机变量期望值的和。
②若干个独立随机变量积的期望值等于各个变量的期望值之积。
③(随机变量函数的数学期望)
随机变量函数期望值的计算方法和随机变量相似,只是把随机变量的取值换为相应的函数值。这个定理的实质在于,计算随机变量函数的期望值,并不需要先计算出函数的密度函数,而可以通过随机变量分布计算得出,这就大大方便了计算。
2.中位数
中位数为把随机变量分布函数一分为二的变量取值。即随机变量在中位数左右对应的累计概率分别为1/2。从概率的角度来说,中位数正好居于随机变量分布的中央。
(二)方差与矩
1.方差和标准差
(1)基本概念
方差是随机变量与其期望值差平方的期望值。即随机变量X的方差可以表示为:
Var(X)=E[X—E(X)]2
方差的正平方根称作随机变量的标准差。方差和标准差都是刻画随机变量分布离散程度的参数。
(2)方差的性质
①a.常数的方差为0;
b.若C为常数,Var(C+X)=Var(X);
c.若C为常数,则Var(CX)=C2Var(X)。
②独立随机变量和的方差,等于各个变量的方差之和。
这个定理是方差的一个极其重要的性质,它与均值的定理1相似。但需要注意的是:方差定理要求各变量独立,而均值定理没有该限制条件。
2.矩
(1)矩的定义
矩是随机变量的一系列经调整的期望值。E[(X—c)k]称为X关于c点的k阶矩。比较重要而且经常使用的矩有以下两种:
①c=0,这时称为X的k阶原点矩;
②c=E(X),这时称为X的k阶中心矩。
应该注意到,一阶原点矩就是数学期望,二阶中心矩就是方差。
(2)偏度系数和峰度系数
①偏度系数
β1=2称为随机变量或其概率分布的偏度系数,该变量用来检验分布是否为对称分布。如果该值为负值,那么称分布左偏或负偏;如果为正,则称分布右偏或正偏。
②峰度系数
β2=μ4/μ22称为随机变量或其概率分布的峰度系数。该变量用μ4衡量分布(密度)在均值附近的陡峭程度。
(三)协方差和相关系数
1.协方差和相关系数的基本概念
(1)协方差
称E[(X-m1)(Y-m2)]为X,Y的协方差,并记为cov(X,Y)。
(2)相关系数
随机变量协方差与各自标准差积的商即为随机变量的相关系数:
E[(X-m1)(Y-m2)]/
2.协方差和相关系数的性质
(1)定理1:独立随机变量的协方差为零;。
当且仅当X,Y有严格的线性关系时等号成立。
(2)定理2:独立随机变量的相关系数为零;相关系数绝对值不大于1,当且仅当X,Y有严格的线性关系时等号成立。
注意:
①当协方差为零时称两个随机变量不相关。也就是说由独立性可以推出不相关,但是不相关并不能推导出独立性;
②相关系数又称作线性相关系数。因为相关系数并不是刻画随机变量之间一般的相关关系,而是“线性关系”的程度。
(四)大数定理和中心极限定理
1.大数定理
设做了n次独立实验,每次观察某事件A是否发生。定义随机变量Xi,i=1,2,…,n,为:
则在n次实验中,A发生的次数为X1+X2+…+Xn次,而频率为:
若P(A)=p,则“频率趋于概率”是说,在某种意义下,当随机变量的个数很大时Pn接近于随机变量的期望值。“大数”的意思就是涉及大量的观察值,该定理也只有在大量次数的实验和观察之下才能成立。
对于一组有共同期望值a,服从独立同分布的随机变量而言,“大数定理”阐明的是,如果它们的方差存在,那么对于任意给定的无限小量ε>0,都有
这个式子指出了“当n很大时,接近a”的确切含义:它的内涵是在概率意义下体现出来的,这不同于微积分意义下某一数列的收敛于a。上式只是说:不论你给定多么小的正值,频率和均值的偏离是可能比ε大的,但是如果所考察的n很大时,出现这种情况的可能性就会很小,以至于趋于0。像上式这样的收敛性称作“概率收敛于a”。
2.中心极限定理
在概率论中,存在这样一种情况,一组随机变量和的数字特征除了一些例外情况以外,刻画起来是非常复杂的。其实这种问题可以通过极限的方法解决,而且更有利的是,在很一般的情况下和的极限分布就是正态分布。在概率论中,把和的分布收敛于正态分布的那一类定理称作“中心极限定理”。
定理:对于一组均值为n,服从独立同分布的随机变量,如果它们的方差存在并有限,则有对于任何z都有:
这里φ(x)是标准正态分布的分布函数。注意到X1+X2+…+Xn有均值na,方差aσ2。因此,标准化后的随机变量之和依概率收敛于标准正态分布。由中心极限定理得知,虽然在很多情况下,很难求出随机和分布的确切形式,但是当变量个数很多时,可以通过标准正态分布函数给出其近似值。从这种意义上可以说,中心极限定理是用分布模拟分布。
四、统计学概述
(一)统计总体和总体单位
1.统计总体
统计总体(简称总体)是根据一定的统计目的与要求所确定的客观事物的研究对象,它是由客观存在的、在同一性质基础上结合起来的许多事物所构成的整体。
2.统计单位
总体单位(简称单位)是指组成总体的各个单位(或元素),是各项统计数字的原始承担者。
(二)标志和标志值
1.标志
标志是总体单位所共有的某一属性或特征,它是说明总体单位属性或特征的名称。
2.标志的分类
(1)品质标志和数量标志
标志按照表现形式可以分为品质标志和数量标志。
①品质标志表明单位属性的质的特征,只能用文字来说明,如工人的性别、工种等;
②数量标志表明单位数量方面的特征,可用数值来表示,如人的年龄、企业的利润等。
(2)不变标志和可变标志
标志按变异情况可以分为不变标志和可变标志。
①不变标志是指在一个统计总体中,总体单位的表现都相同,例如,在工人的总体中,职业这一标志各单位表现都是相同的,职业就是不变标志;
②可变标志是指在一个统计总体中,总体单位的表现不尽相同,存在差异,例如,在工人的总体中,工资这一标志的各单位可能表现不同,所以职工的工资就是一个可变标志。
3.标志值
标志值是总体中各单位的属性或特征的具体表现,例如,职工的工资,对每个总体单位来讲是不同的,每个工人的工资就是标志的具体体现,也称为标志值。
4.变量和变量值
可变的数量标志称为变量,变量的数值表现就是变量值。
5.变量的分类
①按照变量值的连续性可以把变量分为连续变量和离散变量;
②按照变量的性质可以分为确定性变量和随机变量。
(三)指标
1.指标的定义
指标是反映统计总体数量特征的概念和数值的,由两项基本的要素组成,即指标的名称和指标的数值。
(1)指标的名称是对所研究现象的本质概括,即对总体数量特征的质的规定;
(2)指标的数值是反映所研究的现象在具体时间、地点、条件下的规模和水平,是具体的,不是抽象的。
2.数量指标和质量指标
指标按照所反映的数量特点不同,可以分为数量指标和质量指标。
(1)数量指标
凡是反映现象总规模、总水平和工作总量的统计指标称为数量指标,例如,人口数、企业数、工资总额等;
(2)质量指标
凡是反映现象的相对水平和工作质量的统计指标称为质量指标,例如粮食平均亩产量、职工平均工资、人口密度死亡率等。
五、数据的收集和描述
(一)数据的收集
1.原始统计数据
原始统计数据产生于统计调查阶段,主要是说明总体单位特征的,通常称为标志值。
2.综合统计数据
综合统计数据是经过统计整理以及相应的汇总计算后形成的,用以说明总体特征,通常称为统计指标。
3.原始数据的获得不像综合数据那么轻松,可以取自有关文献资料和媒体,其获得的手段更重要的是直接的调查。
(二)统计调查
统计调查就是数据的收集,它是根据统计研究的目的和任务,运用科学的调查方法,有计划、有目的地向客观实际收集资料的过程。统计调查在统计研究中处于基础阶段,是统计整理、统计分析、统计预测的前提,是整个统计研究工作的重要环节,因此,统计调查所收集的数据必须满足准确性、及时性、系统性和完整性的要求。
1.统计调查方案的设计
(1)确定调查目的
调查目的是统计研究所要解决的问题。调查目的决定调查的内容、调查对象和调查项目的方式方法,所以要求明确具体。
(2)确定调查对象和调查单位
①调查对象
调查对象是某项调查中被研究的总体,是由性质相同的许多调查单位组成的。调查对象由调查目的所决定。
②调查单位和报告单位
a.调查单位也就是总体单位,它是调查对象的组成要素。
b.报告单位又叫填报单位,也是调查对象的组成要素,是提交调查资料的单位。
(3)确定调查项目
调查项目就是要确定调查的内容,即向单位调查什么。这应根据调查目的和调查对象的性质、特点、变化来确定,应本着需要和可能的原则,列出满足调查目的所必需的项目,各次调查的同类项目应尽可能保持不变,以便进行动态研究。
(4)调查表和问卷的设计
①调查表
将各个调查项目按照一定的顺序排列在一定的表格上,就构成了调查表。利用调查表能有条理地填写需要搜集的资料,还便于调查后对资料进行汇总。
②调查问卷
在市场调查中,经常把调查目的转化为一些被调查者可以回答的问题,调查项目和调查表为一张调查问卷,它是由一系列问题、被选答案、说明及码表组成的一种调查表形式。
(5)确定调查时间
①调查期限
调查期限是指进行统计工作的起止时间,包括搜集和报送资料的整个工作时间。
②调查资料所属的时间
调查资料所属的时间根据不同调查项目的要求确定,例如,调查的对象是时期现象,就要规定资料反映的是从何时始至何时止的资料,如调查对象是时点现象,就要规定统一的标准时点。
(6)调查方法的选择
根据不同的调查对象,可以选择不同的调查方法。常用的调查方法有直接观察法、报告法、采访法、登记法和卫星遥感法等。在实际调查中,还可以根据被调查对象的具体特点,选择电话和计算机辅助调查等方法。
2.统计调查的种类
(1)统计报表制度
①统计报表制度是一种以全面调查为主的调查方式,它是由政府主管部门根据统计法规,以统计表格形式和行政手段自上而下布置,而后由企、事业单位自下而上层层汇总上报的统计报告制度。
②它的任务是经常地、定期地搜集反映国民经济和社会发展基本情况的资料,为各级政府和有关部门制定国民经济和社会发展计划,以及检查计划执行情况服务。
③统计报表按报送周期的长短不同,分为日报、旬报、月报、季报、半年报和年报等。
(2)普查
①普查是国家为了详尽地了解某项重要的国情国力而专门组织的一次性全面调查。普查的目的主要是调查一定时点上的资料,涉及面广,调查内容多。
②普查的主要特点
a.普查所包括的单位、分组目录和指标内容都比统计报表更广泛、更详细。
b.一次重大的国情国力普查,其调查登记的时间虽然不长,但是复杂的准备工作和大量的数据处理工作都需要较长的时间。
③普查的要求
a.必须规定普查的标准时间
普查的标准时间是资料所属的时间,以避免由于时间变动使资料重复或遗漏。
b.普查的基本内容和指标解释应统一规定
同一类型的各次普查,其调查项目应相对稳定,以便于历史资料的对比研究。
c.普查步调一致
在普查范围内各调查点的调查登记工作应尽可能同时进行,尽快完成,以便及时汇总整理,保证资料的及时性和准确性。
(3)重点调查
①重点调查是专门组织的一次性非全面调查。它是在所要调查的总体中选择一部分重点单位进行调查,用以反映总体基本情况的一种非全面调查。这里重点单位是全部单位中的一小部分,但从调查所关心的某项标志值来看,这些单位的标志值在总体标志总量中占有较大的比重,能起到反映总体基本情况的作用。
②重点调查的优点
重点调查的优点主要是能以较少的投人、较快的速度取得某些社会经济现象主要标志的基本情况和变动趋势。
(4)典型调查
①典型调查是专门组织的一次性非全面调查。它是在对调查对象有一定了解的基础上,有意识地选择少数典型单位进行的调查。这里典型单位的某种数量表现最具普遍意义和代表性,可以用于对总体数量的推断。
②典型调查的作用
a.研究尚未充分发展、处于萌芽状况的新生事物或某种倾向性的社会问题。通过对典型单位深入细致的调查,可以及时发现新情况、新问题,探测事物发展变化的趋势,形成科学的预见。
b.分析事物的不同类型,研究它们之间的差别和相互关系。例如,通过调查可以区别先进事物与落后事物,分别总结它们的经验教训,进一步进行对策研究,促进事物的转化与发展。
c.在总体内部差别不大,或分类后各类型内部差别不大的情况下,典型单位的代表性很显著,也可用典型调查资料来补充和验证全面调查的数字。
(5)抽样调查
①抽样调查是以概率论和数理统计的理论为基础,按照随机原则从调查对象中抽出一部分样本单位进行调查,再用样本资料推算总体数值的一种非全面的调查方式。
②抽样调查与其他非全面调查相比所具有的特点
a.按随机原则抽取样本单位。
b.其目的是对总体数量特征进行推断。
c.抽样误差可以事先计算并加以控制。
③应用抽样调查的几种情况
a.某些不可能进行全面调查的情况。
b.虽然可能取得全面资料,但不必进行全面调查的情况。
c.对全面调查的资料进行验证和修正。
d.对于要求资料及时性很强的事物,如产品的验收检查、农作物收割前产量预计和其他应急的社会问题的调查等。
3.统计整理
(1)统计整理
统计整理是指根据统计研究的需要,将统计调查阶段所搜集到的大量个体资料进行科学的分类汇总、加工处理,或对加工过的次级资料再加工,使之系统化、条理化,成为能够反映事物总体特征的过程。
(2)统计整理的作用
统计整理是从统计调查到统计分析的中间环节,是统计调查的继续,是统计分析的前提和基础。统计活动是从个体的实际表现到总体的综合表现的认识过程,也是从对现象的感性认识到对现象的规律性认识的过程。统计整理正是从对现象个体量的观察到对现象总体量的认识的连接点,在统计工作中起着承前启后的作用。统计资料整理的质量,将直接影响统计对现象总体数量描述的准确性和分析的真实性。
(3)统计整理的内容
①统计数据的处理,即统计资料的分组、汇总、制表;
②统计数据的管理,即数据的输入、储存、更新、输出。
(4)统计整理的步骤
①制定统计整理方案
为了做好统计整理工作,需要制定一套具体可行的工作计划,把统计设计阶段确定的统计指标体系、统计分组体系具体地设计到统计整理表和统计综合表中。工作计划包括人力的组织培训,技术设备和财力的保证,对整理工作各个环节的要求,应承担的责任及其相互衔接的具体做法等。
②对原始资料进行审核
a.完整性审核
完整性审核主要是看应该调查的单位是否有遗漏,调查项目填写是否完整,调查表是否已按规定收齐等;
b.准确性审核
准确性审核包括数据的计算口径、计算方法、计量单位是否符合规定,计算结果是否正确等。
对于检查出来的问题,应根据统计整理方案规定的办法加以处理和修正。
③数据处理
手工整理时通常是将原始数据过录到整理表上,再经过计数和计算,求出单位数、合计数以及综合表所要求的统计指标。计算机处理时需要先通过键盘、扫描仪、磁带机等输入设备,将数据记载到磁介质上,然后再用统计数据库软件进行处理。
④编制统计表或绘制统计图
把手工汇总整理得到的综合数据填写到正式提供的综合表上;将电子计算机汇总整理得到的综合数据制表打印。绘制统计图则是把统计整理结果用直方图、折线图、曲线图、扇形图等直观的形式表现出来,这种表现形式易于人们了解和接受。
六、抽样推断
在实际的工作中,由于很多原因不能对统计总体的所有单位进行调查,只能从中抽出一部分进行调查,不同的样本得到的结论也不一样,都可能出现误差,但抽样的误差可以通过事先计算加以控制。
(一)抽样推断的含义
抽样推断又称抽样估计,它是在抽样调查的基础上,利用样本的实际资料推断总体相应数量特征的一种统计分析方法。
(二)有关抽样的基本概念
1.总体和样本
(1)总体
总体也称全及总体,是指所要认识的研究对象的全体,它是由所研究范围内具有某种共同性质的全体单位所组成的集合体。
(2)样本
样本又称为子样,它是从总体中随机抽取出来的,作为代表这一总体的那部分单位组成的集合体。
2.总体指标和样本指标
(1)总体指标
总体指标是反映总体数量特征的综合指标,给定一个总体,它的总体指标值是确定的,这个值也被称为参数。对于总体中的数量标志,常用的总体指标有总体平均数、总体方差等。
(2)样本指标
样本指标是根据样本各单位标志值计算的综合指标,它是样本变量的函数,是用来估计总体指标的,常用的样本指标有样本平均数、样本方差和样本成数等。
3.重复抽样和不重复抽样
(1)重复抽样
重复抽样也称为回置抽样,即从总体N个单位中随机抽取一个容量为n的样本,每次从总体中抽取一个单位,把结果登记下来,又重新放回,参加下一次抽选,而且每次抽选是在完全相同的条件下进行,每个单位中选的机会在各次都完全相等。
(2)不重复抽样
不重复抽样也称为不回置抽样,即从总体N个单位中随机抽取一个容量为n的样本,每次从总体中抽取一个单位,把结果记下来,但不放回,不参加下一次抽选,其实质上是等同于一次从总体中抽取n个样本单位,每个单位的中选机会在各次是不同的。
(三)抽样误差
1.抽样误差及其影响因素
(1)抽样误差
抽样误差是指由于抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构,而引起抽样指标和总体指标之间的绝对离差。
抽样误差之所以不同于登记误差和系统误差是因为登记误差和系统误差都属于思想、作风、技术问题,可以防止或避免;而抽样误差则是不可避免的,只能加以控制。
(2)影响因素
①总体各单位标志值的差异程度;
②样本的单位数;
③抽样方法;
④抽样调查的组织形式。
2.抽样平均误差
(1)抽样平均误差
由于样本是按照随机原则抽取的,在同一总体中,按照相同的抽样数目,可以抽取许多相同和不同的样本,而每次抽取的样本都可以计算出相应的抽样平均数、抽样成数和抽样误差。为了利用样本的指标去推算总体的指标,就需要计算这些抽样误差的平均数,这就是抽样平均误差,用以反映抽样误差的一般水平。
(2)抽样平均误差的计算
在实际的抽样过程中,由于误差有正、负之分,需要计算样本平均数的标准差,来衡量抽样平均误差的大小。
在纯随机抽样的方式下,抽样平均误差可以采用下面的计算公式:
①抽样平均数的平均误差
在重复抽样条件下:
当N很大时,在不重复抽样情况下:
②抽样成数的平均误差
在重复抽样条件下:
当N很大时,在不重复抽样条件下:
注:在应用以上公式时,标准差δ和成数P是总体的标准差和成数,通常是未知的,一般用样本的标准差和成数来代替。
3.抽样极限误差
(1)抽样极限误差
在对总体指标进行估计时,一般事先确定一个误差范围。抽样误差范围就是变动的抽样指标与确定的总体参数之间的离差的可能范围。它是根据概率论,以一定的可靠程度保证抽样误差不超过某一给定的范围,统计上把这个给定的抽样误差范围叫做抽样极限误差。
(2)抽样极限误差的计算
抽样误差范围△是用一定倍数的抽样平均误差来表示的,这个倍数一般用t表示,它是以抽样平均误差为尺度来衡量的相对误差范围,称之为概率度,通常给出一定的概率保证程度,查正态分布表得出t值。这样就得到了抽样极限误差的计算公式:
(四)抽样估计的方法
1.点估计
点估计是指直接以样本的指标作为相应的总体参数估计量。例如,样本的平均数作为总体的平均数的估计,样本成数作为总体成数的估计等。
2.区间估计
(1)区间估计
区间估计就是对于未知的总体指标,在点估计的基础上,寻求一个区间使得总体指标落在这个区间内具有给定的可信程度。
(2)区间估计的计算公式
在给定了一定的概率保证程度后,求出样本平均数的标准差,就可以进行区间估计了。区间估计的公式如下:
上下波动的范围就是抽样的极限误差,这个范围是以抽样平均误差的一定倍数来表示的。
七、相关关系和回归分析
在人类的生产实践活动中,各种客观现象之间的依存关系可分为函数关系和相关关系,且相关关系更具普遍性。研究这些客观事物的相关关系,既要做定性分析,又要做定量分析,测定它们相关的紧密程度,以揭示其变化的具体形式和规律性。
相关和回归分析便是这种定量分析的重要统计方法,通过相关分析,可以判断两个或两个以上的变量之间是否存在相关关系,相关关系的方向、形态及相关关系的密切程度;回归分析是对具有相关关系现象间数量变化的规律性进行测定,建立一个回归方程式,并对所建立的回归方程式的有效性进行分析、判断,以便进一步进行估计和预测。
(一)相关关系
1.相关关系的意义
相关关系是指变量之间存在一种不确定的依存关系。它和函数关系不一样,函数关系是变量之间确定的依存关系,当自变量数值给定时,便有唯一的一个因变量和它对应,而相关关系则不同,对应于一个变量的某个数值,另一个变量可能有几个甚至许多个数值和它相对应。
在社会经济领域中,社会和经济变量受随机因素的影响很大,它们之间的关系主要表现为相关关系。相关关系的变量之间,尽管没有确定性的关系,但当对现象的内在联系及其数量间的规律性了解得越加深刻的时候,则相关关系越有可能转化为或借助函数关系来描述,其分析的任务是判断变量之间是否存在相关关系、相关的形态、变动的方向以及测定相关的密切程度,并检验其有效性。
2.相关关系的种类
由于客观现象之间的联系、变化复杂多样和不同的研究方法,变量之间的相关关系可分成以下几类:
(1)按照研究变量的多少,分为单相关和复相关。
(2)按照变量之间依存关系的表现形式,分为线性相关和非线性相关。
(3)按照变量变化的方向,分为正相关和负相关。
(4)按照变量之间关系的密切程序,分为完全相关、不相关和不完全相关。
3.相关关系的测定
相关关系的测定方法有定性分析、相关表、相关图和相关系数等,比较常用的是相关系数法。
相关系数是在直线相关的条件下,说明两个变量之间的相关关系密切程度的统计分析指标,通常用r来表示。相关系数的测定方法,直接来源于数理统计中相关系数的定义。相关系数的计算公式为:
式中,n表示资料的项数,xi和yi分别表示变量x和y的第i个值。
(二)回归分析
1.回归的概念
回归分析就是在相关分析基础上,借助于函数关系式来表达具有相关关系的现象之间数量变动的统计规律性,并由给定的自变量X值,来揭示因变量Y在数量上的平均变化和求得因变量的预测值,这种统计分析方法就称为回归分析。
2.回归分析与相关分析的关系
(1)回归分析和相关分析的联系
回归分析和相关分析都是对客观事物数量依存关系的分析,在理论基础和方法上具有一致性。只有存在相关关系的变量才能进行回归分析,相关程度越高,回归测定的结果越可靠。相关系数同回归模型中的参数可以相互换算,特别是多元相关和非线性相关的相关系数,必须利用回归模型才能求得。
(2)回归分析和相关分析的区别
①相关分析是研究变量之间的依存关系,这些变量是对等的;而回归分析却是在控制或给定一个或几个变量条件下来观察另一个变量的变化,给定的变量称为自变量,不是随机变量,被观察的对应的变量称为因变量,却依然是随机变量。
②相关分析主要是测定变量之间关系的密切程度和变量变化的方向,而回归分析却可以对具有相关关系的变量建立一个数学方程(也称回归模型)描述变量之间具体的变动关系,通过控制或给定自变量的数值来估计或预测因变量可能的数值。
3.回归模型的种类
(1)按自变量的多少,可分为一元回归模型和多元回归模型。
(2)按变量之间的具体变动形式,可以分为线性回归模型和非线性回归模型。
在实际中,把这两种分类标志结合起来,就有一元线性回归模型和一元非线性回归模型,多元线性回归模型和多元非线性回归模型。其中,一元线性回归模型是最简单、最基本的一种回归模型。
4.一元线性回归模型
(1)一元线性回归模型
一元线性回归模型又称简单直线回归模型,它是根据成对的两个变量的数据,配合直线方程,并根据自变量的变动,来推算因变量的发展趋势和水平的一种数学表达式。当Z和Y变量只有单向的依存关系时,只能建立一个直线回归方程,一般是Y对Z的回归直线。这条样本回归的直线方程是:
式中,是因变量的估计值,x是自变量的实际值,和是待估参数。对模型参数估计的方法有多种,对于一元线性回归模型的估计最简便最常用的是普通最小二乘法(简称0LS)。
(2)最小二乘法
在简单线性回归中,对于样本回归函数和既定的样本观测值,用不同的估计方法可能得到不同的样本回归参数的估计值和,用样本回归函数所估计的也可能不同。总是希望所估计的偏离实际观测值yi的残差ei越小越好。可能因为ei可正可负,残差直接的代数和会相互抵消,为此可以取残差平方和作为衡量与yi偏离程度的标准,这就是最小二乘准则,即
很明显,的大小依赖于和的取值,根据微积分中求极值的原理,为使达到最小,待定系数和应满足:
从而得如下方程组:
其中:n为样本容量,这个方程组称为最小二乘的正规方程,根据克莱姆法则求解得:
这样就得到了和最小二乘估计公式,也可简化地表示为离差形式:
其中:和分别为样本观测值xi和yi的平均值;及分别是其样本观测值与平均值的离差。
这样得到估计方程后,根据自变量的值,就因变量的估计值做出预测,但需要指出的是,一个直线方程只能作一种推算,不能相反进行推算。
八、时间序列分析
(一)时间序列的定义
1.时间序列
把反映某种现象随时间变化、发展的一系列统计指标数值按时间先后顺序排列起来所形成的序列,称为时间序列,亦称动态序列。
2.基本要素
①现象所属的时间;
②反映现象在不同时间上数量表现的指标数值。
(二)时间序列分类
1.总量指标序列
(1)总量指标序列,又称绝对数序列,是将反映现象总规模、总水平的某一总量指标在不同时间上的指标数值按时间先后顺序排列起来所形成的序列。总量指标序列是计算相对指标和平均指标、进行各种时间序列分析的基础。
(2)按其指标所反映时间状况的不同,总量指标序列又分为时期序列和时点序列。
①时期序列
时期序列中所排列的指标为时期指标,各时期上的数值分别反映现象在这一段时期内所达到的总规模、总水平。
时期序列的特点是:
a.指标数值是现象在这一段时期内发展过程的累积总量。
b.指标数值具有可加性。
c.指标数值大小与所属时期长短有密切联系的特点。
②时点序列
时点序列中所排列的指标为时点指标,各时点上的数值分别反映现象在各该时点所达到的总规模、总水平。
时点序列的特点是:
a.指标数值是现象在某一时点上的数量表现。
b.指标数值具有时间上的不可加性。
c.各时点上的指标数值大小与相邻两时点间隔长短无密切联系。
2.相对数时间序列
相对指标是说明现象之间数量对比关系的指标,用两个或两个以上有联系的指标数值对比求得,结果表现为相对数。把同一相对指标在不同时间上的数值按照时间先后排列而形成的时间序列称为相对数时间序列。
3.平均数时间序列
平均数时间序列是把同一平均指标,在不同时间上的指标数值按时间先后顺序排列所形成的序列,反映现象在一段时间内一般水平发展变化的过程。
(三)编制时间序列的原则
1.基本原则
编制时间序列的目的是要观察序列各期数值的变化和前后进行比较分析,因此,保证各期指标数值的可比性,是编制时间序列的基本原则。
2.应注意的问题
(1)时间跨度或间隔立相等
在时期序列中,由于各个指标数值的大小与时期长短直接有关,因此,如果各期指标时间跨度不一,就很难直接比较。
(2)总体范围应该一致
总体范围变化,指标数值必然不同。必须对资料进行适当调整,使总体范围一致,再作动态比较。
(3)计算方法、度量单位应该一致
例如,研究某企业劳动生产率增长变动,如果各期指标计算方法不一致,有的按生产工人计算,有的按全部职工计算;或者有的按实物量计算,有的按价值量计算,前后各期就没有可比性。
(4)指标含义和经济内容应该一致
例如,研究某地工业生产发展情况,用产值指标进行前后比较,如果有时用总产值,有时用增加值,这种比较就没有意义。
(四)时间序列水平分析指标
1.发展水平
(1)发展水平
发展水平是现象在不同时间上所达到的规模或水平的数量反映,也就是时间序列中的每一项指标数值。
(2)发展水平的分类
发展水平按在时间序列分析中所处的位置和作用不同,分为期初水平、期末水平以及报告期水平、基期水平等。
①如果序列中各指标数值按时间先后顺序依次记为a1,a2,…,an,则首项a1称为期初水平,最末一项an称为期末水平,其余称为发展水平。
②如果将不同时间上的发展水平进行比较,例如,将2002年的销售额与2000年作比较,则把作为比较基础的时期2000年称为基期,其对应的发展水平称为基期水平;把需要分析研究考察的2002年称为报告期,其对应的发展水平称为报告期水平。
(3)发展水平变化比较的方法
①相减的比较
相减的比较有增长量和平均增长量。
②相除的比较
相除的比较有发展速度、增长速度、平均发展速度和平均增长速度。
2.增长量
增长量是时间序列中报告期发展水平与相比较的基期发展水平之差,反映社会经济现象报告期比基期增加或减少的数量,根据基期的不同,可将增长量分为累计增长量和逐期增长量两种。
(1)逐期增长量
逐期增长量是指时间序列中各期发展水平与其前期发展水平之差,说明现象逐期增加或减少的数量,用公式表示为:
逐期增长量=报告期发展水平-报告期上期发展水平=ai-ai-1
(2)累计增长量
累计增长量是指时间序列中报告期发展水平与某一固定基期发展水平之差,说明现象在一定时期内总的增加或减少的数量,用公式表示为:
累计增长量=报告期发展水平-固定基期发展水平=ai-a0
在同一时间序列中,各逐期增长量的代数和一定等于相应时期的累计增长量,即
3.平均增长量
平均增长量是指时间序列中各逐期增长量的序时平均数,说明某社会经济现象在一段时期内平均每期增加或减少的数量。一般用简单算术平均法计算。其公式为:
4.发展速度
(1)发展速度
发展速度是反映社会经济现象发展变化快慢程度的动态相对指标,它是根据两个不同时期的发展水平对比求得的。其计算结果一般用倍数或百分数表示。用公式表示为:
发展速度=报告期发展水平/基期发展水平
(2)环比发展速度和定基发展速度
根据对比的基期不同,可分为环比发展速度和定基发展速度两种。
①定基发展速度
定基发展速度是时间序列中报告期发展水平与固定基期发展水平对比所得到的相对数,说明某种社会经济现象在较长时期内总的发展方向和速度,故亦称为总速度。即报告期的水平是该固定基期的多少倍或百分之多少。
②环比发展速度
环比发展速度是时间序列中报告期发展水平与前期发展水平之比,说明某种社会经济现象的逐期发展方向和速度。即报告期是上一期的多少倍或百分之多少。用公式表示为:
③定基发展速度与环比发展速度的数量关系
a.相邻若干个环比发展速度的连乘积等于相应的定基发展速度。
b.相邻两个定基发展速度之商等于相应的环比发展速度。
5.增长速度
(1)增长速度
增长速度是表明社会经济现象增长程度的动态相对指标,它是根据增长量与基期发展水平对比求得的,用以说明报告期水平比基期水平增加了若干倍(或百分之几),其计算结果一般用倍数或百分数表示。用公式表示为:
增长速度=报告期增长量/基期发展水平=(报告期发展水平-基期发展水平)/基期发展水平=发展速度-l
(2)定基增长速度和环比增长速度
增长速度由于采用的基期不同,可分为定基增长速度和环比增长速度两种。用公式表示为:
(3)增长率和降低率
①当报告期水平高于基期水平时,发展速度大于1或100%,增长速度为正值,表示现象增长的程度,亦称增长率;
②当计算期水平低于基期水平时,发展速度小于1或100%,增长速度为负值,表示现象降低的程度,亦称降低率。
6.平均发展速度与平均增长速度
(1)平均速度指标
①平均速度就是速度指标的动态平均数。
②平均发展速度与平均增长速度
a.从理论上讲,所谓平均发展速度是指时间序列中各期环比发展速度的序时平均数,它表明社会经济现象在一个较长时期内逐期发展变化的平均程度;
b.所谓平均增长速度也是指时间序列中各期环比增长速度的序时平均数,它表明社会经济现象在一个较长时期内逐期增长的平均程度。
③平均速度指标的计算方法
平均增长速度并不能根据各期环比增长速度直接计算,而是先计算平均发展速度。然后,根据平均发展速度与平均增长速度的关系来计算平均增长速度,即
平均增长速度=平均发展速度-1
因此,所谓平均速度指标的计算方法,实际上就是指平均发展速度的计算。
(2)平均发展速度的计算方法
①几何平均法
几何平均法,又称水平法,它的基本出发点是从时间序列的最初发展水平a0开始,以序列的平均速度去代替各期的环比发展速度,由此推算出期末理论发展水平与期末实际发展水平相一致,即在基期发展水平a0的基础上,平均每年以多快的发展速度发展(),经过若干(季、月)后,才能达到报告期的发展水平(an)。公式为:,其中,表示平均发展速度。
这一公式变形,可得平均发展速度的“几何法”计算公式:
根据定基发展速度和环比发展速度的关系,即将公式
代入上式得平均发展速度的另一个计算公式:
②方程法
方程法又称累计法,它的基本出发点是从时间序列的最初发展水平a0开始,以序列的平均速度去代替各期的环比发展速度,由此推算出各期理论发展水平之和与各期实际发展水平之和相一致,即:
解这个高次方程,其正根即为平均发展速度。
(五)时间序列预测
1.时间序列预测
在客观现实中,社会经济现象很多是按照曲线轨迹演进的,因此,曲线模型在经济社会中是大量存在的,但曲线又是由很多直线联结而成的,因此,研究直线模型是研究各种曲线模型的基础。选择直线模型来分析其长期趋势,并假设其方程为:y=a+bt,其中y表示时间序列的实际水平值Y的估计值或称为长期趋势值;t表示时间变量,a、b是两个待定系数,分别表示趋势线在Y轴上的截距和斜率。
依据这一时间序列的实际资料和“最小二乘法”的正规方程组求出这一直线方程中的两个参数。正规方程组如下:
得出a、b两个参数的具体数值,则可得到方程y=a+bt。
最后,把各个时期的时间变量代入这个趋势方程中,便得到各期的长期趋势值。
2.简化方法
在实际的计算中,为了简化计算,可以将时间序列中的自变量,即时间变量的原点移动若干期。具体做法是:
(1)当时间序列的项数为奇数项时,可以取最中间一项的时间顺序号为0,中间以前的时间序号从中间往前依次为-1,-2,-3,…,中间以后的时间序号从中间往后依次为l,2,3,…。
(2)当时间序列的项数为偶数项时,将最中间的两项,前面的一项取为-1,后面的一项取为l,然后从中间到两边,以前各期依次取-3,-5,-7,…;以后各期依次取3,5,7,…。
若按上述规则取值,从而使正规方程中的,做到了这一点,就可以使正规方程简化为:
在得到a和b的估计值后,就可以按照时间对时间序列进行外推了,也就是对时间序列进行预测。
用简化公式计算的直线趋势方程和正规方程组所求出的方程实际上是同一条趋势线,所不同的只是原点的改变,但原点改变后的趋势值和改变前的趋势值肯定是相等的。
九、指数
指数的概念起源于l8世纪中期欧洲资本主义迅速发展时期。当时由于美洲新大陆开发的大批金银贵金属源源不断输人欧洲,使欧洲物价骤然上涨,引起社会的不安,经济学家为了测定物价的变动,开始尝试编制物价指数。此后指数的应用和理论的不断发展,逐步扩展到工业生产、进出口贸易、铁路运输、工资、成本、生活费用、股票证券等各个方面,现在指数不仅是分析社会经济和景气预测的重要工具,而且还被应用于经济效益、生活质量、综合国力、社会发展水平的综合评价研究。
(一)统计指数的概念与分类
1.统计指数的概念
(1)广义的指数概念
广义的指数是指用来测定社会经济领域内一个变量相对于指定的另一个变量数值大小的相对数。或者说,是反映社会经济现象变动与差异程度的相对数,广义的指数包括一切静态和动态各种相对数。
(2)狭义的指数概念
狭义的指数是一种特殊的相对数,它是指用来反映不能直接加总的复杂现象总体数量综合变动程度和方向的特殊相对数。例如,产量总指数、物价总指数、成本总指数、生活费用指数等。统计指数理论上主要是探讨复杂现象总体的综合变动状况和对比关系。
2.统计指数的作用
(1)综合反映复杂现象总体数量变动的方向和程度
由于社会经济现象错综复杂,一个总体中各单位变动方向并不一致,变动程度也不相同,这就需要一个指标能够综合地描述复杂现象变动的一般情况。
(2)分析各因素变动对现象总体变动产生影响的方向和程度
这种分析法又称为因素分析法,主要用于对复杂现象的分析,复杂现象是受多种因素影响的。
它有两种情况:①现象的总量由各因素之和构成;②现象的总量由各因素之积构成。
利用指数进行因素分析,就是分析现象的总变动中,各个因素的影响方向和影响程度,这种影响可以从相对数与绝对数两个方面进行分析。
(3)研究现象在较长时期内的变动趋势
连续编制指数序列,可以研究现象在长时期内的发展变化趋势。这种方法特别适用于对比分析有联系、性质又不同的动态序列之间的变动关系,因为用指数的变动进行比较,可解决不同性质序列之间不可比的问题。
3.指数的分类
(1)个体指数和总指数
按指数反映的现象范围不同,分为个体指数与总指数。
①个体指数
个体指数是指反映个体现象或个别事物的变动或差异程度的相对数。
②总指数
总指数是指反映特殊总体(多种现象或多个事物)综合变动或差异程度的相对数,是严格意义上的指数,是需要特别研究的指数。
(2)质量指标指数和数量指标指数
按指数化指标的性质不同,分为质量指标指数与数量指标指数。
①质量指标指数
质量指标指数是反映现象总体内涵数量变动程度的指数,例如,反映商品质量优劣度的单位商品价格指数,反映劳动者技术水平的劳动生产率指数。
②数量指标指数
数量指标指数是反映现象总体规模变动程度的指数,例如,反映商品销售量变动的指数,反映工业产品产量规模变动程度的产品产量指数。
(3)动态指数和静态指数
按照指数反映现象时期的不同,分为动态指数和静态指数。
①静态指数
静态指数是指由同一时期不同地区间同一性质指标对比所形成的指数,或同地区同一单位计划与实际指标的对比所形成的指数。
②动态指数
动态指数又称时间指数,它是将不同时间(时期或时点)的同类现象水平进行比较的结果,反映现象在时间上的变化过程和程度。
(4)综合指数和平均指数
按照指数编制的方法不同,分为综合指数和平均指数。
①综合指数
综合指数是指通过同度量因素,将两个时期不能同度量的现象过渡到新度量的指标,然后进行计算的指数。
②平均指数
平均指数是从个体指数出发,通过对个体指数加权平均计算而编制的指数。
4.统计指数的性质
(1)综合性
同一现象总体在各项目间变化的状况往往相差悬殊,如果说反映所研究现象(如物价)综合变化的程度,就必须综合概括每个商品中这一现象变化的大小和方向,而不能只简单地反映个别商品这一现象的变化,故指数实质上是一种综合性的数值。
(2)代表性
指数既然是所研究现象每个项目变动的综合反映,就应包含所有项目。然而,同一现象所包含的项目品种繁多,例如,全社会的消费品数以千万计,不可能将所有项目一一列入计算范围。所以,指数是作为代表身份出现的数值。
(3)相对性
指数是某一现象在不同时期的两个数值进行对比的结果,常用相对数或比率形式表示,来表明现象发展变化的程度。所以,指数是一种相对性的数值。
(4)平均性
指数所表示的综合变动是所研究现象每个项目共同变动的一般水平,也可以说是平均的变动。
(二)综合指数
1.综合指数的编制原理
综合指数是总指数计算的基本形式,反映了复杂经济总体中不能直接对比的多种现象的总的变动。综合指数的编制原理就是通过引入同度量因素,使原来不能直接相加的现象过渡到能够加总综合的价值量,转化为两个时期的价值指标再进行对比。
2.综合指数的编制过程
(1)先加总再对比
综合指数是通过两个时期的综合总量对比来计算的总指数。总指数是反映复杂现象总体综合变动的相对数,而构成现象总体的多种事物由于其使用价值不同、度量单位不同,不能直接加总,统计上称之为不同度量。因此,要综合反映它们的变动,就必须首先解决加总的问题。
(2)引入同度量因素
为了变不同度量为同度量,需要引入一个媒介因素,使不同度量、不能加总的现象转化为同度量的、可加总的另一现象。能使不同度量的现象过度为可以同度量的媒介因素在统计指数理论中被称为同度量因素,而所研究的现象称为指数化指标,转化为同度量的、可以加总的另一现象称为总量指标。即:
价值量指标=指数化因素×同度量因素
(3)固定同度量因素时期
引入同度量因素后,现象总量的变动中不仅包含了所研究现象(即指数化指标)的变动,也包含了同度量因素的变动。于是,还必须将同度量因素的水平固定在同一时期,使所得的现象总量的变动只反映指数化指标的变动,这样将两个时期的现象总量对比所得的指数就是综合指数。
3.综合指数的基本形式
综合指数按照说明现象的性质不同,可分为数量指标综合指数和质量指标综合指数。综合指数的编制过程完全适合这两种指数的编制,但在同度量因素固定的时期上,两者有所不同。我国综合指数编制的实践是:在编制数量指标指数时,将同度量因素固定在基期;在编制质量指标指数时,将同度量因素固定在报告期。即
(1)数量指标指数(或称为物量指数)为:
(2)质量指标指数(或称为物价指数)为:
(三)平均数指数
1.平均数指数的编制原理
(1)编制平均数指数的“权”的问题和“型”的问题
平均数指数是综合指数的变形,与综合指数恰好相反,编制平均指数的基本方式是“先对比,后平均”,即首先通过对比计算个别现象的个体指数,然后将个体指数加以平均后得到总指数。
①“权”的问题
由于总体中的不同个体常常具有不同的重要性程度,因而在平均指数的编制过程中必须对个体指数进行适当加权,这是平均指数的“权”的问题。
根据经济分析的一般要求,平均指数的权数应该是与所要编制的指数密切相关的价值总量,权数的水平一般取自基期的总值资料(p0q0)和报告期的总值资料(p1q1)。
②“型”的问题
在对个体指数进行平均时,又可以考虑各种不同的平均数形式,这是平均指数的“型”的问题。平均指数的形式一般有算术平均指数、调和平均指数两种形式。
(2)加权平均指数的基本编制原理
①为了对复杂现象总体进行对比分析,首先对构成总体的个别元素计算个体指数,所得到的无量纲化的相对数是编制总指数的基础。
②为了反映个别元素在总体中的重要性的差异,必须以相应的总值指标作为权数对个体指数进行加权平均,就得到说明总体现象数量对比关系的总指数。
2.加权算术平均指数
编制加权算术平均指数的步骤如下:
(1)计算所研究现象的个体指数:。
(2)对它以基期总值加权计算算术平均指数,因此,一般给出基期总值为权数资料。
(3)以个体指数为变量,以p0q0为权数,用加权算术平均数形式,求得总指数。
因此,加权算术平均的物量指数分别为:
加权算术平均数指数是综合指数中的数量指标指数的变形,二者就是根据不同的资料而采用不同的方式进行计算,如果资料全面,二者计算得到的数值是相等的。
3.加权调和平均数指数
编制加权算术平均数指数的步骤如下:
(1)用已知的资料计算个体指数:。
(2)对它以报告期总值加权计算调和平均数,一般给出(或搜集)报告期总值为权数资料。
(3)以个体指数为变量,以p1q1为权数,用加权调和平均数形式,求得总指数。
因此,加权调和平均的物价指数为:
从加权调和平均的物价指数可以看出,它是综合指数中的质量指标指数的变形,二者就是根据不同的资料而采用不同的方式进行计算,如果资料全面,二者计算得到的数值是相等的。
(四)指数体系分析
1.指数体系的概念
在统计研究中,把经济上有密切联系,数量上保持一定关系的三个或三个以上指数构成的整体,称为指数体系。
在实际生活中,社会经济现象反映总体变动所形成的指数也可分解成为数量指标指数和质量指标指数,其相乘关系的等式仍然成立。如:
销售额指数=销售量指数×销售价格指数
总产值指数=产量指数×产品价格指数
总成本指数=产量指数×单位产品成本指数
销售利润指数=销售量指数×销售价格指数×销售利润率指数
这些指数体系都是建立在有关指数化指标之间的经济联系基础之上的,具有非常实际的经济分析意义。
2.指数体系分析的作用
(1)进行“因素分析”
从数量方面研究分析社会经济现象的总变动中各有关因素变动的影响程度和绝对效果。
(2)进行“指数推算”
根据已知的指数之间的联系,推算未知的指数。
3.指数体系的分析
由于复杂现象总体的变动是受多个影响因素变动共同作用的结果,利用指数体系,就可以分别测定各个影响因素对所研究现象的影响。
综合指数,以总量指标指数、质量指标综合指数和数量指标综合指数分别表示销售额指数、销售价格指数和销售量指数,它们之间构成的指数体系如下:
销售额指数=销售量指数×销售价格指数
销售额的变动=销售量引起销售额的变动+价格引起的销售额的变动
这样可以从绝对量和相对量上分析销售额的变动受销售价格和销售量的影响大小及影响的方向。