第一节 回归分析概述
各种社会经济现象之间存在着不同程度的联系,有的联系是非常确定的函数关系(Functional Relationship),如销售收益与商品销售量的关系TR=P0Q;有的联系是不确定的相关关系(Correlation Relationship),如需求量Qd与个人可支配收入DPI的关系,当DPI确定时,Qd是不确定的,我们把需求量Qd称为随机变量(Random Variable)。计量经济学正是利用数学、统计学等工具探寻具有随机特性的经济变量之间数量关系的一门学科。
一、变量间的非确定性关系
相关关系是指客观现象之间确实存在的,但数量上不是严格对应的依存关系,在这种关系中,对于某一现象的每一数值,可以有另一现象的若干数值与之相对应。
例如,成本的高低与利润的多少有密切关系,但某一确定的成本与相对应的利润的数量关系却是不确定的。这是因为影响利润的因素除了成本外,还有价格、供求平衡、消费喜好等因素以及其他偶然因素的影响。
再如,生育率与人均GDP的关系也属于典型的相关关系。人均GDP高的国家,生育率往往较低,但二者没有唯一确定的关系。这是因为除了经济因素外,生育水平还受教育水平、城市化水平以及不易测量的民族风俗、宗教和其他随机因素的共同影响。
▶1.相关分析
所谓相关,就是两个或两个以上的变量之间的非确定性关系。这种相关关系可以是线性(直线型)的,也可以是非线性(曲线型)的;可以是正相关,也可以是负相关,还可以是零相关,如图2-1所示。
图2-1 相关关系的种类
相关链接
受教育程度与薪酬的相关性
哈佛大学的大学生曾做过受教育程度与薪酬方面的调查,他们发现:一个人的学历越高,那么这个人的工薪也越高。这个结论在中国是否成立呢?
根据国内相关研究,工资在5 000元以上,占到员工总数的13%;工资在3 500~5 000元,也近13%;工资在2 000~3 500元占最大的比例,约总数的56%;剩下15%的员工,每月只有2 000元以下的微薄工资。月收入在5 000元以上的白领中,有86%的人接受过大学教育;而在工资为3 500~5 000元的员工中,也有72%的人来自各所大学;普通家庭有69%的人为高中以上学历;底层员工中接受大学教育的只有28%。
由此可得,受教育程度越高,那么平均工薪也相应越高,印证了“受教育程度代表收入”这句话。各企业白领中,几乎没有不接受大学教育的,大学四年教给你的不仅是各种知识,对于个人修养和社会交往也是一种极大的提升。由于这些优越的工作充满技术性,所以没有相当的知识储备是无法完成的。一个仅仅接受过初中教育的人,即使有幸得到了这种工作,也很快会由于技术不过关而被辞退。相反,即使一个有着大量知识的高学历的大学生沦落到底层,但“腹有诗书气自华”,只要他肯沉下心来努力工作,博得赏识,他最终也会被上层领导看中,获得不错的职位,得到满意的工作。
受教育程度越高,往往选择工作的范围也就越广,也就有更大的可能和更多的机会获得与自己兴趣相投的工作;受教育程度低就只能在极其有限的底层职位中转来转去,一年更换工作许多次,就像临时工,哪里需要哪里干。可以这么说:高学历者选择工作,低学历者被工作选择。即使如此,那些学生们叫嚣着比尔·盖茨大学退学却仍然成了世界首富。可笑的是,他们并不知道世界首富比尔·盖茨先生在哈佛大学退学后仍旁听了四年。
在当今中国,一般地区每月个人平均支出在2 200元左右。如果每月工资都不到2 000元,是很难维持生计的,这又催发了“啃老族”的诞生。在这个工薪阶层的员工多数为年轻人,他们想要更好的待遇,而自己却由于儿时的不努力导致生活在社会的底层。这些人往往怨天尤人,抱怨自己付出劳动多,得到的回报却很少。殊不知,造成这种情况的正是从前不努力的自己!
▶2.相关系数
相关系数(Correlation Coefficient)是用以反映随机变量之间相关关系密切程度的统计指标。公式如下:
相关系数一般用字母r表示,用来度量两个变量间的线性关系,|r|>0.8时,称为高度相关;当|r|<0.3时,称为低度相关。
相关链接
相关系数的计算
EViews 6.0软件操作步骤:
(1)输入变量名和样本数据。
(2)选择Quick/Group statistics/Correlations菜单命令,如图2-2所示。
(3)经济变量普通相关系数的输出。在Series List对话框中,输入系列名或组名(图2-3),单击OK按钮,得到各经济变量的普通相关系数矩阵,如图2-4所示。
图2-2 计算相关系数
图2-3 输入系列名
图2-4 相关系数矩阵
(4)经济变量相关系数列表。由软件(英文)格式转换成常规学术论文(中文)格式(表2-1)。
表2-1 主要变量之间的相关系数矩阵
▶3.回归的概念
“回归”(Regression)一词,来源于生物学。1885年,英国生物学家高尔顿(Francis Galton, 1822~1911)对人体遗传特征进行实验研究。他根据1 078对父子身高的散点图发现,父母身材高的孩子个子普遍较高,父母身材矮的孩子个子普遍较矮,但孩子的身材高矮不是无限制的,父母身材高的孩子,他们的平均身高比父母平均身高要小些;父母身材矮的孩子,他们的平均身高比父母平均身高要大一些。即孩子的身高总是越来越趋向于人群总体的平均身高,他称这种现象为“回归”。
他的学生皮尔逊为了纪念高尔顿,将“回归”一词引入到数量统计分析,特指当变量之间存在显著的相关关系时,样本观测值具有聚集在回归线周围的倾向,如图2-5所示。对于每一个自变量Xi的取值,都出现很多不同的Yi值,但总有一个条件期望值E(Y0|Xi)与之对应,所以条件期望值形成的轨迹(直线或曲线)称为回归线。
图2-5 回归线示意图
▶4.回归分析
回归分析(Regression Analysis)是应用极其广泛的数据分析方法之一。它基于观测数据建立变量间适当的依赖关系,以分析数据的内在规律,并可用于预报、控制等问题。其目的主要求证两个或多个变量间是否相关、相关方向与强度,并建立数学模型以便观察特定变量来预测研究者感兴趣的变量。
如果在回归分析中,只包括一个自变量(解释变量)和一个因变量(被解释变量),且二者的关系可用一条直线近似表示。这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
回归分析的主要步骤:
(1)寻求变量间的近似的函数关系,即回归方程,如Y=α+βX+μ,一般通过散点图大致确定回归方程类型。
(2)求出合理的回归参数,如α、β的值。
(3)进行相关性和回归模型检验,如R2检验、F检验、t检验等。
(4)通过检验后,根据回归方程与具体条件进行预测和控制。
二、回归函数
由于变量间关系的随机性,回归分析是根据解释变量的已知值,考查被解释变量的总体均值,即当解释变量取某个确定值时,与之统计相关的被解释变量所有可能出现的对应值的平均值。
例:某社区由100户家庭组成,要研究该社区每月家庭消费支出Y与每月家庭可支配收入X的关系,即已知各家庭的月收入数据预测该社区各家庭的平均月消费支出水平。可将该100户家庭划分为组内收入差不多的10组,以分析每一收入组的家庭消费支出(表2-2)。
表2-2 某社区家庭每月收入与消费支出统计表
由于不确定因素的影响,对同一收入水平X0,不同家庭的消费支出Yi不完全相同。根据样本数据,描出散点图(图2-6),可以得出随着收入的增加,消费总体也在增加,且Y的条件均值均落在一正斜率的直线上。
图2-6 回归曲线
在给定解释变量Xi条件下,被解释变量Yi的期望(平均值)轨迹称为回归曲线,相应的函数E(Y∣Xi)=f(Xi)=α+βXi+μ,称为回归函数(Regression Function)。
三、随机误差项
回归函数说明了在给定的收入水平X0下该社区家庭平均的消费支出水平,但对某个别家庭其消费支出可能与该平均水平有偏差,即,μi=Yi-E(Y∣Xi)。
μi为观察值Yi围绕它的期望值E(Y|Xi)的离差(Deviation),是一个不可观测的随机变量,又称为随机误差项(Stochastic Error)。它是测试过程中诸多因素随机作用而形成的具有抵偿性的误差,是不可避免的,可以设法将其减少,但又不能完全消除。
随机误差具有统计性,在多次重复测量中,绝对值相同的正、负误差出现的机会大致相同,大误差出现的概率比小误差出现的概率小。多次测量的随机误差的平均值趋向于零,因此不影响测量的准确度,随机误差使测量值产生波动,影响测量结果的精密度。
产生随机误差的原因一般包括未知的影响因素、残缺数据、数据观察误差、模型设定误差、变量内在随机性等。