第四节 回归模型的统计检验
回归分析是通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归线代替总体回归线。由统计性质知,如果有足够多的重复抽样,参数的估计值的均值就等于其总体的参数真值。
但在一次抽样中,估计值不一定就等于该真值。那么,在一次抽样中,参数的估计值与真值的差异有多大?是否显著?这就需要对回归模型进行统计检验,通常包括模型整体拟合优度检验(R2检验)、变量个体显著性检验(t检验)。
一、拟合优度检验
拟合优度检验实则是对样本回归直线与样本观测值之间拟合程度的检验。采用普通最小二乘估计方法,已经保证了模型最好地拟合了样本观测值,为什么还要检验拟合程度?问题在于,在一个特定的条件下做得最好的并不一定就是高质量的。普通最小二乘法所保证的最好的拟合是同一个问题内部的比较,拟合优度检验结果所表现的优劣是不同问题之间的比较。
▶1.总离差二次方和的分解
对一元线性回归模型Yi=α+βXi+μ两边取期望值,得到样本回归直线,已知样本总离差,可以分解成两部分(如图2-13所示):为样本残差为回归离差。如果要回归曲线拟合得好,即Yi与非常接近,显然︱ei︱越小越好。
图2-13 样本总离差分解
因考虑到样本总离差既可以为正数也可以为负数,所以对总离差求二次方,即
又因
根据式(2-10)和式(2-11),可得,
所以
总离差二次方和(Total Sum of Squares, TSS)可分解成两部分,一部分为回归离差二次方和(Explained Sum of Squares, ESS);另一部分为残差二次方和(Residual Sum of Squares, RSS),即TSS=ESS+RSS。
▶2.可决定系数R2
如何衡量回归模型值拟合样本观测值的优度呢?统计学设计出了一个可决定系数R2(Coefficient of Determination):
可得R2∈[0,1],显然RSS越小,回归模型拟合样本观测值越好,由此R2越接近1,说明实际观测点离样本回归线越近,拟合优度越高。
但需要注意的是,用R2比较模型拟合优度时,要求被解释变量必须相同。
二、变量显著性检验
变量的显著性检验旨在对回归模型中因变量与各自变量之间的线性关系是否显著作出评判。
▶1.构造t统计量
已知样本回归直线,参数、都服从正态分布:
式中,N()为正态分布函数;n为样本个数;为随机误差项μ的方差,因是不可观察的,
通常用的无偏估计量替代。
以为例,构造t统计量:
该统计量服从自由度为n-2的t分布,因此可用该统计量作为显著性检验的t统计量。同理,构造的t统计量:
该统计量服从自由度为n-2的t分布,因此可用该统计量作为显著性检验的t统计量。
▶2.提出假设
以为例,如果变量Xi是显著的,那么参数β显著不为0。于是,可设原假设H0:β=0,备择假设H1:β≠0。
▶3.确定显著水平
给定一个显著性水平α,一般情况下,α取0.01(或0.05),即1%是显著的(或5%是显著的)。
▶4.确定临界值
查t分布表(见附录),得到一个临界值。
▶5.做出判断
以为例,计算t统计量,如果︱t︱>临界值,则拒绝原假设H0:β=0,即在1-α的置信度下接受备择假设H1:β≠0,表明在1-1%=99%的置信度下变量Xi对因变量是显著的。
反之,︱t︱≤临界值,则接受原假设H0:β=0,表明在99%的置信度下变量Xi对因变量是不显著的。
t检验是单个自变量对因变量独自验证显著性的一种方法,体现了该解释变量独自对被解释变量在一定置信度下的影响是否显著。
关键术语
相关系数 回归函数 随机误差项 高斯-马尔可夫假定 普通最小二乘法 拟合优度检验 变量的显著性检验
闯关习题
一、单项选择题
1.对样本的相关系数r,以下结论错误的是( )。
A.︱r︱越接近0,X与Y之间线性相关程度高
B.︱r︱越接近1,X与Y之间线性相关程度高
C.-1≤r≤1
D.r=0,则在一定条件下X与Y相互独立
2.回归分析的目的是( )。
A.研究解释变量对被解释变量的依赖关系
B.研究解释变量对被解释变量的相关关系
C.根据解释变量数值来估计或预测被解释变量的总体均值
D.以上说法都不对
3.在回归模型中,正确表达了随机误差项序列相关的是( )。
A.cov(ui,uj)≠0,i≠j
B.cov(ui,uj)=0,i≠j
C.cov(Xi,Xj)=0,i≠j
D.cov(Xi,uj)=0,i≠j
4.变量X与变量Y的相关分析中( )。
A.X是随机变量,Y是非随机变量
B.Y是随机变量,X是非随机变量
C.X和Y都是随机变量
D.X和Y均为非随机变量
5.回归分析中,用来说明拟合优度的统计量为( )。
A.相关系数
B.回归系数
C.可决系数
D.标准差
6.表示x和y之间真实线性关系的是( )。
A.
B.E(Yt)=β0+β1Xt
C.Yt=β0+β1Xt+ut
D.Yt=β0+β1Xt
7.参数β的估计量具备有效性是指( )。
A.
B.为最小
C.
D.为最小
8.对回归模型Yi=β0+β1Xi+ui进行检验时,通常假定ui服从( )。
A.
B.t(n-2)
C.N(0,σ2)
D.t(n)
9.用一组有30个观测值的样本估计模型Yi=β0+β1Xi+ui,在0.05的显著性水平下对β1的显著性作t检验,则β1显著地不等于零的条件是其统计量t大于( )。
A.t0.05(30)
B.t0.025(30)
C.t0.05(28)
D.t0.025(28)
10.年劳动生产率X(千元)和工人工资Y(元)之间的回归直线方程为,这表明年劳动生产率每提高1 000元时,工人工资平均( )。
A.增加60元
B.减少60元
C.增加20元
D.减少20元
二、简述题
1.简述相关系数的计算公式及EViews 6.0软件操作步骤。
2.什么是回归?什么是回归线?
3.回归分析的主要内容包括哪些?
4.随机误差项产生的主要原因有哪些?
5.一元线性回归模型在使用普通最小二乘法估计参数时,需要满足哪些基本假定?
6.什么是普通最小二乘原理,并根据普通最小二乘法原理推导参数的计算公式。
7.简述一元线性回归模型的拟合优度检验的基本思想。
8.简述一元线性回归模型的变量的显著性检验的基本思想。
三、软件操作题
表2-4是已知某县1996—2015年财政收入Y和国内生产总值(GDP)X的统计表。
表2-4 某县1996—2015年财政收入与国内生产总值统计表 (单位:万元)
请利用EViews 6.0软件,得出财政收入Y和国内生产总值(GDP)X的一元线性回归模型,并解释拟合优度值(R2)和变量t值的含义。
课外修炼
阅读《计量经济学基础》
一、基本信息
《计量经济学基础》由古扎拉蒂著,中国人民大学出版社于2012出版。
二、作者简介
古扎拉蒂,西点军校的经济学荣誉退休教授。他曾在纽约城市大学执教25年多,之后又在纽约美国西点军校政治科学系执教17年。古扎拉蒂在美国及世界知名的学术期刊上发表了大量论文,这些期刊包括《经济学与统计学评论》(Review of Economics and Statistics)、《经济学杂志》(Economic Journal)、《金融与数量分析杂志》(Journal of Financial and Quantitative Analysis)和《商学杂志》(Journal of Business)等,他的计量经济学教材被翻译成多种语言出版。
大学是塑造灵魂的地方,是提升人格和培养文化素养的场所,而不仅仅为学生以后的谋生或就业而存在。