第3章 多元回归分析:估计
3.1 复习笔记
一、使用多元回归的动因
1.含有两个自变量的模型
(1)多元回归分析
除主要的变量外,把其他可观测因素也包括在回归模型中,那么y的变异就能更多的得到解释,因此多元回归分析可用于建立更好的因变量预测模型。可以把含有两个自变量的模型写成:
其中,是截距,度量了在其他条件不变情况下y相对x1的变化,而则度量了在其他条件不变情况下y相对x2的变化。
多元回归分析对推广变量之间的函数关系也有帮助。一个重要的差别是如何对参数进行解释。
(2)多元回归分析的假定
在含有两个自变量的模型中,u与x1和x2如何相关的关键假定是:
对上式的解释与对简单回归分析的假定SLR.4的解释相似。它意味着,对总体中x1和x2的任何值,无法观测因素的条件均值都等于零。
2.含有k个自变量的模型
(1)多元回归模型
一般多元性回归模型在总体中可以写成:
其中,为截距(intercept),是与x1相联系的参数,是与x2相联系的参数,等等。由于有k个自变量和一个截距项,所以方程包含了k+1个(未知的)总体参数。把不同于截距的参数称为斜率参数。
多元回归的术语类似于简单回归的术语。
(2)多元回归模型的关键假定
用条件期望的形式可以表示为:
该假定表示不可观测的误差项中的所有因素都与解释变量无关。任何一个导致u与某个自变量相关的问题,都会导致上式假定不成立。
二、普通最小二乘法的操作和解释
1.如何得到OLS估计值
(1)包含两个自变量模型的估计
在形式上,被估计的OLS方程为:
普通最小二乘法选择能最小化残差平方和的估计值。即要使下式尽可能小:
下标i表示观测序号,xi1表示第一个变量的第i个观测值,第二个下标只是用来区别不同自变量。
(2)含有k个自变量模型的估计
OLS方程为:
该方程被称为OLS回归线或样本回归函数。称为OLS截距估计值,而把称为OLS斜率估计值。
所选择的k+1个OLS估计值最小化残差平方和:
使用多元微积分求解可得k+1个线性方程:
这个方程组通常被称为OLS一阶条件。必须假定上式中的方程只能得到的唯一解。
2.对OLS回归方程的解释
(1)包含两个自变量模型的解释
①方程中的截距项是y在x1=0和x2=0情况下的预测值。虽然有时令x1和x2都等于零是一个有意义的情况,但在多数情况下,令x1和x2都等于零没有什么意义。
②估计值和具有偏效应或其他情况不变的解释。从上式中可得:
因此能在给定x1和x2的变化的情况下,预测y的变化。截距项与y的变化无关。当x2固定,即∆x2=0时,,类似地,在保持x1不变时,。
(2)包含多个自变量模型的解释
OLS回归线:
用变化量表示为:
x1的系数度量的是,在所有其他条件不变的情况下,因提高一个单位的x1而导致的平均变化。即在保持x2,x3,…,xk不变的情况下,。因此,在估计x1对y的影响时,已经控制了变量x2,x3,…,xk的影响。其他系数的解释与此相似。
3.多元回归中“保持其他因素不变”的含义
因为多元回归分析中斜率参数的偏效应解释可能会导致一些混淆,所以要尽量避免这个问题。多元回归有效地模拟了对自变量的值不加限制的情况。
多元回归分析能在非实验环境中进行自然科学家在受控实验中所能做的事情:保持其他因素不变。
4.同时改变不止一个自变量
通过方程可以改变一个以上的自变量,并能够得到由此对因变量的影响。
5.OLS的拟合值和残差
(1)拟合值和残差
在得到OLS回归线表达式后,对每次观测都可以得到一个拟合值或预测值。对观测,其拟合值为:
在求拟合值时,不应该忘记截距项;否则,结果就极具误导性。
一般而言,对任意观测i,实际值yi都不等于预测值;OLS最小化了预测误差平方的平均值,但对任何一个观测的预测误差都没做说明。第i个观测的残差只是像在简单回归中那样,被定义为:
每次观测都有一个残差。若,则小于yi,yi被预测得过低。若,则大于yi,yi被预测得过高。
(2)OLS拟合值和残差的重要性质
①残差的样本平均值为零。
②OLS拟合值和OLS残差之间的样本协方差值为零。
③点总位于OLS回归线上:
6.对多元回归“排除其他变量影响”的解释
(1)在简单回归分析中,由于回归中根本就不存在其他变量,所以就不用排除其变量的影响。
(2)考虑k=2个自变量的情形
一种表示的方式为:
其中,是利用现有样本将x1对x2进行简单回归而得到的OLS残差,即为x1中剔除掉x2的影响部分,再将y对进行简单回归就能得到,因此是表示x1对y的净影响,即偏效应。(残差的样本均值为零,所以就是通常简单回归的斜率参数。)
(3)在一个含有k个解释变量的一般模型中,不变,但残差来自x1对x2,x3,…,xk的回归。度量的是,在排除x2,x3,…,xk等变量的影响后,x1对y的影响。
7.简单回归和多元回归估计值的比较
(1)简单回归和多元回归估计值的关系
通常情况下简单回归所得到的回归估计值与多元回归所得到的估计值并不相同,y对x1的简单回归所得到的回归估计值与将y对x1和x2作OLS回归时所得到x1的偏回归估计值的关系为:
其中,是xi2对xi1进行简单回归的斜率系数。导致二者区别的一项,是x2对的偏效应与x2对x1进行简单回归的斜率之积。
(2)两者相等的特殊情况
①样本中x2对y的偏效应为零,即;
②样本中x1和x2不相关,即。
(3)在含有k个自变量的情形中两者相等的特殊情况
①从x2到xk所有的OLS系数都是零;
②x1与x2,x3,…,xk都不相关。
实际上,这两个条件都不太可能成立。但如果所有从x2到xk的系数都很小,或者x1与其他自变量之间的样本相关关系都不显著,那么x1影响y的简单回归估计值和多元回归估计值可能会很相似。
8.拟合优度
(1)总平方和(SST)、解释平方和(SSE)和剩余平方和或残差平方和(SSR)
可以证明
将方程两边同时除以SST得到:
(2)拟合优度
①R2被定义为:
解释为Yi的样本变异中被OLS回归线所解释的部分。根据定义,R2是一个介于0和1之间的数。
②R2等于yi的实际值与其拟合值之相关系数的平方。即:
③有关R2的一个重要事实
在回归中多增加一个自变量后,它绝对不会减小,而且通常会增大。因为在模型中多增加一个回归元时,残差平方和绝对不会增加。在回归中增加任何一个变量都不会使R2减小的事实表明用R2来判断是否应该在模型中增加一个或几个变量很不适当。判断一个解释变量是否应放入模型的合理依据应当是这个解释变量在总体中对y的偏效应是否非零。
9.过原点回归
(1)过原点回归的定义
具体方程如下:
其中,估计值上面的符号“~”用以区别带截距的OLS回归。当时,预测值也为零。在这种情况下,被称为从y对x1,x2,…,xk进行过原点的回归而得到的OLS估计值。
(2)过原点回归的特点
①OLS残差的样本平均值不再是零。
②如果R2被定义为R2=1-SSR/SST,而SSR现在是
R2实际上可能为负。这意味着样本平均比解释变量更多地“解释”了yi的变异。要么应该在回归中包含一个截距项,要么断定解释变量对y的解释很差。
③通过原点的回归有一个重要缺陷:如果总体模型中的截距项不为零,斜率参数的OLS估计量将有偏误。在某些情况下,这种偏误可能会很严重。当确实为零时,估计带截距项方程的代价是,OLS斜率估计量的方差会更大。
三、OLS估计量的期望值
以下假定都是对简单回归模型假定的直接推广,在这些假定之下,OLS估计量是总体参数的无偏估计。
1.基本假定与OLS的无偏性
(1)假定MLR.1(线性于参数)
总体模型可写成:
其中是未知参数(常数),而u则是无法观测的随机误差或随机干扰。
模型的一个重要特点是,它是参数的线性函数,而y和自变量则可以是任意的函数形式。
(2)假定MLR.2(随机抽样)
给定容量为n的随机样本,该样本来自假定MLR.1中的总体模型。
第i次观测的方程为:
其中,i表示观测次数,x的第二个脚标表示变量序号。
借助模型
从y对x1,x2,…,xk的回归中得到的OLS估计量分别是的估计量。
(3)假定MLR.3(不存在完全共线性)
①假定的主要内容
在样本(因而在总体中),没有一个自变量是常数,自变量之间也不存在严格的线性关系。
如果方程中的一个自变量恰好是其他自变量的一个线性组合,则模型存在完全共线性问题,不能由OLS来估计。假定MLR.3允许自变量之间存在相关关系,但不能完全相关。如果不允许自变量中存在任何相关关系,那么多元回归分析对计量分析就没有多大用处,因为这时可以用多个简单回归模型去研究每个自变量与y的关系。
②自变量完全相关的方式
a.在同一个回归方程中包括以不同单位度量的同一个解释变量。一个自变量也可能以更微妙的方式成为另一个自变量的倍数。
b.自变量可能完全线性相关的另一种方式是,一个自变量恰好可以表示成其他两个或多个自变量的线性函数。
(4)假定MLR.4(条件均值为零)
给定自变量的任意值,误差u的期望值为零,即:
假定MLR.4可能不成立的情况:
①模型方程中被解释变量和解释变量之间的函数关系被错误地设定:例如,当一个变量在总体中应该以对数形式出现时,却使用了其水平值,模型中应该包含变量的二次项等。
②漏掉一个与x1,x2,…,xk中任何一个自变量相关的重要因素,也能导致MLR.4不成立。
③u还可能以其他方式与一个解释变量相关。
当假定MLR.4成立时,则模型具有外生解释变量。如果出于某种原因xj仍与u相关,那么xj就被称为内生解释变量。
注:假定MLR.4与假定MLR.3相当不同,不能将它们混淆。
假定MLR.3排除了自变量和因变量之间的某些关系,而与u无关。在进行OLS估计时,就会得出假定MLR.3成立与否。
假定MLR.4则限制了u中无法观测因素与解释变量之间的关系,是一个关键假定。但无法确切地知道,无法观测因素的平均值是否与解释变量无关。
(5)定理3.1:OLS的无偏性
在假定MLR.1~MLR.4下,下式对总体参数的任意值都成立
即OLS估计量是总体参数的无偏估计量。
OLS在假定MLR.1~MLR.4下是无偏的是指,将用来得到OLS估计值的程序在各种可能的随机样本下都是无偏的。
2.在回归模型中包含了无关变量
在多元回归分析中包含一个无关变量或对模型进行过度设定,是指尽管一个(或多个)自变量在总体中对y没有影响,却被放到了模型中(即它的总体系数为零)。
在一个多元回归模型中包含一个或多个无关变量,或对模型进行了过度设定,并不会影响到OLS估计量的无偏性。因为无偏性意味着对于任何(包括)都有,但是包含无关变量对OLS估计量的方差具有不利影响。
3.遗漏变量的偏误:简单情形
假设遗漏了一个实际上应包括在真实(或总体)模型中的变量,这通常被称为排除一个有关变量或对模型设定不足的问题。
(1)遗漏变量偏误
真实模型:
实际估计的模型:
简单回归因遗漏一个变量而误设时所具有的性质。由于模型满足假定MLR.1~MLR.4,所以和将分别是和的无偏估计量。因此:
则中的偏误为:
此时的偏误源自遗漏的解释变量,所以方程右边的项时常被称为遗漏变量偏误。
(2)无偏的两种情况
①第一种情况:若,即不会出现在真实模型中,则就是无偏的。
②第二种情况:若,使也是,也是的无偏估计。当且仅当样本中的x1和x2不相关时,才会有。由此可得:若样本中的x1和x2不相关,则就是无偏估计。
若,那么的无偏性无须以xi2为条件;于是在估计时,只要调整截距,将x2放在误差项中并不违背误差项的条件均值为零的假定。
当x1和x2相关时,与x1和x2之间的相关系数具有相同的符号:若x1和x2正相关,则,若x1和x2负相关,则。
(3)偏误的符号与大小
①偏误的符号同时取决于和的符号,存在偏误时的四种可能情形如表3-1所示。
表3-1 遗漏变量时的偏误汇总表
上表总结了偏误的方向,但是偏误的大小也是十分重要的。如果偏误比较小,无论符号是正是负,都不值得考虑。
②偏误的大小由和的大小决定。
(4)与偏误有关的术语
在模型漏掉一个变量的背景下,若,就说有向上的偏误。当时,则有向下的偏误。
向零的偏误是指比更接近零的情况。因此,若为正,则向下的偏误就是向零的偏误;另一方面,若为负,则向上的偏误就是向零的偏误。
4.遗漏变量的偏误:更一般的情形
一个解释变量与误差之间存在相关性,一般会导致所有OLS估计量都产生偏误。
假设总体模型
满足假定MLR.1~MLR.4,若遗漏了变量并估计了模型
假设x2和x3无关,但x1和x3却相关。此时和通常都是有偏的。唯一的例外是,在x1和x2不相关的时候,很难得到和偏误的方向,因为x1,x2和x3可能会两两相关。
一种近似方法在实践中常常很有用。如果假定x1和x2无关,则:
四、OLS估计量的方差
1.同方差性与OLS斜率估计量的抽样方差
(1)假定MLR.5(同方差性)
给定任意解释变量值,误差项u都具有相同的方差。即:
假定MLR.5意味着,以解释变量为条件,不管解释变量出现何种组合,误差项u的方差都是一样的。如果这个假定不成立,那么模型就像在两变量情形中一样表现出异方差性。
假定MLR.1~MLR.5一起被称为(横截面回归的)高斯—马尔可夫假定。
注:MLR.4与MLR.5的区别,MLR.4表明,给定x,y的期望值对参数为线性,y的期望值取决于x;而MLR.5表明给定x,y的方差并不取决于自变量的值。
(2)定理3.2:OLS斜率估计量的抽样方差
在假定MLR.1~MLR.5之下,以自变量的样本值为条件,对所有的,都有:
其中,是xj的总样本变异,而则是将xj对所有其他自变量(包含一个截距项)进行回归所得到的R2。
在得到这个公式的过程中,用到了所有高斯—马尔可夫假定。OLS的无偏性不需要同方差的假定,但是上式抽样方差的表达式中却需要同方差假定。
2.OLS方差的成分:多重共线性
的方差取决于三个因素:、和。下标j只是表示自变量中的任意一个。
(1)误差方差
越大意味着OLS估计量的方差就越大。方程中的“噪音”越多(越大),使得估计任何一个自变量对y的偏效应都越困难,这将通过OLS斜率估计量的较大方差反映出来。由于是总体的一个特征,所以它与样本容量无关。
对于给定的因变量y,只有一个办法减少误差方差,即在方程中增加更多的解释变量(将某些因素从误差项中剔除出来)。
(2)xj的总样本变异,SSTj
xj的总变异越大,就越小。因此,若所有其他条件不变,就估计而言,xj的样本方差越大越好。
有一种办法来提高每个自变量的样本变异:扩大样本容量。实际上,当从总体中随机抽样时,随着样本容量越来越大,SSTj将无限递增。这是方差中系统地取决于样本容量的部分。
若SSTj很小,会变得很大。但小的SSTj并不违背假定MLR.3。从技术上讲,随着SSTj趋近于零,可能趋于无穷大。但xj无样本变异的极端情形(SSTj=0)却是假定MLR.3所不允许的。
(3)自变量之间的线性关系,
不同于y对回归所得到的R2:得到的回归只涉及原模型中的自变量,其中xj是作为因变量而出现的。
①k=2的情形:
其中是x1对x2(含截距)进行简单回归所得到的R2,由于R2是拟合优度,所以当值接近于1时,表明在这个样本中,x2解释了x1的大部分变动,即x1和x2高度相关。随着向1逐渐接近,则变得越来越大。因此x1和x2之间线性相关性的程度越高,OLS斜率估计值的方差就越大。
②在一般情况下,是xj总变异中可由方程中其他给定的自变量加以解释的部分。给定其他条件,当且仅当xi与其他每个自变量的样本相关系数都等于零()时取到最小值。
③另一个极端情形被假定MLR.3所排除,因为意味着,xj恰好是回归中某些自变量的线性组合。
④还有一种更重要的情形是“接近”于1的情况。这会导致很大:若则,两个或多个自变量之间高度(但不完全)相关被称为多重共线性。
(4)多重共线性的界定和解决方法
①多重共线性的界定
根据“接近”于1的程度判断估计的过程中是否存在多重共线性的方式存在一个缺陷,即无法给出一个绝对数字来作为判断多重共线性的临界值。无法给出临界值的原因为,统计推断通过与其标准差的比值来进行,因此标准差的增大是否影响统计推断需要视的大小而定。
很大的可能导致很大的,很小的SSTj也能导致很大的,因此,小样本容量也会导致很大的抽样方差。对样本中自变量间出现高度相关的担心,实际上无异于对小样本容量的担心:二者都会提高。
②结论
虽然不能清楚地界定多重共线性问题,但在所有其他条件都不变的情况下,就估计而言,xj与其他自变量之间相关程度越低越好。
另外一个重要问题是,虽然某些自变量之间高度相关,但对模型中其他参数的估计效果而言可能并不重要。
③“解决”多重共线性问题的方法:
a.搜集更多的数据,增大样本容量;
b.对于给定的数据集,可以尝试从模型中剔除一些其他自变量,以尽量消除多重共线性。但剔除总体模型中的一些变量常常会导致偏误。
3.误设模型中的方差
在一个回归模型中是否包含一个特定变量的决策,可以通过分析偏误和方差之间的替换关系而做出。
将满足高斯—马尔可夫假定的真实总体模型写成:
回归模型中遗漏x2的简单回归模型如下:
则是来自包含x1与x2的多元回归模型,而则是来自漏掉x2的模型。当时,遗漏x2的模型就排除了一个有关变量,除非x1和x2不相关,否则就会有偏误,但是无论为多少时,都是的无偏估计。故只以偏误为准则,那么比好。
二者的方差:
假定x1和x2不相关,可以得到如下结论:
(1)当时,是有偏的,是无偏的,而且。
(2)当时,和都是无偏的,而且。
①若,更好。如果x2对y没有偏效应,那么将它放在模型中就只会加剧多重共线性问题,从而导致的估计量效率较低。在模型中包括一个无关变量的代价是,的估计量方差较高。
②的情况。不把x2放到模型中,将导致的估计量有偏误。
当时,模型中应该包括x2的原因:
a.中的偏误不会随着样本容量的扩大而缩减;实际上,偏误不一定服从任何形式,偏误对任何样本容量都大致相等。
b.随着n逐渐变大,和都逐渐缩小至零,这意味着,随着样本容量逐渐变大,因增加所导致的多重共线性就会变得没有那么重要。在大样本情况下,将更偏好。
c.方差公式取决于样本中xi1和xi2的值,这就为提供了最好的条件。当时,仅取决于x1的β1方差比式中的方差更大。原因是在x2的偏效应不为零时将其放入误差项中会导致误差项的方差由于包含了x2而增大。
4.估计:OLS估计量的标准误
(1)残差和自由度
将每个用其OLS估计量取代后,就得到OLS残差:
在简单回归情形中,这将导致一个有偏估计量。在一般多元回归情形中,的无偏估计量是:
N-k-1是含有n个观测和k个自变量的一般OLS问题的自由度。即:df=n-(k+1)=观测次数-估计参数的个数。
注:计算特定应用中的自由度最简单的方法:从观测个数中减去包括截距在内的参数个数。
(2)定理3.3:的无偏估计
在高斯—马尔可夫假定MLR.1~MLR.5下,。
的正平方根被称为回归标准误或SER。SER是误差项之标准差的估计量。(对于给定样本)在方程中增加另一个自变量时,则可能减小或增加。这是因为当增加另一个解释变量时,在SSR肯定下降的同时,自由度也减少一个。因为SSR在分子中,而df在分母中,所以事先并不知道哪个作用会占主导地位。
(3)的标准差
为了构造置信区间并进行检验,估计的标准差也就是方差的平方根:
由于未知,所以用其估计量来取代,则:
如果误差表现出异方差性,标准误公式就不是的一个可靠估计量,从而使标准误无效。
五、OLS的有效性:高斯—马尔可夫定理
1.最优线性无偏估计量
(1)估计量:它是一个可应用于任何一个数据样本,并产生一个估计值的规则。
(2)无偏估计量:如果的一个估计量,对任意都有,那么就是的一个无偏估计量。
(3)“线性”:的一个估计量是线性的充分必要条件是,它能表示成因变量数据的一个线性函数:
其中每个wij都可以是所有自变量样本值的一个函数。
(4)“最优”:最优被定义为最小方差。
2.定理3.4:高斯—马尔可夫定理
(1)主要内容
在假定MLR.1~MLR.5下,分别是的最优线性无偏估计量。
假定MLR.1~MLR.5被称为(横截面数据分析的)高斯-马尔可夫假定。
(2)高斯—马尔可夫定理的重要性
当这个标准假定集成立时,不需要再去寻找其他无偏估计量:没有一个会比OLS更好。
如果高斯—马尔可夫假定中的任何一个不成立,那么这个定理也就不再成立。零条件均值的假定(假定MLR.4)不成立会导致OLS产生偏误,异方差性(假定MLR.5不成立)虽不致使OLS有偏,但它在线性无偏估计量中不再具有最小方差。
六、对多元回归分析语言的一些说明
区分特定的总体模型和估计模型所用的方法是非常重要的。普通最小二乘法(OLS)是一种估计方法而不是一个模型,因此“估计了一个OLS模型”的说法是错误的,反映了对多元回归分析要素的误解。
在没有数据的情况下,本章学习的线性模型中的参数的大小无法确定,但的含义可以在模型中得到。如果获得了数据,则可以估计参数的大小。除了广泛使用的OLS之外,还有数不胜数的方法利用数据来估计参数,如加权最小二乘法、最小绝对偏差法和工具变量法等。OLS的广泛使用依赖于所作的假设,如在MLR.1到MLR.4成立时,OLS估计量是无偏的,但如果MLR.5不同时成立,则OLS估计量不是有效的。
因此在回归分析中引入关于估计值的讨论的正确方式是:“用最小二乘法估计了模型
在没有遗漏重要变量和随机抽样假设下,xj对y的影响的OLS估计量是无偏的,如果误差项u有固定方差,OLS估计量是最优线性无偏的。”