5.2 多元回归的基本假定
与简单回归一样,我们对多元回归方程(5-2)进行参数估计时仍采用常规最小二乘法(ordinary least squares, OLS)。同样,使用这种估计方法进行回归参数估计需要满足以下几个基本假定。
A0模型设定假定(线性假定)
这不是一个统计假定,而是一个模型设定。该假定要求Y的条件均值是所有自变量X的线性函数:
其中,y是由因变量观测值组成的n ×1的列向量,X是由自变量观测值组成的一个n ×p的矩阵,且p<n。也就是说,y在X下的条件期望可以表示为X的线性组合。这个条件期望式即所谓的回归方程。注意,模型要求X′X必须是非奇异矩阵,下面会对此进行解释。
A1正交假定
我们假定误差项矩阵ε与X中的每一个x向量都不相关。也就是说:
注意X的第一列都是1,使式(5-4)等价于
和
该假定保证了我们对回归模型参数的OLS估计是无偏的。这点在后面还将谈到。
A2独立同分布假定(i. i. d.假定)
该假定是针对总体回归模型的误差项,要求它们满足彼此之间相互独立,并且服从同一分布的条件。具体来说,
(1)独立分布:每一个误差项εi为独立分布,即Cov(εi, εj)=0,其中i≠j;
(2)同方差性:,其中,i=1, 2, …, n。
以矩阵形式,这两个性质也可以表示成:
其中,I为n ×n阶单位矩阵。
高斯-马尔科夫定理(Gauss-Markov Theorem)
该定理表明,若满足A1和A2假定,则采用最小二乘法得出的回归参数估计b将是所有估计中的最佳线性无偏估计(best linear unbiased estimator,简称BLUE)。
线性估计值是指,估计值θ可以表示成因变量的线性函数,即:
这里,wi可以是样本中自变量的函数。下面我们很快就会知道,OLS的估计结果为,b=(X′X)-1X′y,因此满足线性估计的条件。至于如何得到这个估计结果,我们将在下一节中演示推导过程。
在A1假定下,利用最小二乘法可以得到回归参数的无偏估计 b,也就是E(b)=β。线性无偏估计可能会有多个,那么,如何选出其中最佳的估计呢?这就需要用到我们在前面提到的另一个评判标准——有效性(efficiency)。在满足A2假定的情况下,依据高斯-马尔科夫定理,我们可以证明OLS的估计结果是所有线性无偏估计中方差最小的。
小结:如果样本违反A1假定,那么得到的估计值将是有偏的。如果A1假定成立,但A2假定不成立,那么得到的虽然是无偏估计,但却不是最有效的。本书第14章会专门对这一问题及其相应的解决办法加以讨论。
A3正态分布假定
在A2假定的基础上,这个假定进一步要求εi服从正态分布N(0, σ2)。正态分布假定使得OLS估计可以被理解成最大似然估计——最佳无偏估计。
但正态分布假定主要应用于对回归参数的OLS估计值进行统计检验,而且只有在小样本情况下才需要特别注意这个问题。对于大样本来说,根据中心极限定理,即使误差项不满足正态分布,我们仍然可以对回归参数的估计值进行统计推断。