5.2 课后习题详解
一、习题
1.在满足假定MLR.1到MLR.4的简单回归中,我们证明了斜率估计量是的一致估计。
利用证明:
[你在使用的同时,还需要使用的一致性和大数定律。]
证明:简单模型为:
期望值是
因为,,,故
移项可得
则有
根据大数定律
又
则对等式两边同时取概率极限得:
2.假设模型
满足前四个高斯—马尔科夫假定,其中,pctstck表示工人养老金投资于股票市场的百分比,funds表示工人可以选择的共同基金的个数,而risktol表示对风险承受能力的某种度量(risktol越大,则表明这个人对风险的承受能力越强)。如果funds和risktol正相关,pctstck对funds简单回归的斜率系数有怎样的不一致性?
答:对风险的承受能力越强,就更愿意在资本市场上投资,因此。假定可供选择的共同基金的个数与个人承受风险的能力是正相关的,使用公式5.5
因此有一个正的不一致性(渐进偏误)。这个结论是有意义的,如果省略个人对风险的承受能力这一变量,而它与可选择的共同基金个数相关,因此估计出来的funds对pctstck的影响实际上包括了risktol对pctstck的影响。
3.数据集SMOKE.RAW包含美国成人个人随机样本在抽烟行为和其他变量方面的信息。变量cigs为(平均)每天抽烟的数量。你是否认为在美国这个总体中,cigs具有正态分布?试做解释。
答:在美国这个总体中,cigs不具有正态分布。大多数人不抽烟,因此对一半以上的美国人而言,cigs=0,故正态分布随机变量的概率大于零并没有特殊的意义。另外,cigs的分布是左偏的,而正态分布随机变量是对称的。
4.在简单回归模型教材(5.16)中,我们在前4个高斯—马尔科夫假定下证明了,形如教材(5.17)的估计量是斜率的一致估计量。给定这样一个估计量,定义的一个估计量为
证明
证明:简单回归模型为:
则其期望值是:
或
因为,则,。因此
则
现在
可得:
根据大数定律可知:
因此
二、计算机练习
C1.本题使用WAGE1.RAW中的数据。
(i)估计方程
保留残差并画出其直方图。
(ii)以log(wage)作为因变量重做第(i)部分。
(iii)你认为是水平值—水平值模型还是对数—水平值模型更接近于满足假定MLR.6?
答:(i)估计模型为:
526个残差,的直方图如图5-1所示,根据STATA手册中的公式对526个观测值在直方图中使用了27个排序格,通过对比正态分布是适合图中描绘内容的数据分布。
图5-1
(ii)log(wage)作为因变量的估计方程为:
从方程中推出的残差直方图,以及最合适的正态分布重叠图如图5-2所示:
图5-2
(iii)log(wage)回归的残差看起来更符合正态分布,第(ii)部分的直方图的分布密度比第(i)部分直方图更好。wage残差直方图是显著左偏的。在wage的回归中,存在一些很大的残差(甚至等于15),这是基于残差平均值等于0的标准估计误差()很难支持的。在对数—水平值模型中残差不等于0并没有造成太大的问题,因此,对数—水平值模型更接近于满足假定MLR.6。
C2.本题使用GPA2.RAW中的数据。
(i)使用所有4137个观测,估计方程
并以标准形式报告结论。
(ii)使用前2070个观测再重新估计第(i)部分中的方程。
(iii)求出第(i)部分与第(ii)部分所得到的标准误的比率。并将这个比率与教材(5.10)中的结论相比较。
答:(i)4137个观测值的回归模型为:
(ii)使用开始的2070个观测值的回归模型为:
(iii)使用2070个观测值的标准误与使用4137个观测值的标准误的比率为1.31。根据教材5.10的经验法则,预期标准误的收缩速度为样本容量平方根的倒数。本题中,大于真实标准误的比率,即标准误的收缩速度略慢于样本容量变化速度。
C3.(i)根据第4章的计算机练习C6在第(i)部分中的等式:
获得对于原假设为的LM统计量。
(ii)对于第(i)部分中的检验获得(渐进的)p值。
答:(i)首先进行约束模型的回归,然后将约束回归所得残差对所有变量进行回归为:
构造LM统计量:
因为q等于2,故,置信水平为95%的临界值为7.378。即LM统计量大于临界值,可以拒绝原假设,认为不同时为零。
(ii)LM=21.4相对应的p值为0.0002254。