3.9 本章小结
本章主要介绍了一元线性回归的原理及其在实际研究中的应用。为了帮助读者对回归概念有一个清晰的理解,我们介绍了理解回归概念的三种视角:因果性、预测性和描述性。在社会科学研究中,我们倾向于使用第三种视角。这种视角的特点在于,它并不关注模型是否“真实”,而更在意它是否符合已被观察到的事实。但是对“事实”的强调并不意味着我们可以为了追求精确而把现实生活中能够找到的影响因素都纳入回归模型中,相反,研究者应该利用尽可能少的参数来估计尽可能精确的模型。因此,回归应用的一个重要方面就是研究者需要在精确性和简约性之间进行权衡,从而找出最佳模型。
对于回归模型的原理及其应用,需要掌握的主要内容有以下五个方面:模型的表达形式、模型的基本假定、模型的估计、模型的检验以及利用回归结果进行预测。回归模型由概括项和残差项两部分组成。根据线性假定、正交假定和独立同分布假定这三个假定建立模型后,首先基于样本数据采用最小二乘估计得到模型参数的估计值,然后可以对模型和回归系数进行假设检验,从而判断自变量对因变量的影响是否显著,并进一步估计和预测在自变量的特定取值下因变量的取值范围。在模型拟合评价中,判定系数R2是用来判断回归模型拟合优度的指标。R2越大,表明回归直线拟合得越好,也意味着模型对实际数据的解释能力越强。此外,尽管我们可以根据基本假定估计出回归模型,但是我们不知道这些假定是否成立。诊断数据仍然是必不可少的一个环节。这部分内容我们将留到第17章“回归诊断”中进行详细讨论。
需要提醒的是,OLS回归方法找出的是两个变量间最佳的线性关系,但实际情况中两个变量间可能并不是简单的线性关系。这时,尽管我们仍然可以估计出回归方程,但它并不能恰当地反映两者间的真实关系。最后,我们提醒读者,在经验研究中,简单回归的应用是非常有限的。因为社会现象往往受到诸多因素的共同影响,单一因素造成某一社会现象的情况几乎不存在。但是,了解简单回归的原理是学习多元回归乃至其他更复杂统计方法的基础。
参考文献
Kutner, Michael H. , Christopher J. Nachtsheim, John Neter, &William Li. 2004. Applied Linear Regression Models(Fourth Edition). Boston: McGraw-Hill/lrwin.
Lehmann, Erich L. &George Casella. 1998. Theory of Point Estimation(Second Edition). New York: Springer.
Mincer, Jacob. 1958.“Investment in Human Capital and Personal Income Distribution. ”Journal of Political Economy 66: 281-302.
Mincer, Jacob. 1974. Schooling, Experience and Earnings. New York: Columbia University Press.
Powers, Daniel A. &Yu Xie. 2008. Statistical Methods for Categorical Data Analysis(Second Edition). Howard House, England: Emerald. [ 〔美〕丹尼尔·A.鲍威斯、谢宇,2009,《分类数据分析的统计方法》(第2版),任强等译,北京:社会科学文献出版社。]
Wooldridge, Jeffrey M. 2009. Introductory to Econometrics: A Modern Approach(Fourth Edition). Mason, OH: Thomson/South-Western.
Xie, Yu &Emily Hannum. 1996.“Regional Variation in Earnings Inequality in Reform-Era Urban China. ”American Journal of Sociology 101: 950-992.