1.1.5 最优子集
当我们进行模型构建时,通常我们获取到的自变量并不全是有用的,这其中存在着与因变量不相关或者相关性极小的变量。针对这种情况,我们可以根据经验筛选对因变量影响较大的自变量。
然而,通常统计学工作者并不是临床领域的专家,对可能影响因变量的自变量并不了解,于是我们需要运用算法获得最接近真实模型的回归模型,如最优子集回归。
最优子集回归,即对p个自变量的所有可能组合分别使用回归进行拟合。总共存在2p个可用于建模的变量子集,根据残差平方和(RSS)与R2的改善情况,从中选择一个最优模型。