上QQ阅读APP看书,第一时间看更新
7.8 用PCA构造准交互变量
我给出一个原创的有价值的PCA用法,用于构造准交互变量(quasi-interaction variable)。我用SAS来实现这个工作,在介绍完构建过程之后提供了这个程序(见7.8.1节)。我们看表7.6中的数据集合IN。其中有两个类别变量:GENDER(假定M代表男性,F代表女性,空白代表没有数据),MARITAL(假定M代表已婚,S代表单身,D代表离婚,空白代表没有数据)。
表7.6 数据集合IN
我重新设定变量,并在空白处填上x。所以,GENDER_和MARITAL_分别是GENDER(性别)和MARITAL(婚姻状况)的修改后的变量(见表7.7)。
表7.7 重设变量之后的数据集合IN
然后,我用SAS程序TRANSREG为GENDER_和MARITAL_创建哑变量,对这两个变量的每个值,都有对应的哑变量。比如,GENDER_=M,哑变量是GENDER_M。参考哑变量用于处理x缺失的值(见表7.8)。
我用GENDER_和MARITAL_哑变量进行PCA,可以得到5个准交互变量:GENDER_x_MARITAL_pc1到GENDER_x_MARITAL_pc5,结果见表7.9,结果留给读者解读。抛开细节不谈,显然PCA是一个强大的数据挖掘方法。
表7.8 使用SAS程序TRANSREG处理GENDER_和MARITAL_哑变量的结果
表7.9 用GENDER_和MARITAL_哑变量产生准交互变量
准交互变量PCA法的SAS程序代码