大话数据科学:大数据与机器学习实战(基于R语言)
上QQ阅读APP看书,第一时间看更新

3.6 R语言实战

3.6.1 泰坦尼克号

统计学的分类数据分析是,检验两个因子是否独立,或相关性是否显著。以泰坦尼克号为例,在统计学中是检验乘客身份(因子)和存亡(因子)是否无关或显著相关。在关联规则分析中是挖掘“头等舱”和“存活”是否有关联,参见《大话统计学》例题14.4。

如果将“存活”变量当作因变量(目标变量),问题就是监督式学习的分类模型。

关于泰坦尼克号的数据如表3-3、图3-14、图3-15所示。这个数据和《大话统计学》第14章的数据略有不同,因为参考数据来源不同。

表3-3 泰坦尼克号的数据

图3-14 R语言mosaicplot图

注:[1],…,[6]是图3-16的规则

图3-15 泰坦尼克号的存活率

图3-16 关联规则的网络图

【R例3.3】泰坦尼克号:数据Titanic、Titan,函数{包}:apriori、itemFrequency、eclat {arules}

图3-3关联分析数据有5种格式,R例3.1和R例3.2是(a)0-1二元关联矩阵。

泰坦尼克号数据档案是(d)事务频数表Titanic,转成(c)因子项目数据框Titan。

关联规则如图3-18所示。

图3-17 平行坐标图

图3-18 27个关联规则

3.6.2 商店数据

商店数据文件是图3-3(e)事务表格式格式

【R例3.4】商店数据:shop.csv,函数apriori、itemFrequency

数据框格式data.frame:110893行,2列,如图3-19所示。

图3-19 事务表格式

图3-20 项目频数

交叉销售关联规则如图3-21所示。

图3-21 交叉销售关联规则

负关联规则如图3-22所示。

图3-22 负关联规则

关联规则如图3-23所示。

图3-23 关联规则

3.6.3 食品杂货数据

【R例3.5】食品杂货:数据Groceries,函数apriori

Groceries数据arules的transactions格式:9835行(记录)。

数据是图3-3(b)事务数据库的格式。

3.6.4 人口收入数据

在R语言包arules的内建数据集有Adult和AdultUCI两个有关个人收入的数据集,共有48842个记录。AdultUCI数据有15个变量,虽然是数据框的格式,但是不能将AdultUCI数据输入apriori函数计算关联规则,因为变量有数值型变量。

AdultUCI的15个变量:

(1)年龄Age数值整数变量。

(2)工作等级Workclass因子有8个水平。

(3)教育Education有序因子有16个水平。

(4)教育年数education-num数值向量。

(5)婚姻marital-status因子有7个水平。

(6)职业Occupation因子有14个水平。

(7)家庭关系Relationship因子有6个水平。

(8)种族Race因子有5个水平。

(9)性别Sex因子有2个水平。

(10)资本获利capital-gain数值向量。

(11)资本损失capital-loss数值向量。

(12)Fnlwgt数值向量。

(13)每周工时hours-per-week数值整数变量。

(14)出生国家native-country因子有41个水平。

(15)收入Income有序因子有2个水平(小small < large大)。

将AdultUCI数据的第4和第12个变量删除。

将(1)年龄Age改为有序因子有4个水平。

将(10)资本获利capital-gain改为有序因子有3个水平。

将(11)资本损失capital-loss改为有序因子有3个水平。

将(13)每周工时hours-per-week改为有序因子有4个水平。

上述的因子全部加起来 13个变量共有115个因子。

数据Adult是图3-3(b)事务数据库的格式transactions。

数据 AdultUCI是图3-3(c)数据框的格式data.frame 48842 obs. 13 variables。

【R例3.6】人口收入:数据Adult.CSV,函数apriori

3.6.5 鸢尾花数据

鸢尾花数据(Iris data set)包含了150个样本,分别是山鸢尾、变色鸢尾和维吉尼亚鸢尾。用4个特征变量测量花朵:萼片长度、萼片宽度、花瓣长度、花瓣宽度。

(1)萼片长度(Sepal Length):计算单位是厘米。

(2)萼片宽度(Sepal Width):计算单位是厘米。

(3)花瓣长度(Petal Length):计算单位是厘米。

(4)花瓣宽度(Petal Width):计算单位是厘米。

(5)类别(Class):可分为Setosa、Versicolor和Virginica三个品种。

【R例3.7】连续变量关联分析:鸢尾花数据iris,函数apriori

数据框格式data.frame:150个观察值 5个变量

鸢尾花数据特征变量分布图如图3-24所示。

图3-24 鸢尾花数据特征变量分布图(下图是去除填充颜色)

鸢尾花数据特征变量分布如图3-25所示。

图3-25 鸢尾花数据特征变量分布图