大话数据科学:大数据与机器学习实战(基于R语言)
上QQ阅读APP看书,第一时间看更新

3.2 关联规则数据格式

项目与事务的数据格式有以下五种。

(1)二元关联矩阵(binary incidence matrix):如图3-3(a)所示,这种格式的数据,可以储存为Excel的.csv格式,行是事务标识,列是项目,1表示该事务购买了该项目。

(2)事务数据库(transactions database):如图3-3(b)所示,这种格式的数据,可以储存为Word的.txt格式,每个事务储存它所包含的项集。

(3)因子项目数据框(data frame):事务数据的数据框表示,适合有因子的项目,如图3-3(c)所示,项目A有A1,A2,A3,3个水平。每个事务在每个因子有一个水平。

(4)事务频数表(transaction frequency table):如图3-3(d)所示,计算各项集的事务频数,例如 #{A=0,B=0,C=0}=24。储存在R表格的格式。

(5)事务表格式:如图3-3(e)所示,每行一个TID一个项目,可以储存为.csv格式。

图3-3 数据表示

图3-3(d)是三个纬度的表,表内数字是频数,事务的项目A=0,B=0,C=0有24个。

关联规则分析要注意数据格式,R语言函数 arules::apriori可以处理(a)、(b)、(c)三种格式。(d)、(e)的格式要在程序中转换为数据格式,可以用arules包进行转换。

请见本章3.6.1节泰坦尼克号的关联规则实例计算。