1.5 示例数据集
Weka自带25个ARFF文件作为测试用示例数据集,文件位于安装目录的data子目录下,如图1.27所示。
图1.27 Weka自带数据集
限于篇幅,这里仅对其中的部分数据集进行说明。
1.5.1 天气问题
天气问题的数据集很小,里面的数据纯属虚构,只是为了用来说明机器学习的方法。该数据集存放在Weka安装目录的data子目录下,有两个文件weather.numeric.arff和weather.nominal.arff,前者有两个属性使用具体的连续型数值,后者全部都使用标称型属性。天气数据集列举了在何种天气条件下可以进行体育运动,数据集中的样本由五个属性值来表示,通过测量不同天气的四个指标得到样本。天气问题的四个指标是:天气趋势(outlook)、温度(temperature)、湿度(humidity)和刮风(windy)。最后一个属性表示样本的类别,即在四个天气指标的前提下得到是否可运动(play)的结论。
天气问题仅有14个样本,表1.3是天气问题的简单形式,四个属性和一个目标属性都采用标称符号来表示,而不采用具体数值。其中,天气趋势的属性值分别为sunny(晴)、overcast(多云)和rainy(雨);温度的属性值分别为hot(热)、mild(温暖)和cool(凉爽);湿度的属性值分别为high(高)和normal(正常);刮风的属性值分别为true(真)和false(假);是否可运动的属性值分别为yes(是)和no(否)。
表1.3 weather.nominal.arff的天气数据
机器学习的一个目标就是要找出数据的内在关系,本例中,就是要得到在什么天气情况下可运动的规则。然后,根据这个规则,对给定的新的天气情况,例如:
outlook = sunny and humidity = high then play = ?
给出是否可运动的判断。
表1.4是天气问题的稍微复杂一点的形式。其中,温度和湿度两个属性的数据类型是连续的数值型。因为并不是全部属性都是数值型,因此称为混合属性问题。如果全部属性都是数值型,则称为数值属性问题。
表1.4 weather.numeric.arff的天气数据
显然,如果包含了数值型属性,学习方案可能需要对此类属性建立不等式,因此,得到包含数值测试的规则比较复杂。
1.5.2 鸢尾花
鸢尾花是鸢尾属植物,是一种草本开花植物的统称。鸢尾花只有三枚花瓣,其余外围的那三瓣乃是保护花蕾的花萼,只是由于这三枚瓣状花萼长得酷似花瓣,以致常常以假乱真,令人难于辨认。其英文名iris为“彩虹”之意,暗指鸢尾花色彩绚丽如同彩虹。iris是非常著名的用于模式识别的数据集,该数据集于1936年由R. A. Fisher创建,Fisher的论文也成为经典,直到今天还经常被引用。鸢尾花原始数据集位于网站http://archive.ics.uci.edu/ml/datasets/Iris。网站由美国加州大学欧文分校(University of California at Irvine,UCI)维护,UCI数据集经常用作比较数据挖掘算法的基准。
鸢尾花数据集包括三个类别,即Iris setosa(山鸢尾)、Iris versicolor(变色鸢尾)和Iris virginica(维吉尼亚鸢尾),每个类别各有50个实例。数据集定义了五个属性:sepal length(花萼长)、sepal width(花萼宽)、petal length(花瓣长)、petal width(花瓣宽)、class(类别)。最后一个属性一般作为类别属性,其余属性都是数值,单位为cm(厘米)。
表1.5摘录自鸢尾花数据集。该数据集就是要根据鸢尾花的花萼和花瓣数据,找出不同类别花的特点分布情况,揭示出其中隐藏的规律性。
表1.5 鸢尾花数据集
1.5.3 CPU
CPU数据集的属性和类别属性都是数值型,训练目标是学习CPU的几个相关属性与其处理能力的关联,总共有209条不同的CPU配置。Weka提供两个数据文件,即cpu.arff和cpu.with.vendor.arff,区别在于前者不带CPU厂商(vendor)信息,后者的第一个属性就是厂商。
CPU数据集如表1.6所示。其中,MYCT属性代表周期时间(单位为ns),MMIN和MMAX属性分别是主存的最小值和最大值(单位为KB),CACH属性是高速缓存Cache(单位为KB),CHMIN和CHMAX属性分别是通道数(Channels)的最小值和最大值,class属性是体现CPU性能的类别属性。
表1.6 CPU性能数据
处理上述连续数值型预测值的传统方式是线性回归,将预测结果写为每个属性值的线性之和,为每个属性加上适当的权重。例如:
class = -56.075 + 0.0491 * MYCT + 0.0152 * MMIN + 0.0056 * MMAX + 0.6298 * CACH + 1.4599 * CHMAX
1.5.4 玻璃数据集
玻璃数据集的全称为玻璃识别数据库(Glass Identification Database),创建者为美国法医科学服务(U.S. Forensic Science Service)的B. German,其中包含七种类型的玻璃数据。玻璃通过其折射率和所包含的化学元素进行描述,目的是基于这些特征对不同类型的玻璃进行分类。该数据集已被UCI收集,成为在网络上免费提供的UCI数据集。Weka以glass.arff文件提供该数据集。
数据集中的实例有214个,全部属性都是连续数值,属性加上类别属性一共10个,没有缺失值。
下面列出各属性信息。
(1)RI:折射率(refractive index)。
(2)Na:钠(sodium)(测量单位:氧化物的相对重量%,与属性(3)~(9)相同)。
(3)Mg:镁(magnesium)。
(4)Al:铝(aluminum)。
(5)Si:硅(silicon)。
(6)K:钾(potassium)。
(7)Ca:钙(calcium)。
(8)Ba:钡(barium)。
(9)Fe:铁(iron)。
(10)玻璃类型:(类别属性)。
● 1:building_windows_float_processed(浮动处理过的建筑玻璃)。
● 2:building_windows_non_float_processed(未浮动处理的建筑玻璃)。
● 3:vehicle_windows_float_processed(浮动处理过的车用玻璃)。
● 4:vehicle_windows_non_float_processed(未浮动处理的车用玻璃),本数据库未包含。
● 5:containers(容器)。
● 6:tableware(餐具)。
● 7:headlamps(前大灯)。
1.5.5 美国国会投票记录
现在考虑一个现实世界的数据集vote.arff,该数据集收集了1984年美国国会议员投票信息,原始数据可以在UCI机器学习库找到,Weka自带该数据集以供研究。数据集中包括435个实例,每个实例是一个国会议员的信息,其中有267名民主党及168名共和党。全部属性都是二元属性,总共有16个属性,外加他们的党派作为类别属性。
属性信息如下。
(1)Class Name(类别名称):2(democrat民主党,republican共和党)。
(2)handicapped-infants(残疾婴幼儿):2(y,n)。
(3)water-project-cost-sharing(水项目的费用分摊):2(y,n)。
(4)adoption-of-the-budget-resolution(采纳预算决议):2(y,n)。
(5)physician-fee-freeze(冻结医疗费):2(y,n)。
(6)el-salvador-aid(EL-萨尔瓦多援助):2(y,n)。
(7)religious-groups-in-schools(学校的宗教群体):2(y,n)。
(8)anti-satellite-test-ban(反卫星试验禁令):2(y,n)。
(9)aid-to-nicaraguan-contras(援助尼加拉瓜反政府):2(y,n)。
(10)mx-missile(洲际弹道导弹):2(y,n)。
(11)immigration(移民):2(y,n)。
(12)synfuels-corporation-cutback(削减合成燃料公司):2(y,n)。
(13)education-spending(教育支出):2(y,n)。
(14)superfund-right-to-sue(超级基金的诉讼权利):2(y,n)。
(15)crime(犯罪):2(y,n)。
(16)duty-free-exports(出口免税):2(y,n)。
(17)export-administration-act-south-africa(南非出口管理法案):2(y,n)。
注意: 该数据集中带有一些缺失值,使用“?”来表示。
1.5.6 乳腺癌数据集
本乳腺癌数据集不是从UCI获得,而是从南斯拉夫卢布尔雅那大学医疗中心乳腺癌肿瘤研究所获得,提供者为M. Zwitter和M. Soklic。
数据集中一共有286个实例,9个属性外加1个类别属性。属性信息如下。
(1)Class(是否复发,类别属性):no-recurrence-events(无复发),recurrence-events(复发)。
(2)age(年龄):10-19,20-29,30-39,40-49,50-59,60-69,70-79,80-89,90-99。
(3)menopause(绝经):lt40(小于40岁),ge40(大于等于40岁),premeno(未绝经)。
(4)tumor-size(肿瘤大小):0-4,5-9,10-14,15-19,20-24,25-29,30-34,35-39,40-44,45-49,50-54,55-59。
(5)inv-nodes(受侵淋巴结数):0-2,3-5,6-8,9-11,12-14,15-17,18-20,21-23,24-26,27-29,30-32,33-35,36-39。
(6)node-caps(有无结节帽):yes(有),no(无)。
(7)deg-malig(肿瘤恶性程度):1,2,3。
(8)breast(肿块位置):left(左),right(右)。
(9)breast-quad(肿块所在象限):left-up(左上),left-low(左下),right-up(右上),right-low(右下),central(中部)。
(10)irradiat(是否放疗):yes(是),no(否)。
数据集中,node-caps和breast-quad属性有缺失值,node-caps属性有8个缺失值,breast-quad属性有1个缺失值,缺失值都用“?”表示。
类别属性的分布为:201个实例无复发,85个实例复发。