大话数据科学:大数据与机器学习实战(基于R语言)
上QQ阅读APP看书,第一时间看更新

2.3 R数据对象的属性与结构

在《大话统计学》中定义数据的衡量尺度有:定比尺度、定距尺度、定序尺度、定类尺度。在R数据对象的属性有:数值、整数、因子、逻辑和字符串。数据对象结构有:向量、因子、矩阵、数据框、数组、列表、时间序列等,如图2-2所示。

图2-2 R数据对象的属性与结构

2.3.1 数值

数值(numeric):下列命令a,a1是变量,分别指定为 5,3.5。

     > a <- 5#创建数据对象a
   > a1 <- 3.5

2.3.2 整数

整数(integer):下列命令 b,b2是变量,分别指定为整数5,2。b1是数值。

2.3.3 字符串

字符串(character):引号要用 " ",不能用“ ”(如果用Word编程)。

下列命令c,c1是变量,分别指定为字符串。

2.3.4 逻辑

逻辑(logical):TRUE =T = 1,FALSE = F = 0。下列命令d是变量,指定为TRUE。

2.3.5 向量

向量(vector)没有维度,不是行向量1×n,也不是列向量n×1,如图2-3所示。

图2-3 向量

向量每个元素有相同的格式,数值或符串符。下列命令e,f,g,a是变量,指定为向量。

2.3.6 因子

因子(factor)是定类变量(无顺序)或定序变量(有顺序),分为有序因子和无序因子。

下列命令E,g是向量,F,G,H,h是变量,指定为因子。H,h改为有序因子。

如图2-4所示。

图2-4 因子F

如图2-5所示。

图2-5 有序因子h

2.3.7 矩阵

矩阵(matrix)的维度是m×nm是行的数目,n是列的数目,每个元素有相同的格式,通常都是数值,所以两个矩阵可以相加或相乘,相乘有如下两种。

图2-6 矩阵

2.3.8 数据框

数据框(data frame)是大数据R语言最常用的数据结构。数据框的数据常用命名为“df”。数据框每个列(变量)的样本数目相同,相同列的数据属性相同,不同列的数据可以有不同属性,如下例(示意图如图2-7所示)k有4行3列:X1的属性是字符串因子,X2和X3的属性是数值。

图2-7 数据框示意

2.3.9 数组

数组(array)是多维的矩阵。

1.1.7节商业智能OLAP多维分析:向上钻取(roll up)、向下钻取(drill down)、切片(slice)和切块(dice)等数据结构应用是数组数据。

如下代码示意图如图2-8所示。

图2-8 数组示意

2.3.10 列表

列表(list)可以将不同结构的数据合并,如图2-9所示。

图2-9 列表示意

2.3.11 时间序列

示意代码如下:

2.3.12 访问数据类型和结构

统计学和大数据最重要的是查看数据的类型和结构。

一个数据结构在不同的访问中,可能有不同的结果。

2.3.13 遗失值

NA表示missing value,NaN表示not a number,NULL表示empty object。

2.3.14 读入Excel CSV数据

在Excel中保存文件,选择“另存为”保存类型,选择“CSV(逗号分隔)”,即可保存AB.csv文件,可使用R语言打开。

2.3.15 编辑数据

2.3.16 保存Excel CSV数据

     > write.csv(AB, fi le = "C:/R/AB.csv")

2.3.17 数据输入窗口

打开窗口输入数据。

     > X <- data.frame(X1=character(0), X2= character(0), X3=numeric(0))
   > X <-edit(X)  # X1, X2当作因子 factor

2.3.18 R的数据结构和函数表

R的数据结构和函数表如表2-2所示。

表2-2 R的数据结构和函数