1.3 数据分析究竟在分析什么
数据分析的重点是分析,而不是使用什么工具,那么我们究竟该分析什么?主要可以从以下几个方面进行。
1.3.1 总体概览指标
总体概览指标又称为统计绝对数,是反映某一数据指标的整体规模大小、总量多少的指标。
比如当日销售额60万元、当日订单量2万单、购买人数1.5万人,这些都是一些总体概览指标,用来反映某个时间段内某项业务的某些指标的绝对量。
我们把经常关注的总体概览指标称为关键性指标,这些指标的数值将会直接决定公司的盈利情况。
1.3.2 对比性指标
对比性指标是说明现象之间数量对比关系的指标,常见的就是同比、环比、差指标。
同比是相邻时间段内某一共同时间点内指标的对比,环比是相邻时间段内指标的对比,差是两个时间段内的指标直接做差,差的绝对值是两个时间段内指标的变化量。
同比的计算公式如下:
环比的计算公式如下:
比如,当日与昨天、本周与上周、本月与上月比较都是环比;当日与上周同期、本周与上月同期、本月与去年同期比较都是同比。
1.3.3 集中趋势指标
集中趋势指标是用来反映某一现象在一定时间段内所达到的一般水平。用平均指标来表示,比如,平均工资水平、平均年龄、平均房价等。平均指标分为数值平均和位置平均。
数值平均是统计数列中所有变量值平均的结果,有普通平均数和加权平均数两种。
位置平均基于某种特殊位置或者普遍出现的标志值作为整体一般水平的代表值,有众数、中位数两种。
众数是研究总体中出现次数最多的变量值,它是总体中最普遍的值,因此,可以用来代表一般水平。如果数据可以分为多组,则为每组找出一个众数。需要注意的是,众数只有在总体内单位充分多时才有意义。
中位数是指将总体中各单位标志值按大小顺序进行排列,处于中间位置的变量值就是中位数。因为处于中间位置,有一半变量值大于该值,有一半变量值小于该值,所以可以用这样的中等水平来表示整体的一般水平。
1.3.4 离散程度指标
离散程度指标是用来表示总体分布的离散(波动)情况的指标,如果这个指标较大,则说明数据波动比较大,反之则说明数据相对比较稳定。
全距(又称极差)、方差、标准差等几个指标用来衡量数值的离散情况。
全距(极差):通过平均数可以知道某一指标的集中趋势,但是无法知道数据的变动情况。比如,网上报道×××公司员工的平均月薪为7万元,这个7万元是什么意思呢?是大多数员工的工资是7万元左右,还是少数几个高管的工资特别高,导致平均值特别高呢?如果单从平均值看是无法获取更多信息的。所以引入了全距,全距的计算方法是用数据集中的最大数(上界)减去数据集中的最小数(下界)。
全距存在如下两个问题。
(1)容易受异常值影响。
(2)全距只表示了数据的宽度,但是没有描述清楚数据上下界之间的分布形态。
对问题(1),我们引入四分位数的概念。四分位数将一些数值从小到大排列,然后一分为四,最小的四分位数为下四分位数,最大的四分位数为上四分位数,中间的四分位数为中位数。
对问题(2),我们引入了方差和标准差两个概念来度量数据的分散性。
方差是每个数值与平均值距离的平方的平均值,方差越小说明各数值与平均值之间的差距越小,数值越稳定。方差的计算公式如下:
式中,X为一组数据中的每个值,μ为总体平均值,N为总体数值个数。
标准差是方差的开方。表示数值与平均值距离的平均值。读者可能会想有方差了为什么还要使用标准差呢?因为标准差与实际指标的单位是一致的,更具有实际意义。比如,我们要衡量某城市的工资收入波动情况,实际的工资都是以元为单位的,标准差也是以元为单位的,表示在多少元的范围内波动。但是,如果用方差,元的平方就没有实际意义了。
1.3.5 相关性指标
上面提到的几个维度是对数据整体的情况进行描述的,但是我们有时候想看一下数据整体内的变量之间存在什么关系,一个变量变化时会引起另一个变量怎样的变化,我们把用来反映这种关系的指标称为相关系数,常用字母r来表示:
式中,Cov(X,Y)为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差。
关于相关系数需要注意以下几点:
• r的范围为[-1,1];
• r的绝对值越大,表示相关性越强;
• r的正负代表相关性方向,正代表正相关,负代表负相关。
1.3.6 相关与因果
相关关系不等于因果关系,相关只能说明两件事情有关联,而因果关系,是说明一件事情导致了另一件事情的发生。读者不要把这两个关系混淆。
比如,啤酒和尿布是具有相关关系的,但是,它们不具有因果关系。而流感疾病和关键词检索量上涨是具有因果关系的。