深入浅出Python数据分析
上QQ阅读APP看书,第一时间看更新

1.1.4 大数据与厚数据

无论是统计分析还是数据挖掘,数据都扮演着决定性的角色。数据量越大,其所支持的分析模型越完善。如果数据的可用性太低,那么模型再厉害也无法充分发挥作用。所以,数据有两种指标:量与质。

我们把巨量的数据称为大数据,简单的定义如下:当抽样的数量大到接近“母体”时,这类数据就可以称为大数据,带来的效益是大幅降低因为抽样产生的误差。大数据具备Volume(数据量)、Variety(多元性)、Velocity(即时性)的3V特性。

为什么巨量数据是一件重要的事情?迈尔·舍恩伯格在《大数据》一书中这样说明:“通过更完整的数据分析,通过接近母体的数据量,可以大幅降低传统抽样所产生的统计误差。”换言之,实现巨量数据需要付出更多、更快的运算机器,所以巨量数据与计算机技术的进步是相辅相成的。不过,数据分析也不尽然要盲目地追求“巨量”这件事。大企业能享有巨量数据的规模优势,但小团队也有成本及创新上的优势,因为速度够快、灵活度高,就算维持小规模,还是能够蓬勃发展的。重要的是,能否掌握数据时代的思维与创新。

从数据可用性角度来看数据,数据分析领域还有另一个值得关注的名词—厚数据。厚数据由美国社会学者克利福德·格尔茨提出,是指利用人类学定性研究法来定义的数据,数据隐含大量感性的内容。少量的数据能够记载更多的意义,也就是说数据本身具有较大的信息量。厚数据不同于大数据的量化,更多的是数据的质性。