人人可做数据分析:从数据分析到数据驱动运营
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第2章 数据采集、存储与整理

数据分析最花时间的是哪个阶段?有人说是业务分析阶段。其实业务分析阶段,也就是把业务问题转化成数据分析问题的阶段,这个是“难者不会,会者不难”的阶段。若不会,就算花再多的时间也难以搞清楚;若会,业务分析阶段就不会成为数据分析的瓶颈。其实,收集需要的数据所花费的时间最长。一方面,大多数原始数据并不能直接拿来用,存在缺失值和异常值,我们将其称为“脏数据”(dirty data)。脏数据通过清洗和整理后得到干净的数据。另一方面,一个模型需要的数据可能来自多个渠道,这就要求把多个渠道的数据关联在一起,形成一张大的宽表,我们将其称为“主表”(master table)。

这里说的“收集需要的数据”包括数据的采集、整理与存储。注意是“收集需要的数据”,而不是“收集数据”。“收集数据”指的是数据采集,而“收集需要的数据”还包含数据的整理和存储等过程。