对比Excel,轻松学习Python数据分析(入职数据分析师系列)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.4 数据分析的常规流程

我们再来回顾一下数据分析的概念,数据分析是借助合适的工具去帮助公司发现数据背后隐藏的信息,对这些隐藏的信息进行挖掘,从而促进业务发展。基于此,可以将数据分析分为以下几个步骤。

1.4.1 熟悉工具

数据分析是利用合适的工具和合适的理论挖掘隐藏在数据背后的信息,因此数据分析的第一步就是要熟悉工具。工欲善其事,必先利其器,只有熟练使用工具,才能更好地处理数据、分析数据。

1.4.2 明确目的

做任何事情都要目的明确,数据分析也一样,首先要明确数据分析的目的,即希望通过数据分析得出什么。例如,希望通过数据分析发现流失用户都有哪些特征,希望通过数据分析找到销量上涨的原因。

1.4.3 获取数据

目的明确后我们就要获取数据,在获取数据之前还需要明确以下几点。

● 需要什么指标。

● 需要什么时间段的数据。

● 这些数据都存在哪个数据库或哪个表中。

● 怎么提取,是自己写Sql还是可以直接从ERP系统中下载。

1.4.4 熟悉数据

拿到数据以后,我们要去熟悉数据,熟悉数据就是看一下有多少数据,这些数据是类别型还是数值型的;每个指标大概有哪些值,这些数据能不能满足我们的需求,如果不够,那么还需要哪些数据。

获取数据和熟悉数据是一个双向的过程,当你熟悉完数据以后发现当前数据维度不够,那就需要重新获取;当你获取到新的数据以后,需要再去熟悉,所以获取数据和熟悉数据会贯穿在整个数据分析过程中。

1.4.5 处理数据

获取到的数据是原始数据,这些数据中一般会有一些特殊数据,我们需要对这些数据进行提前处理,常见的特殊数据主要有以下几种。

● 异常数据。

● 重复数据。

● 缺失数据。

● 测试数据。

对于重复数据、测试数据我们一般都是做删除处理的。

对于缺失数据,如果缺失比例高于30%,那么我们会选择放弃这个指标,即做删除处理。而对于缺失比例低于30%的指标,我们一般进行填充处理,即使用0、均值或者众数等进行填充。

对于异常数据,需要结合具体业务进行处理,如果你是一个电商平台的数据分析师,你要找出平台上的刷单商户,那么异常值就是你要重点研究的对象了;假如你要分析用户的年龄,那么一些大于100或者是小于0的数据,就要删除。

1.4.6 分析数据

分析数据主要围绕上节介绍的数据分析指标展开。在分析过程中经常采用的一个方法就是下钻法,例如当我们发现某一天的销量突然上涨/下滑时,我们会去看是哪个地区的销量上涨/下滑,进而再看哪个品类、哪个产品的销量出现上涨/下滑,层层下钻,最后找到问题产生的真正原因。

1.4.7 得出结论

通过分析数据,我们就可以得出结论。

1.4.8 验证结论

有的时候即使是通过数据分析出来的结论也不一定成立,所以我们要把数据分析和实际业务相联系,去验证结论是否正确。

例如,做新媒体数据分析,你通过分析发现情感类文章的点赞量、转发量更高,这只是你的分析结论,但是这个结论正确吗?你可以再写几篇情感类文章验证一下。

1.4.9 展示结论

我们在分析出结论,并且结论得到验证以后就可以把这个结论分享给相关人员,例如领导或者业务人员。这个时候就需要考虑如何展示结论,以什么样的形式展现,这就要用到数据可视化了。