1.4 数据分析的常规分析流程
我们再来回顾一下数据分析的概念,数据分析是指分析人员借助合适的工具帮助公司发现数据背后隐藏的信息,对这些隐藏的信息进行挖掘,然后帮助公司改善其业务发展。基于此,数据分析主要分为以下几个流程。
1.4.1 熟悉工具
数据分析的第一步就是熟悉工具,俗话说得好,“工欲善其事,必先利其器”。同样地,只有对工具掌握得足够熟练,才能更好地处理数据、分析数据。
1.4.2 明确目的
做任何事情都需要明确目的,数据分析也一样,首先我们要明确数据分析的目的,即希望通过数据分析得出什么结果。比如,希望通过数据分析找出流失用户都有哪些特征、销量上涨/下滑的原因。
1.4.3 获取数据
明确了目标以后我们就要获取数据,在获取数据之前还需要明确以下几点:
• 需要获取什么指标;
• 需要获取什么时间段的数据;
• 这些数据都存放在哪个数据库、哪张表中;
• 如何获取数据,是自己写SQL代码还是可以直接从公司ERP系统中下载。
1.4.4 熟悉数据
获取数据以后,我们需要熟悉数据,熟悉数据就是看一下有多少数据,这些数据都是什么类型的,是类别型还是数值型的,每个指标大概都有哪些值,这些数据是否能够满足我们的需求,如果不能,那么还需要获取哪些数据。
获取数据和熟悉数据是一个双向进行的过程,而且贯穿在整个数据分析过程中。
1.4.5 处理数据
我们获取到的数据是原始数据,这些数据中一般都会有一些特殊数据的存在,所以我们需要对这些数据进行预处理,常见的特殊数据主要有以下几种:
• 异常数据;
• 重复数据;
• 缺失数据;
• 测试数据。
对重复数据、测试数据,我们一般都是进行删除处理。
如果缺失数据的缺失比例高于30%,我们会选择放弃这个指标,即进行删除处理;而对缺失比例低于30%的指标,我们一般进行填充处理,可以使用0,也可以使用平均值、众数等进行填充。
对异常数据,我们需要结合具体业务进行处理,如果读者是一个电商平台的数据分析师,要分析并找出平台上的刷单商户,这个时候异常值是读者要重点研究的对象,假如要分析用户的年龄,那么小于0的数据就要删除。
1.4.6 分析数据
分析数据主要围绕前面几个数据分析指标进行,在分析过程中采取的一种方法就是下钻法,比如,我们发现某一天的销量突然上涨/下滑,那么我们会去看是哪个地区的销量出现上涨/下滑,进而再看是哪个品类、哪个产品的销量出现上涨/下滑,这样层层下钻,最后找到问题发生的真正原因。
1.4.7 得出结论
通过对数据进行分析,我们就可以得出结论。
1.4.8 验证结论
有时候看到的不一定是对的,即通过分析数据得出的结论不一定正确,所以需要和实际业务相联系,验证得出的结论是否正确。
比如,你在进行新媒体的数据分析,通过分析发现情感类的文章更容易引起读者共鸣,点赞量、转发量更高,这只是你的分析结论,然后你需要验证你的结论是否正确,这时你可以再写几篇情感类文章来验证,看是否点赞量和转发量更高。
1.4.9 展现结论
我们在分析出结论,并且结论得到验证以后就可以把该结论拿给相关人员去看,你的领导或者业务人员就需要考虑如何展现结果,以什么样的形式展现,即数据可视化。