前言
为什么要写这本书
本书既是一本数据分析的书,也是一本Excel数据分析的书,同时还是一本Python数据分析的书。在互联网上,无论是搜索数据分析,还是搜索Excel数据分析,亦或是搜索Python数据分析,我们都可以找到很多相关的图书。既然已经有这么多同类题材的书了,为什么我还要写呢?因为在我准备写这本书时,还没有一本把数据分析、Excel数据分析、Python数据分析这三者结合在一起的书。
为什么我要把它们结合在一起写呢?那是因为,我认为这三者是一个数据分析师必备的技能,而且这三者本身也是一个有机统一体。数据分析让你知道怎么分析以及分析什么;Excel和Python是你在分析过程中会用到的两个工具。
为什么要学习Python
既然Python在数据分析领域是一个和Excel类似的数据分析工具,二者实现的功能都一样,为什么还要学Python,把Excel学好不就行了吗?我认为学习Python的主要原因有以下几点。
1.在处理大量数据时,Python的效率高于Excel
当数据量很小的时候,Excel和Python的处理速度基本上差不多,但是当数据量较大或者公式嵌套太多时,Excel 就会变得很慢,这个时候怎么办呢?我们可以使用Python,Python 对于海量数据的处理效果要明显优于 Excel。用Vlookup 函数做一个实验,两个大小均为23MB的表(6万行数据),在未作任何处理、没有任何公式嵌套之前,Excel中直接在一个表中用Vlookup函数获取另一个表的数据需要20秒(我的计算机性能参数是I7、8GB内存、256GB固态硬盘),配置稍微差点的计算机可能打开这个表都很难。但是用Python实现上述过程只需要580毫秒,即0.58秒,是Excel效率的34倍。
2.Python可以轻松实现自动化
你可能会说Excel的VBA也可以自动化,但是VBA主要还是基于Excel内部的自动化,一些其他方面的自动化 VBA 就做不了,比如你要针对本地某一文件夹下面的文件名进行批量修改,VBA就不能实现,但是Python可以。
3.Python可用来做算法模型
虽然你是做数据分析的,但是一些基础的算法模型还是有必要掌握的,Python可以让你在懂一些基础的算法原理的情况下就能搭建一些模型,比如你可以使用聚类算法搭建一个模型去对用户进行分类。
为什么要对比Excel学习Python
Python虽然是一门编程语言,但是在数据分析领域实现的功能和Excel的基本功能一样,而Excel又是大家比较熟悉、容易上手的软件,所以可以通过Excel数据分析去对比学习Python数据分析。对于同一个功能,本书告诉你在Excel中怎么做,并告诉你对应到Python中是什么样的代码。例如数值替换,即把一个值替换成另一个值,对把“Excel”替换成“Python”这一要求,在Excel中可以通过鼠标点选实现,如下图所示。
在Python中则通过具体的代码实现,如下所示。
本书将数据分析过程中涉及的每一个操作都按这种方式对照讲解,让你从熟悉的Excel操作中去学习对应的Python实现,而不是直接学习Python代码,大大降低了学习门槛,消除了大家对代码的恐惧心理。这也是本书的一大特色,也是我为什么要写本书的最主要原因,就是希望帮助你不再惧怕代码,让你可以像学Excel数据分析一样,轻松学习Python数据分析。
本书的学习建议
要想完全掌握一项技能,你必须系统学习它,知道它的前因后果。本书不是孤立地讲Excel或者Python中的操作,而是围绕整个数据分析的常规流程:熟悉工具—明确目的—获取数据—熟悉数据—处理数据—分析数据—得出结论—验证结论—展示结论,告诉你每一个过程都会用到什么操作,这些操作用Excel和Python分别怎么实现。这样一本书既是系统学习数据分析流程操作的说明书,也是数据分析师案头必备的实操工具书。
大家在读第一遍的时候不用记住所有函数,你是记不住的,即使你记住了,如果在工作中不用,那么很快就会忘记。正确的学习方式应该是,先弄清楚一名数据分析师在日常工作中对工具都会有什么需求(当然了,本书的顺序是按照数据分析的常规分析流程来写的),希望工具帮助你达到什么样的目的,罗列好需求以后,再去研究工具的使用方法。比如,要删除重复值,就要明确用Excel如何实现,用Python又该如何实现,两种工具在实现方式上有什么异同,这样对比次数多了以后,在遇到问题时,你自然而然就能用最快的速度选出最适合的工具了。
数据分析一定是先有想法然后考虑如何用工具实现,而不是刚开始就陷入记忆工具的使用方法中。
本书写了什么
本书分为三篇。
入门篇:主要讲数据分析的一些基础知识,介绍数据分析是什么,为什么要做数据分析,数据分析究竟在分析什么,以及数据分析的常规流程。
实践篇:围绕数据分析的整个流程,分别介绍每一个步骤中的操作,这些操作用Excel如何实现,用Python又如何实现。本篇内容主要包括:Python环境配置、Python基础知识、数据源的获取、数据概览、数据预处理、数值操作、数据运算、时间序列、数据分组、数据透视表、结果文件导出、数据可视化等。
进阶篇:介绍几个实战案例,让你体会一下在实际业务中如何使用Python。具体来说,进阶篇的内容主要包括,利用Python实现报表自动化、自动发送电子邮件,以及在不同业务场景中的案例分析。此外,还补充介绍了NumPy数组的一些常用方法。
本书适合谁
本书主要适合以下人群。
● Excel已经用得熟练,想学习Python来丰富自己技能的数据分析师。
● 刚入行对Excel和Python都不精通的数据分析师。
● 其他常用Excel却想通过学习Python提高工作效率的人。
Python 虽然是一门编程语言,但是它并不难学,不仅不难学,而且很容易上手,这也是Python深受广大数据从业者喜爱的原因之一,因此大家在学习Python之前首先在心里告诉自己一句话,那就是Python并没有那么难。
致谢
感谢我的父母,是他们给了我受教育的机会,才有了今天的我。
感谢我的公众号的读者朋友们,如果不是他们,那么我可能不会坚持撰写技术文章,更不会有这本书。
感谢慧敏让我意识到写书的意义,从而创作本书,感谢电子工业出版社为这本书忙碌的所有人。
感谢我的女朋友,在写书的这段日子里,我几乎把所有的业余时间全用在了写作上,很少陪她,但她还是一直鼓励我,支持我。
读者服务
轻松注册成为博文视点社区用户(www.broadview.com.cn),扫码直达本书页面。
● 提交勘误:您对书中内容的修改意见可在 提交勘误 处提交,若被采纳,将获赠博文视点社区积分(在您购买电子书时,积分可用来抵扣相应金额)。
● 交流互动:在页面下方 读者评论 处留下您的疑问或观点,与我们和其他读者一同学习交流。
页面入口:http://www.broadview.com.cn/35793