3.1 初识Pandas
本节主要简单了解Pandas及如何安装Pandas,通过“牛刀小试”使读者能够快速体验Pandas。
3.1.1 Pandas概述
Pandas是数据分析三大剑客之一,是Python的核心数据分析库,它提供了快速、灵活、明确的数据结构,能够简单、直观、快速地处理各种类型的数据,具体介绍如下所示。
Pandas能够处理以下类型的数据。
与SQL或Excel表类似的数据。
有序和无序(非固定频率)的时间序列数据。
带行、列标签的矩阵数据。
任意其他形式的观测、统计数据集。
Pandas提供的两个主要数据结构Series(一维数组结构)与DataFrame(二维数组结构),可以处理金融、统计、社会科学、工程等领域里的大多数典型案例,并且Pandas是基于NumPy开发的,可以与其他第三方科学计算库完美集成。
Pandas的功能很多,它的优势如下。
处理浮点与非浮点数据里的缺失数据,表示为NaN。
大小可变,例如插入或删除DataFrame等多维对象的列。
自动、显式数据对齐,显式地将对象与一组标签对齐,也可以忽略标签,在Series、DataFrame计算时自动与数据对齐。
强大、灵活的分组统计(groupby)功能,即数据聚合、数据转换。
把Python和NumPy数据结构里不规则、不同索引的数据轻松地转换为DataFrame对象。
智能标签,对大型数据集进行切片、花式索引、子集分解等操作。
直观地合并(merge)、连接(join)数据集。
灵活地重塑(reshape)、透视(pivot)数据集。
成熟的导入、导出工具,导入文本文件(CSV等支持分隔符的文件)、Excel文件、数据库等来源的数据,导出Excel文件、文本文件等,利用超快的HDF5格式保存或加载数据。
时间序列:支持日期范围生成、频率转换、移动窗口统计、移动窗口线性回归、日期位移等时间序列功能。
综上所述,Pandas是处理数据最理想的工具。
3.1.2 安装Pandas
下面介绍两种安装Pandas的方法。
1.通过PyPI的pip工具安装
在系统搜索框中输入cmd,单击命令提示符,打开命令提示符窗口,在命令提示符后输入安装命令。
Pandas可以通过PyPI的pip工具安装,安装命令如下:
pip install Pandas
知识胶囊
pip是开发人员经常使用,却又不知来历的一个工具。下面简单介绍一下它。pip是一个现代的、通用的Python包管理工具,英文全称是python install packages。
PyPI(Python Package Index)是Python官方的第三方库的仓库,所有人都可以下载第三方库或上传自己开发的库到PyPI。PyPI可帮助我们查找和安装Python社区开发和共享的软件。PyPI推荐使用pip包管理器来下载第三方库,Python 2.7.9以后的版本已经内置了pip,所以不需要安装。
2.通过PyCharm开发环境安装
除了通过pip工具安装以外,还可以通过PyCharm开发环境安装。运行PyCharm,选择File→Settings命令,打开Settings窗口,选择Project Interpreter选项,然后单击+(添加)按钮,如图3.1所示。这里要注意,在Project Interpreter选项中应选择当前工程项目使用的Python版本。
图3.1 Settings窗口
单击+(添加)按钮,打开Available Packages窗口,在搜索文本框中输入需要添加的模块名称,如pandas,然后在列表中选择需要安装的模块,如图3.2所示。单击Install Package按钮即可实现Pandas模块的安装。
图3.2 在PyCharm开发环境中安装Pandas模块
另外,还需要注意以下一点:Pandas有一些依赖库。
例如,当通过Pandas读取Excel文件时,如果只安装Pandas模块,就会出现如图3.3所示的错误提示,意思是缺少依赖库xlrd;当通过Pandas导出Excel文件时,也同样会出现缺少依赖库xlwt的错误提示,如图3.4所示。
图3.3 缺少依赖库xlrd
图3.4 缺少依赖库xlwt
解决办法:安装xlrd模块和xlwt模块。方法分别如下。
使用安装命令pip install xlrd或通过PyCharm开发环境安装xlrd模块。
使用安装命令pip install xlwt或通过PyCharm开发环境安装xlwt模块。
由于我们后面举例经常会用到这两项操作,因此需要同时安装xlrd和xlwt两个模块。
3.1.3 小试牛刀——轻松导入Excel数据
了解了Pandas模块,接下使用Pandas导入Excel数据。
【示例01】 导入英超射手榜数据。(示例位置:资源包\MR\Code\03\01)
以英超射手榜数据为例,导入英超射手榜数据,按照惯例首先导入模块,然后编写代码。具体步骤如下所示。
(1)运行Spyder,在代码编辑窗口(Editor)编写如下代码:
01 import pandas as pd #导入pandas 模块 02 df=pd.read_excel('data.xlsx') #读取Excel 文件 03 df1=df.head() #显示前5 条数据
(2)首先按F5键(或单击工具栏运行按钮)运行程序,然后通过变量浏览窗口(Variable explorer)查看运行结果,如图3.5所示。
图3.5 变量浏览窗口
双击表格中的df查看所有数据,双击df1查看前5条数据,结果如图3.6所示。
还可以通过在控制台输入变量名输出运行结果。例如,查看前5条数据,首先运行程序,然后在控制台输入df1并按Enter键,即可输出运行结果,如图3.7所示。
图3.6 英超射手榜TOP 5
图3.7 在控制台输出运行结果
另外,还一种方法是在编写代码过程中,通过print()函数在控制台直接输出运行结果。例如,查看前5条数据,代码如下:
print(df.head())
以上介绍了3种方法输出运行结果,可以根据需求选择适合的方法。