3.1 初识Pandas_Python数据分析从入门到精通-QQ阅读男频都市网

上QQ阅读APP看书，第一时间看更新

3.1　初识Pandas

本节主要简单了解Pandas及如何安装Pandas，通过“牛刀小试”使读者能够快速体验Pandas。

3.1.1　Pandas概述

Pandas是数据分析三大剑客之一，是Python的核心数据分析库，它提供了快速、灵活、明确的数据结构，能够简单、直观、快速地处理各种类型的数据，具体介绍如下所示。

Pandas能够处理以下类型的数据。

　与SQL或Excel表类似的数据。

　有序和无序（非固定频率）的时间序列数据。

　带行、列标签的矩阵数据。

　任意其他形式的观测、统计数据集。

Pandas提供的两个主要数据结构Series（一维数组结构）与DataFrame（二维数组结构），可以处理金融、统计、社会科学、工程等领域里的大多数典型案例，并且Pandas是基于NumPy开发的，可以与其他第三方科学计算库完美集成。

Pandas的功能很多，它的优势如下。

　处理浮点与非浮点数据里的缺失数据，表示为NaN。

　大小可变，例如插入或删除DataFrame等多维对象的列。

　自动、显式数据对齐，显式地将对象与一组标签对齐，也可以忽略标签，在Series、DataFrame计算时自动与数据对齐。

　强大、灵活的分组统计（groupby）功能，即数据聚合、数据转换。

　把Python和NumPy数据结构里不规则、不同索引的数据轻松地转换为DataFrame对象。

　智能标签，对大型数据集进行切片、花式索引、子集分解等操作。

　直观地合并（merge）、连接（join）数据集。

　灵活地重塑（reshape）、透视（pivot）数据集。

　成熟的导入、导出工具，导入文本文件（CSV等支持分隔符的文件）、Excel文件、数据库等来源的数据，导出Excel文件、文本文件等，利用超快的HDF5格式保存或加载数据。

　时间序列：支持日期范围生成、频率转换、移动窗口统计、移动窗口线性回归、日期位移等时间序列功能。

综上所述，Pandas是处理数据最理想的工具。

3.1.2　安装Pandas

下面介绍两种安装Pandas的方法。

1．通过PyPI的pip工具安装

在系统搜索框中输入cmd，单击命令提示符，打开命令提示符窗口，在命令提示符后输入安装命令。

Pandas可以通过PyPI的pip工具安装，安装命令如下：

pip install Pandas

知识胶囊

pip是开发人员经常使用，却又不知来历的一个工具。下面简单介绍一下它。pip是一个现代的、通用的Python包管理工具，英文全称是python install packages。

PyPI（Python Package Index）是Python官方的第三方库的仓库，所有人都可以下载第三方库或上传自己开发的库到PyPI。PyPI可帮助我们查找和安装Python社区开发和共享的软件。PyPI推荐使用pip包管理器来下载第三方库，Python 2.7.9以后的版本已经内置了pip，所以不需要安装。

2．通过PyCharm开发环境安装

除了通过pip工具安装以外，还可以通过PyCharm开发环境安装。运行PyCharm，选择File→Settings命令，打开Settings窗口，选择Project Interpreter选项，然后单击+（添加）按钮，如图3.1所示。这里要注意，在Project Interpreter选项中应选择当前工程项目使用的Python版本。

图3.1　Settings窗口

单击+（添加）按钮，打开Available Packages窗口，在搜索文本框中输入需要添加的模块名称，如pandas，然后在列表中选择需要安装的模块，如图3.2所示。单击Install Package按钮即可实现Pandas模块的安装。

图3.2　在PyCharm开发环境中安装Pandas模块

另外，还需要注意以下一点：Pandas有一些依赖库。

例如，当通过Pandas读取Excel文件时，如果只安装Pandas模块，就会出现如图3.3所示的错误提示，意思是缺少依赖库xlrd；当通过Pandas导出Excel文件时，也同样会出现缺少依赖库xlwt的错误提示，如图3.4所示。

图3.3　缺少依赖库xlrd

图3.4　缺少依赖库xlwt

解决办法：安装xlrd模块和xlwt模块。方法分别如下。

　使用安装命令pip install xlrd或通过PyCharm开发环境安装xlrd模块。

　使用安装命令pip install xlwt或通过PyCharm开发环境安装xlwt模块。

由于我们后面举例经常会用到这两项操作，因此需要同时安装xlrd和xlwt两个模块。

3.1.3　小试牛刀——轻松导入Excel数据

了解了Pandas模块，接下使用Pandas导入Excel数据。

【示例01】　导入英超射手榜数据。（示例位置：资源包\MR\Code\03\01）

以英超射手榜数据为例，导入英超射手榜数据，按照惯例首先导入模块，然后编写代码。具体步骤如下所示。

（1）运行Spyder，在代码编辑窗口（Editor）编写如下代码：

01 import pandas as pd               #导入pandas 模块
02 df=pd.read_excel('data.xlsx')      #读取Excel 文件
03 df1=df.head()                      #显示前5 条数据

（2）首先按F5键（或单击工具栏运行按钮）运行程序，然后通过变量浏览窗口（Variable explorer）查看运行结果，如图3.5所示。

图3.5　变量浏览窗口

双击表格中的df查看所有数据，双击df1查看前5条数据，结果如图3.6所示。

还可以通过在控制台输入变量名输出运行结果。例如，查看前5条数据，首先运行程序，然后在控制台输入df1并按Enter键，即可输出运行结果，如图3.7所示。

图3.6　英超射手榜TOP 5

图3.7　在控制台输出运行结果

另外，还一种方法是在编写代码过程中，通过print()函数在控制台直接输出运行结果。例如，查看前5条数据，代码如下：

print(df.head())

以上介绍了3种方法输出运行结果，可以根据需求选择适合的方法。

3.1 初识Pandas

3.1.1 Pandas概述