Python机器学习(原书第3版)
上QQ阅读APP看书,第一时间看更新

1.5 将Python用于机器学习

Python是数据科学中最受欢迎的编程语言,这归功于Python语言有非常多优秀的开发人员,而且其开源社区为数据科学提供了大量有价值的软件库。

对计算密集型任务而言,尽管像Python这样的解释性编程语言的性能赶不上低级编程语言,但是在Fortran和C的基础上研发出的像NumPy和SciPy这样的扩展软件库,可以实现多维数组的快速向量化操作。

机器学习的编程主要用scikit-learn,这是目前最常用且方便使用的开源机器学习软件库。在后面的章节中,当我们关注被称为深度学习的机器学习子领域时,将使用新版本的TensorFlow软件库,利用图形卡,专门训练所谓的深度神经网络。

1.5.1 利用Python Package Index安装Python及其他软件包

Python可用于微软Windows、苹果macOS和开源Linux这三大操作系统,可以从Python官网https://www.python.org下载安装程序以及其相关的文档。

本书的内容可用于Python 3.7或更新的版本,我们建议读者使用可以获得的Python 3最新版本。尽管有些代码示例也可以与Python 2.7兼容,但是官方会停止对Python 2.7的支持,而且大多数的开源软件库已经停止对Python 2.7的支持(https://python3statement.org),因此,我们强烈建议读者使用Python 3.7或者更新的版本。

本书所用的其他软件包可以通过pip程序安装,Python安装程序从Python 3.3起就一直是标准库的一部分。可以在https://docs.python.org/3/installing/index.html上发现更多关于pip的信息。

在成功地安装了Python后,可以在终端上执行pip命令来安装附加包:

026-01

对于已经安装过的软件包可以通过--upgrade选项完成升级:

026-02

1.5.2 采用Anaconda Python发行版和软件包管理器

本书高度推荐由Continuum Analytics发行的Anaconda作为Python的科学计算软件包。免费的Anaconda既可用于商业,也可供企业使用。该软件包括数据科学、数学和工程在内的所有基本Python软件包,并把它们组合在对用户友好的跨平台版本中。可以从https://docs.anaconda.com/anaconda/install/网站下载Anaconda的安装程序,从https://docs.anaconda.com/anaconda/user-guide/getting-started/网站下载Anaconda的快速启动指南。

在成功地安装了Anaconda之后,可以执行下述命令安装其他Python软件包:

027-01

安装过的软件包可以通过执行下述命令升级:

027-02

1.5.3 用于科学计算、数据科学和机器学习的软件包

本书将主要使用NumPy的多维数组来存储和操作数据。偶尔也会用pandas库,该库建立在NumPy之上,可以提供额外的更高级的数据操作工具,使表格数据的操作更加方便。为了增强学习体验和可视化定量数据,我们将使用定制化程度非常高的Matplotlib软件库,这往往对直观地理解解决方案极有价值。

现将本书所用的主要Python软件包的版本号详列如下,请读者确保所安装软件包的版本不低于下述版本号,以确保代码示例可以正确运行:

  • NumPy 1.17.4
  • SciPy 1.3.1
  • scikit-learn 0.22.0
  • Matplotlib 3.1.0
  • pandas 0.25.3