用Python动手学统计学
上QQ阅读APP看书,第一时间看更新

第 1 章 统计学基础

1-1 统计学

本节将介绍统计学的目标,以及学习统计学能给我们带来的好处。

1-1-1 统计学的目标①:描述现有数据

什么是统计学?统计学是寻找更好的数据应用方法的学科。

数据分为两种:一种是我们已经拿在手中的现有数据,另一种是尚未在我们手中的未知数据。

整理和归纳现有数据,就是统计学的目标。数据就是许多数值的集合。在研究数据时会有两方面的问题:一方面,单纯观察 {1, 5, 3, 6, 4} 之类的数值集合,无法从中得到任何信息;另一方面,如果这样的集合里有 1 万个数值,那么即便是单纯的观察,也很难做到。

在这种情况下,统计学就派上用场了。我们可以基于统计学计算出能够代表这些数值的指标。比如,可以计算上述数值的平均数,结果为 3.8。逐一查看大量的数值确实是一种诚恳的做法,但这太花费时间了。整理和归纳可以帮助我们更方便地理解数据。

为了整理、归纳现有数据而产生的统计学分支,叫作描述统计

1-1-2 统计学的目标②:估计未知数据

为了估计不在我们手中的未知数据而产生的统计学分支叫作统计推断。像“明天的销量数据”这种未来的数据就属于未知数据。

未知数据不好处理,但是如果我们没有一点头绪,数据分析基本上就没有什么意义了。

以红鞋和蓝鞋的销量为例,假设直到今晚都是红鞋卖得好,而卖家却对明天的销量这个未知数据毫无头绪:“到今天为止红鞋销量一直很好,但谁知道明天哪种会卖得好呢。”

真希望他能灵活应用数据啊!

因为根据历史数据,红鞋卖得好,所以明天也应该增加红鞋的库存。

以上建议就是基于历史数据的推断:正因为现有数据指出红鞋销量好,所以即使我们还不知道明天的销量数据,也能估计明天红鞋会卖得好。这也算是一种销量估计。

使用现有数据能推断未知数据——这可以说是学习统计学给我们带来的最大好处。

1-1-3 术语 样本与总体

为了防止读者混乱,本书在解释每个术语时都会单列一节。接下来我们将讲解学习统计学这个学科时必须掌握的术语。

样本是指现有数据。

总体是指既包含现有数据也包含未知数据的全部数据。

只使用样本这一部分数据来讨论总体这一全部数据就是统计推断的目标。请读者务必牢记这两个术语。

1-1-4 1-2 节及之后的内容

统计推断的目标是只使用样本来讨论总体,但是从一开始就直奔主题会非常困难。因此,为了最终实现统计推断的目标,本书会先从基础知识开始讲起。

1-2 节 ~ 1-4 节将介绍进行总体的推断所必需的基础知识。

在 1-2 节和 1-3 节,我们将以总体完全已知为前提进行讲解。笔者认为这样安排能方便读者掌握术语。随机变量与概率分布这两个术语看起来很抽象,但理解它们的重要性十分关键。1-4 节将介绍如何整理和归纳现有数据。

在 1-5 节,我们将首次以总体未知为前提来思考推断总体的方法。

1-6 节将介绍更高效地推断总体的方法。读完这一节,读者就应该能对统计推断的概况有个基本认识了。

1-1 节 ~ 1-6 节几乎没有使用数学式,也大胆地略去了“概率”这个词的定义。这样有助于初学者更容易地理解统计推断的整体情况。

不过,只阅读 1-1 节 ~ 1-6 节,读者对相关内容的印象还会有些模糊。我们将在 1-7 节 ~ 1-9 节通过数学式来补充说明。

1-7 节将介绍均值、期望值和方差这几个统计量的计算式,并讲解这些式子的含义。1-8 节将介绍承担统计学核心功能的概率的概念及应用。1-9 节将对随机变量和概率分布加以总结,以做出更准确的解释。

在第 3 章,我们将通过 Python 程序模拟来复习第 1 章的内容。如果读者觉得 1-7 节 ~ 1-9 节的数学式比较难理解,不妨大致读一下就跳过,待到第 3 章时再借助程序进行复习。