第一章 超市定律
本福特定律
数学之旅有时始于平凡无奇的场所。
至于我们这段旅程的起点,我建议就定在街角的超市。你肯定知道某个离你家不远的超市。你在那里养成了自己的购物习惯。无论是大型购物中心还是乡间小卖部,都无关紧要,只要是能够找到满足日用之需的基础产品的超市就好。
你对超市里的氛围早已司空见惯。你已经来过这里上百次,甚至上千次。顺序排列的货架、金属台架、收银台扫描条形码时发出的规律声响,还有四处走动、无意识地抓起一瓶牛奶或几瓶罐头的顾客。但是今天,我们不是来购物的,而是来执行观察任务的。
这个地方隐藏着最引人入胜的数学宝藏之一。这么多年来,它一直都在你的眼前。它甚至没有丝毫的遮掩,你在此刻就能看到它。它是一个小小的反常之处。它是那些在你眼皮底下毫不起眼的细节之一,看似一无所用,却可能引得暗中窥探的观察者心生疑惑。拿出你的小本子或智能手机准备好做记录吧,我们的调查开始了。
看看货架上依次排列的价格标签。2.30 €、1.08 €、12.49 €、3.53 €……在我们一个接一个地快速扫过价格标签的时候,所有这些数似乎都是完全随机的。1.81 €、22.90 €、0.64 €……价格范围从几分到几十欧元。但我们要关注的不是细节。忘记小数点和小数吧。只看每个价格的首位有效数字,这是最重要的数字,它给出了近似值。
你看到一瓶标价为 1.54 €的 530 克水果罐头,在你的本子上记为 1。再走几步,一瓶标价为 3.53 €的 24 小时除臭剂,记为 3。一块标价为 1.81 €的 250 克奶酪,记为 1。一口标价为 45.90 €的不粘锅,这个价格有两位数,但不要紧,我们只关注首位数字,记为 4。一包标价为 0.74 €的烤花生米,这个价格的首位有效数字是 7。
我们就这样在超市里随意地走动了几分钟,记录的数字也越积越多。1 3 1 4 7 9 2 2 1 7 9 8 1 1 3 1 1 1 8 1 1 2 1 2 1 1 9 1 4 7 1 6 1 5 9 2 2 1 3 2 2 2 1 2 2 6……但随着记录的继续,一个小小的疑问出现了。你不觉得这串数字有什么不对头的地方吗?就好像其中存在着某种不平衡。这串数字主要由数字 1 和 2 组成,间或出现了几个 3、4、5、6、7、8 和 9。仿佛我们在无意识的情况下自然而然地被最低价格所吸引。这里有问题。
那我们就向统计学家学习,严谨行事:从现在开始,谨防自己的偏见,采用一种系统性的方法。我们随机挑选几排货架,并把每排货架上所有产品的价格无一例外地记录下来。这是一项费事的工作,但你必须做到心中有数。
一小时后,你的本子上记了整整几页的成串数字。是时候做个小结了。经过计算,结果毋庸置疑,其中呈现的趋势一目了然。你记录了一千多种产品的价格,其中将近三分之一的数是以 1 开头的!超过四分之一的数以 2 开头,数越大,在记录中出现的次数越少。
图 1.1 是整理得到的首位数字的占比图1。
1 这是作者按照文中所述方法,从 2019 年 1 月在法国超市记录的 1226 个价格中得到的结果:以 1 开头的有 391 个(31.9%),以 2 开头的有 315 个(25.7%),以 3 开头的有 182 个(14.8%),以 4 开头的有 108 个(8.8%),以 5 开头的有 66 个(5.4%),以 6 开头的有 50 个(4.1%),以 7 开头的有 40 个(3.3%),以 8 开头的有 30 个(2.4%),以 9 开头的有 44 个(3.6%)。
图 1.1
这一次,我们无法再认为这是一种简单的随机效应,或是自己对产品有偏向性的选择了。我们必须承认,这是一个事实:超市里货品价格的首位数字分布不均衡——较小的数字在数量上具有显而易见的优势。
这种不均衡从何而来?这就是我想对你提出的问题。这些价格标签遵循了什么样的超市、商业或经济定律,才会呈现出这种奇怪的结果呢?为什么这些价格的首位数字会分布不均呢?数学难道不应该对所有的数字都一视同仁吗?数学应该是没有偏见、没有青睐,也没有最爱的。然而事实就摆在眼前,而且与我们的预想明显相反。在超市里,数学有它自己的“宠儿”,“宠儿”名叫 1 和 2。
我们已经观察到了,也已经确认过了。现在,我们需要思考、分析和抽丝剥茧。我们的手中握有了事实,是时候展开调查并得出结论了。
1938 年 3 月,美国工程师和物理学家弗兰克·本福特(Frank Benford)发表了《反常数定律》(“The Law of Anomalous Numbers”)一文,他在这篇文章中分析了来自两万多个不同观察源的数字数据。在他的列表中,我们可以看到世界各地河流的长度、美国不同城市的人口、已知原子质量的测定值、新闻报纸上随机获取的数字,甚至还有数学常数。对于所有这些数据,本福特每次得到的观察结果都和我们的一样:首位数字分布不均衡。其中约有 30% 的数以 1 开头,18% 的数以 2 开头,这一百分比持续下降,直到数字 9,以 9 开头的数仅占 5%(图 1.2)。
图 1.2
本福特没有想到通过超市的价格标签去验证自己的统计结果。但我们不得不承认,他得到的结果与我们的结果出奇地相似——当然,在百分比上会有些微的变化,但就整体趋势而言,相似度高得令人惊讶。
本福特的研究表明,我们收集到的数据并非孤例。它们并非超市的运作方式所特有的,而是植根在一种更为广泛的趋势之中。1938 年以后,很多科学家在越来越极端且越来越多样化的情况中观察到了相同的分布态势。
以人口学为例:在调查统计到的地球上的 203 个国家 / 地区中,有 62 个国家 / 地区(即 30.5%)的人口的首位数字是 1。首先是中国,拥有约 14 亿人口。我们还会发现,在这 62 个国家 / 地区中,墨西哥拥有约 1.22 亿人口,塞内加尔拥有约 1300 万人口,图瓦卢群岛拥有约 10 800 人口。相反,只有 14 个国家 / 地区(即 6.9%)的人口数量是以数字 9 开头的。
你更喜欢天文学吗?在绕太阳公转的八大行星中,有四颗行星的赤道直径是以 1 开头的。木星直径约为 142 984 千米,土星直径约为 120 536 千米,地球直径约为 12 756 千米,金星直径约为 12 104 千米。太阳本身的直径约为 1 392 000 千米。如果用这九个天体的样本数据还不足以得出一种可靠的趋势,那么就再加上矮星、卫星、小行星和彗星,你将总是得到同一个观察结果:数字 1 占据绝对优势。
一旦我们开始对此加以关注,实例就会接踵而来。取一张来自任意情境的数字列表,分析这些数的首位数字,你一定会发现:本福特的数字分布总是一而再,再而三地出现。这一统计定律远非一种例外,它看起来完全是浑然天成、无处不在的。矛盾的是,我们在直觉上认为本该更为合理的均衡分布,在世界上似乎根本不存在。
在这个层面上,超市里的观察结果就完全谈不上有什么奇异之处了。我们刚刚揭晓的是一条名副其实的定律,这条定律不仅支配着人类活动的很多领域,而且还在自然最为隐秘的结构中支配着自然本身。理解这条定律,就是理解关于我们的世界及其运转方式的某些深层的东西。
这条定律的影响之大,能让我们在毫无意识的情况下不断地复现它。给超市货品定价的人不一定会互相商量,他们中的大多数人也从未听说过弗兰克·本福特。但是,他们却仿佛在某种超越了他们的力量的支配下,不知不觉地遵从了本福特定律。各国人口、河流长度和行星直径的数值也是一样。
1938 年,弗兰克·本福特把这种分布命名为“反常数定律”。但是,这条定律无处不在,以“反常”命名听来并不适合。“反常”只是主观的判断,它只在那些对此感到讶异的人眼中才存在。相反,大自然似乎觉得这条定律实在是再普通不过。定律只有在不为我们所了解时才会是“反常”的。而我们正打算去了解它。
那么,该朝哪个方向出发呢?我们的思路该沿着哪条轨迹去揭开反常的面纱,并让奥秘变成显而易见之事呢?
本福特定律理解起来并不复杂,但解释起来几句话说不清楚。这条定律背后的数学原理简单而深刻。我们面对的不是一道忽然间顿悟并惊呼“啊,原来如此,我明白了!”就能得出答案的谜题。需要改变的是我们对数字的理解和计数方式。如果说本福特定律在我们看来并非一目了然,那是因为我们的思维方式不对头。我们必须学会从不同的角度去看待自以为已经很了解的事物,我们必须审视自己。
走进弗兰克·本福特刚刚为我们打开的世界游逛一圈,等你从中出来的时候不可能还是原来的样子。本福特定律改变了你。一旦你理解了它,你就再也不会以同样的方式思考了。