大话机器智能:一书看透AI的底层运行逻辑
上QQ阅读APP看书,第一时间看更新

2.5.3 数据表达的局限

我们已经看到,数据是会“撒谎”的。数据本身存在表达局限性。这个世界是多维的,数据只是其中的一维。当我们把现实世界的某件事情或某个状态转变成数据,就已经剔除了很多信息。因为数据只反映出事情的一个侧面,所以从数据中得到的结论也只能代表一个方面。比如要讨论人工智能时代下的就业问题,正方会说,出现了越来越多新的岗位和职业。反方则说,越来越多的人因为被机器替代而失去工作。双方给出的数据都是准确的,但都只能反映出人工智能时代就业问题的某一个方面。

概率就是一种典型的、存在局限的表达。100%肯定的事情,与可能性是99%的事,本质上有巨大的差异。我们经常会在论文和科学文献中看到用概率来解释某种现象的情况,比如天气预报中的降水概率,或者医学研究中的存活率、治愈率等。假设经过数据统计,某种药服用后对疾病的治愈率是99%,并不代表你服用它就一定能被治愈。即使失败的概率很低,只要不是零,失败仍有可能发生。数据反映的是99%的成功可能性,但无法反映出1%的失败风险。小概率事件必须引起重视,因为概率小不代表背后的风险小

虽然数据是决策的依据,但决策本身是一件复杂的事。现实生活中,把解决方案量化会受到许多因素的影响,有时依赖很强的主观因素。比如买手机,有人关心性价比,有人看重拍照功能,有人关注游戏性能,还有人喜欢良好的交互体验。即使我们拥有了手机各项参数的数据,挑选哪部手机仍然是复杂问题。由于每个人的权衡标准不同,需求也不同,因此到底如何选择取决于购买者的主观意愿和个人偏好。这种偏好因人而异,没有高低对错之分。

决策不能只基于数学理论,还必须用实践来检验。想象一下这样的游戏:抛硬币猜正反,如果正面朝上,押注多少就返还3倍金额的钱;如果反面朝上,就要立即没收全部押金。这个游戏有一个要求,每次必须押注身上所有的钱。我们该怎么玩这个游戏呢?

仅仅通过数学计算,我们每次押注后的预期收入都是正的。比如你第一次押注100元,有50%的概率会收获300元,还有50%的概率得到0元,因此你的预期收入是150元(100×3×0.5+0×0.5=150)。同样的道理,如果第二局再押注(此时你要押注的是全部金额300元),预期收入就是450元(300×3×0.5+0×0.5=450)。从理论上看,你没有理由不去赌一把!

但这只是理论值,如果你一直赌下去,则迟早会一无所有。就是说,理论值并不一定是最佳的实践策略。从数学的角度,我们有把握将概率和期望计算得准确无误,但这种数据表达本身是有局限性和不确定性的,一旦将概率结果直接用于决策,就一定要考虑它的风险和代价,否则可能引发灾难性的后果。