1.2.1 信息爆炸的社会
综合观察社会各个方面的变化趋势,我们能真正意识到信息爆炸或者说大数据时代已经到来。以天文学为例,2000年美国斯隆数字巡天项目(见图1-12)启动的时候,位于美国新墨西哥州的望远镜在短短几周内收集到的数据,就比世界天文学历史上总共收集的数据还要多。到了2010年,信息档案已经高达1.4×242B。
图1-12 美国斯隆数字巡天望远镜
天文学领域发生的变化也在社会各个领域发生。2003年,人类第一次破译人体基因密码的时候,辛苦工作了十年才完成三十亿对碱基对的排序。大约十年之后,世界范围内的基因仪每15分钟(min)就可以完成同样的工作。在金融领域,美国股市每天的成交量高达70亿股,而其中三分之二的交易都是由建立在数学模型和算法之上的计算机程序自动完成的,这些程序运用海量数据来预测利益和降低风险。
互联网公司更是被数据淹没了。仅以国内社交网站微信2021年的部分数据为例:微信小程序的日活跃用户数达到4.5亿,小程序年活跃用户数增长41%,支付交易小程序数量增长28%;微信搜索的月度活跃用户数跃升至7亿,比一年前的5亿增长40%;实时流媒体电商销售额在2021年增长了15倍。
从科学研究到医疗保险,从银行业到互联网,各个领域都在发生着一个类似的故事,那就是爆发式增长的数据量。这种增长超过了创造机器的速度,甚至超过了人们的想象。
有趣的是,在2007年的数据中,只有7%是存储在报纸、书籍、图片等媒介上的模拟数据,其余全部是数字数据。模拟数据也称为模拟量,相对于数字量而言,指的是取值范围是连续的变量或者数值,例如声音、图像、温度、压力等。模拟数据一般采用模拟信号,例如,用一系列连续变化的电磁波或电压信号来表示。数字数据也称为数字量,相对模拟量而言,指的是取值范围是离散的变量或者数值。数字数据采用数字信号,例如用一系列断续变化的电压脉冲(如用恒定的正电压表示二进制数1,用恒定的负电压表示二进制数0)或光脉冲来表示。
但以前的情况却完全不是这样的。虽然1960年就有了“信息时代”和“数字村镇”的概念,但2000年数字存储信息仍只占全球数据量的四分之一,当时,另外四分之三的信息都存储在报纸、胶片、黑胶唱片和盒式磁带这类媒介上。事实上,1986年,世界上约40%的计算能力都在袖珍计算器上运行,那时候,所有个人计算机的处理能力之和还没有所有袖珍计算器的处理能力之和高。但是因为数字数据的快速增长,整个局势很快就颠倒过来了。按照希尔伯特的说法,数字数据的数量每三年多就会翻一倍。相反,模拟数据的数量则基本上没有增加。
物理学和生物学都告诉我们,当改变规模时,事物的状态有时也会发生改变。以专注于把东西变小而不是变大的纳米技术为例,其原理就是当事物到达分子级别时,它的物理性质会发生改变。同样,当我们增加所利用的数据量时,也就可以做很多在小数据量的基础上无法完成的事情。
大数据的科学价值和社会价值正是体现在这里。一方面,对大数据的掌握程度可以转化为经济价值的来源。另一方面,大数据已经撼动了世界的方方面面,从商业科技到医疗、教育、经济、人文以及社会的其他各个领域。尽管我们还处在大数据时代的初期,但我们的日常生活已经离不开它了。