三
进入21世纪后,互联网使得可用的数据量剧增。据估计,人类社会在最近两年创造出了有史以来一半以上的数据量;而最近五年创造的数据量,能够占到人类有史以来数据总量的90%以上。尤其是在人工智能技术引入之后,数据增长速度进一步加快。2010年到2020年,人工智能的计算量每3~4个月翻一倍,比起摩尔定律的每两年翻一番,人工智能的算力增速快了将近10倍。可见,数据正以指数级的速度在增长。面对如此剧烈增长的数据浪潮,如何借助数据发掘有用信息并最终用于指导人类决策,成了一个十分重要的问题。一系列的数据分析方法应运而生,体现了从数据到信息应用,再到知识发现,然后是智慧操作的发展演变。
首要的问题是,如何有机聚合和使用各个系统产生的数据?1971年,麻省理工学院的研究人员迈克尔·斯科特(Michael S. Scott)和彼得·基恩(Peter G.W. Keen)首次提出了决策支持系统(Decision-making Support System,DSS)的概念,强调为了更好地发挥信息对于决策的支持价值,组织有必要采用单独的数据存储结构和设计方法,以使决策支持系统和运营系统分开。如此一来,服务于企业管理指挥的决策支持系统获得了独立性。这个时候,支撑决策支持系统运转的魔法,是一种被称作“联机分析(Online Analysis Processing,OLAP)”的数据引擎,也称多维分析,本意是把分立的数据库“相联”,进行多维度的分析。“维”是联机分析的核心概念,指的是人们观察数据的特定角度,举个例子,沃尔玛要分析销售量,可以按地区国别分析、时间序列分析、商品门类分析,也可以按供货渠道分析、客户群分析,这些不同的分析角度就叫作“维”。实质上,每一个“维”,就是一个观察数据的场景或应用,而多维分析就是将数据映射到特定场景和应用上以便产生有价值的信息的过程。
其实,早在20世纪60年代,决策支持系统的先行者就开始探索多维分析的方法。1970年,第一个多维分析产品就已经面世。它通过一个复杂的、中介性的“数据综合引擎”,把分布在不同系统的数据库连接起来,实现了多维分析,因而得名“联机分析”。1994年,发明关系数据库的埃德加·科德再立新功,立足数据仓库的新基础,详尽地阐述了构建联机分析的十二条原则。同时,因为有了数据仓库,多维分析的实现已经不再需要不同数据库之间的人为联机,因此,他将该项技术更形象地命名为“多维分析”。
多维分析的动人之处在于,用户可以根据自己的具体场景和应用需要创建“万维”动态报表。报表,一直是将数据转化为信息和知识最主要的手段之一。在多维分析技术出现之前,报表是由软件开发人员事先定制的,基于一到两个维度的分析,是简单报表;交叉的维度越多,报表就越复杂,而且不同维度的组合将产生不同的报表,IT(信息技术)部门无法全部定制。因此,当时的报表是静态的、固定的、残缺的,怎么也满足不了决策分析的全部需要。
多维分析技术预先为用户创建多维的数据立方体(Cube),一旦多维立方体建模完成,用户可以快速地从各个分析维度获取数据,也可以动态地在各个维度之间来回切换或者进行多维度的综合分析。通过从不同的维度、不同的颗粒度、立体地对数据进行分析,从而获得有严密推证关系的信息。正是因为数据仓库的出现,多维分析找到了真正的用武之地。任何复杂的报表都可以通过鼠标的点击拖拉在瞬间从用户的指间弹出,如玲珑剔透的水晶体,数据尽在手中。
多维分析加速了数据向信息的转换,但要获得“知识”还需要进行“知识发现”。所谓知识发现(Knowledge Discovery in Database,KDD),泛指所有从源数据中发掘模式或联系的方法。注意,“模式”和“联系”这两个词汇,已经意味着人类经验的参与,而这正是从信息向知识转换的关键桥梁。进行知识发现的主要方法是数据挖掘(Data Mining),指从海量数据中揭示出隐含的、先前未知的并有潜在价值的信息和知识的过程。
顾名思义,数据挖掘就是将数据比作矿山、将算法比作冶炼技术,而提炼出来的金属就是信息或者知识。从这个意义上讲,数据挖掘的出现是为了应对“数据十分丰富,而信息相当贫乏”这一困境的。有关数据挖掘的典型案例是“啤酒和尿布”的故事,说的是沃尔玛超市的管理人员在分析销售数据的时候发现了一个有趣的现象——啤酒和尿布这两件看上去毫无关联的商品却经常出现在一个购物篮中。经过后续调查发现,原来这种现象经常出现在年轻父亲身上,他们在购买尿布的同时,会顺便给自己购买啤酒,如果在超市里只能买到其中一样,那么他们往往会放弃购买。这一发现促使沃尔玛超市尝试将啤酒和尿布摆放在一个区域,让年轻的父亲可以同时找到这两件商品,并很快完成购物,实现了销售的增长。
“啤酒和尿布”的故事,生动地说明了通过对历史数据的挖掘可以帮助企业实现商业奇迹。但数据挖掘的弊端在于,“模式”和“联系”的发现,并不能够自动转化为行动的指引。就如“啤酒和尿布”的故事所表明的,如果管理人员没有基于数据分析发现的模式——啤酒和尿布共同出现在购物篮——去进行实际的调查研究的话,那么沃尔玛就没法洞察到“年轻父亲”这类顾客的购买行为。显然,我们需要更具知识洞察能力的数据分析方法。[3]