1.1.1 海量数据的分析需求催生数据挖掘
20 世纪80 年代以来,随着计算机数据库技术和产品的日益成熟以及计算机应用的普及深化,各行业部门的数据采集能力得到了前所未有的提高,组织通过各自内部的业务处理系统、管理信息系统以及外部网络系统,获得并积累了浩如烟海的数据。以商业领域为例,美国著名的连锁超市Wal-Mart的数据库中已积累了TB级以上的顾客购买行为数据和其他销售数据。随着互联网和电子商务的普及,各类网上书店、网上银行、网上营业厅和网上商城等积累的Web点击流数据,存储容量也多高达GB级。另外,国家政府部门所积累的数据量也令人瞠目。例如,一次全国经济普查或人口普查所采集和处理数据量均在千万级以上。同时,各经济行业的企业内部也拥有大量的业务数据、财务数据和人事数据。
在严酷的市场竞争压力下,企业为更客观地把握自身和市场状况,提升内部管理和决策水平,管理者们面对如此丰富的海量数据,分析需求越来越强烈。他们希望利用有效的数据分析工具,更多地挖掘出隐藏在数据中的、有价值的辅助于管理和决策的信息。
例如,制造业已从过去的粗放式生产经营模式过渡到精细化的生产管理。决策者需要了解客户偏好,设计最受市场欢迎的产品;需要制定合适的价格,确保企业的利润;需要了解市场需求,调整产销计划,优化库存结构;需要评估供应商质量,供应合同和订单违约率,提高产品合格率以及风险控制能力等。
再如,政府部门中的政策制定者们,为保证出台政策的科学性和全面性,也希望利用数据分析方法,对现有数据进行科学缜密的分析。
因此,正像著名的数据仓库专家Ralph Kimball在其著作中写的那样:“我们花了二十多年的时间将数据放入数据库,如今是该将它们拿出来的时候了。”
然而,令人棘手的问题接踵而来。原来管理者们得不到想要的数据,是因为数据库中没有充足的数据,但现在他们似乎仍然无法快捷地得到想要的数据,其原因是数据库里的数据太多了。人们面对规模庞大、纷繁复杂的数据,漫无头绪无从下手,致使原本宝贵的数据资源成了使用者的负担。组织中的管理决策者无奈地感慨:基层业务人员尚且能够通过业务处理系统快速访问一定范围内的业务数据,而高层决策者却似乎缺少有效的工具,从数据库中获得利于决策制定的有价值的数据。于是,所谓的“信息爆炸”、“数据多但知识少”成为一种普遍的怪现象。
究其原因,一方面,对于基层业务人员来说,由于业务处理系统是依据一定的业务流程,符合一定的业务规范的,所以通过业务处理系统业务人员能够灵活自如地掌控“自己的”数据;而对于管理决策者,他们所需要的数据通常来自于各个业务处理系统,但由于业务处理系统是分散性的,加上管理、规划、设计、技术等诸多因素影响,各系统基本处于“封闭”状态,系统之间的数据交换需求极少,而且交换的渠道也不很畅通。尽管客观上各系统之间仍然存在数据重复录入、数据不一致性等问题,但由于基层业务处理具有“各自为政”的特点,因此对日常业务处理似乎并无大碍。然而由此形成的“信息(数据)孤岛”现象,对那些正在逐渐摒弃“凭经验”、“拍脑袋”决策方式的领导者们来说,却是一个大忌。他们深刻认识到,如果无法有效快捷地将各系统中的数据整合到一起,就无法及时得到全面准确的数据,更无法进行分析而做出正确决策。
另一方面,数据的定量分析是科学决策的前提。但实施定量分析需要深厚的专业知识,更需要有效的分析工具。但一般业务处理系统中的数据分析功能相对简单,通常只能制作各种数据汇总报表,无法实现对数据的深层次分析,因此不能很好地满足决策者的定量分析需求。
大规模海量数据的整合处理和深层次量化分析的实际需求,直接孕育了20世纪90年代初期的两项重大技术,这就是数据仓库技术和数据挖掘技术。数据仓库和数据挖掘的产生和发展,使得当今的计算机网络应用体系从业务管理层逐步跃升到决策支持层。同时,两者在技术和产品的上互相补充和互相促进,逐渐形成了融合发展的可喜局面,为最终形成具有一定通用意义的决策支持系统奠定了良好的基础。