第1章 大数据的发展历程和时代背景
“大数据”又称巨量资料,指的是所涉及的数据资料量规模巨大到无法通过人脑甚至主流软件工具,在合理时间内达到撷取、管理、处理并整理成为对企业经营决策起到更积极作用的资讯。
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台计算机进行处理,而必须采用分布式计算架构。大数据技术依托云计算的分布式处理、分布式数据库、云存储和/或虚拟化技术,从而进行海量数据的分析及挖掘。在维克托·迈尔-舍恩伯格(Viktor Mayer-Schönberger)及肯尼斯·库克耶(Kenneth Cukier)编写的《大数据时代:生活、工作与思维的大变革》一书中,介绍了大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)和Value(价值)。
(1)数据体量巨大(Volume)。截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类说过的所有话的数据量大约是5EB。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。字节的次方单位如表1-1所示。
表1-1 字节的次方单位
(2)数据类型繁多(Variety)。这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。
(3)价值密度低(Value)。价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用的数据可能仅有一二秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。
(4)处理速度快(Velocity)。这是大数据区分于传统数据挖掘的最显著的特征。根据IDC(国际数据中心)的“数字宇宙”报告,预计到2020年,全球数据使用量将达到40ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。
近几年来,随着计算机和信息技术的迅猛发展,各行各业应用系统的规模迅速扩大,行业应用所产生的数据呈爆炸性增长。动辄数百TB甚至数百PB的大数据已远远超出了现有传统的计算技术和信息系统的处理能力,因此,寻求有效的大数据处理技术、方法和手段已经成为现实世界的迫切需求。