第1章 读懂大数据时代的N个关键词
麦肯锡最早预言了大数据时代的到来:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”IBM 则最早定义了大数据的特征:规模性Volume、多样性Variety、价值性Value和高速性Velocity。
大数据是什么
4V特征
大数据(big data),也被称为巨量资料,其被定义为无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。
麦肯锡最早预言了大数据时代的到来:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”IBM则最早定义了大数据的特征:规模性Volume、多样性Variety、价值性Value和高速性Velocity。
4个“V”反映了大数据在四个层面上的特点:第一,数据体量巨大。从TB级别,跃升到PB级别,大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T);第二,数据类型繁多,比如,网络日志、视频、图片、地理位置信息等;第三,价值密度低、商业价值高,只要合理利用数据并对其进行正确、准确地分析,将会带来很高的价值回报;第四,处理速度快,可从各种类型的数据中快速获得高价值的信息,这一点和传统的数据挖掘技术有着本质的不同。
云计算与物联网
云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备。而物联网则是物物相连的互联网。具体来说,物联网的核心和基础仍然是互联网,是在互联网基础上的延伸和扩展的网络;其用户端延伸和扩展到了任何物品与物品之间,进行信息交换和通信。物联网技术带给事物的是一种技术上的革新,而它的载体还是原有的事物。
那么,云计算和物联网之间是什么关系呢?
第一,云计算是实现物联网的核心。物联网时代,所有设备将实现互联互通,随之而来的则是巨大的数据量,而运用云计算模式,将使物联网中数以兆计的各类物品的实时动态管理、智能分析变得可能。物联网通过将射频识别技术、传感器技术、纳米技术等新技术充分运用在各行各业之中,将各种物体充分连接,并通过无线等网络将采集到的各种实时动态信息送达计算处理中心,进行汇总、分析和处理。
第二,云计算将成为物联网的重要环节。云计算是以应用为目的,通过互联网将大量必须的软硬件按照一定的形式连接起来,并且随着需求的变化而灵活调整的一种低消耗、高效率的虚拟资源服务的集合形式。物联网强调物物相连,设备终端与设备终端相连,云计算能为连接到云上设备终端提供强大的运算处理能力,以降低终端本身的复杂性。
二者都是为满足人们日益增长的需求而诞生的。
移动互联网
近几年来,智能手机、平板电脑等移动终端的普及,让移动互联网成为我们最贴身的媒体。毫不夸张地说,移动互联网已经极大地改变了我们的生活方式。
移动互联网的定义比较简单,它是互联网的技术、平台、商业模式和应用与移动通信技术结合并实践的活动的总称,是一种通过智能移动终端,采用移动无线通信方式获取业务和服务的新兴业务,包含终端、软件和应用三个层面。
移动互联网的适用场合非常广泛,可以满足形式简单的需求;它拓展了互联网的用途,扩大了互联网的市场,却创造不了PC互联网那样的工业价值。
移动互联网一共有三个入口:浏览器、App、二维码。移动互联网诞生之初,浏览器成为用户在手机端延续桌上互联网的行为习惯,但是随着 iPhone 横空出世,苹果通过“IOS+App Store”重新定义底层结构,手机用户开始学习使用本地 App 连接丰富的网络服务,Android(Google Play)也随之跟进,共同确立了“操作系统搭台、应用程序唱戏”的游戏规则。应用商店成为用户接入移动互联网的入口;现在我们对二维码越来越熟悉,它是指在一维码的基础上扩展出另一维具有可读性的条码,使用黑白矩形图案表示二进制数据,被设备扫描后可获取其中所包含的信息。二维码提供了平台式服务,它的应用有主读和被读的概念。
在国外,二维码的平台式服务指的是有一个平台来供你生成二维码,并在那后面附上图片、文字、视频等各种各样的信息,并因此成为移动互联网的第三层入口。
大数据思维
得大数据者得天下,应用大数据不仅要完善技术,更重要的是要建立大数据思维。简单来说,大数据时代,我们必须用数据的眼光重新审视我们周围的一切,将一切数据化,并且依托数据做出更为有效的决策。
就像维克托·迈尔-舍恩伯格所说:“每天早上起来想一下,这么多数据我能用来干什么,这些价值在哪里可以找到,能不能找到一个别人以前都没有做过的事情。你的想法和思路,是最重要的资产。”因此,关于大数据,你一定要有以下几点认识:首先,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。
其次,大数据将改变企业的经营方式,基于大数据形成决策的模式已经为不少的企业带来了盈利和声誉。
大数据技术
感知技术
正如有一句话所说的“人类以前延续的是文明,现在传承的是信息”,现在大数据的采集、存储和分析变得越来越重要,而谈起开发大数据价值的第一步——数据采集,我们就不得不说一下感知技术。
大数据的采集和感知技术的发展是紧密联系的。全世界的工业设备、汽车、电表上有着无数的数码传感器,它们随时可以测量和传递有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化等信息,并产生海量的数据信息。
而随着智能手机的普及,感知技术可谓迎来了发展的高峰期,除了地理位置信息被广泛地应用外,一些新的感知手段也开始登上舞台,比如,2013年上市的“iPhone 5S”在home键内嵌入指纹传感器;新型手机可通过呼气感知直接检测燃烧脂肪量;用于手机的嗅觉传感器可以监测从空气污染到危险的化学药品;谷歌眼镜InSight新技术可通过衣着进行人物识别;微软正在研发可感知用户当前心情的智能手机技术。
除此之外,还有很多与感知相关的技术革新让我们耳目一新:比如,牙齿传感器实时监控口腔活动及饮食状况;婴儿穿戴设备可用大数据去养育宝宝;Intel正研发3D笔记本摄像头可追踪眼球读懂情绪;日本公司开发新型可监控用户心率的纺织材料;业界正在尝试将生物测定技术引入支付领域等。
事实上,这些感知被逐渐捕获的过程就是世界被数据化的过程,一旦世界被完全数据化了,那么世界的本质也就是信息了。
存储技术
大数据技术可以抽象地分为大数据存储和大数据分析技术,这两者的关系是:大数据存储的目的是支撑大数据分析。到目前为止,这两种技术还是两种截然不同的计算机技术领域:大数据存储致力于研发可以扩展至PB甚至EB级别的数据存储平台;大数据分析关注的是在最短时间内处理大量不同类型的数据集。
提到存储,有一个著名的摩尔定律:每18个月集成电路的复杂性就增加一倍。这也就等于说,存储器的成本大约每18~24个月就下降一半。存储器成本的不断下降也为大数据的存储提供了可能性和可行性。
比如,现在,Google大约管理着超过50万台服务器和100万块硬盘,而且Google还在不断地扩大计算能力和存储能力,其中很多的扩展都是基于廉价服务器和普通存储硬盘的基础上进行的,这大大降低了其服务成本,因此可以将更多的资金投入到技术的研发当中。
以Amazon为例,Amazon S3 是一种面向 Internet 的存储服务,其服务旨在让开发人员能更轻松地进行网络规模计算。Amazon S3的 Web 服务界面简单明了,可以让所有开发人员访问同一个具备高扩展性、可靠性、安全性和快速廉价的基础设施,同时用户也可通过它随时在 Web 上的任何位置存储和检索任意大小的数据。
如今,亚马逊的AWS的性能表现相当好,其云存储对象已达到万亿级别,对象执行请求也达到百万的峰值数量。目前全球范围内已经有数以十万计的企业在通过AWS运行自己的全部或者部分日常业务。
这些企业用户遍布190多个国家,几乎世界上的每个角落都有Amazon用户的身影。
云计算
云计算的概念,是麦肯锡在上世纪60年代提出的。他们提出,在未来,可以把计算能力作为一种像水和电一样的公用事业提供给用户。
云计算从提出到发展到现在这样比较成熟的水平,主要经历了四个阶段,这四个阶段依次是电厂模式、效用计算、网格计算和云计算。
电厂模式阶段:电厂模式就好比是利用电厂的规模效应,来降低电力的价格,并让用户使用起来更方便,且无需维护和购买任何发电设备。
效用计算阶段:在1960年左右,当时计算设备的价格是非常高的,远非普通企业、学校和机构所能承受,所以很多人产生了共享计算资源的想法。1961年,“人工智能之父”麦肯锡在一次会议上提出了“效用计算”
这个概念,其核心借鉴了电厂模式,具体目标是整合分散在各地的服务器、存储系统以及应用程序来共享给多个用户,让用户能够像把灯泡插入灯座一样来使用计算机资源,并且根据其所使用的量来付费。
网格计算阶段:网格计算研究的是如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分,然后把这些部分分配给许多低性能的计算机来处理,最后把这些计算结果综合起来攻克大问题。
云计算阶段:云计算的核心与效用计算和网格计算非常类似,也是希望IT技术能像使用电力那样方便,并且成本低廉。但与效用计算和网格计算不同的是,现在云技术的需求已经有了一定的规模,同时在技术方面也已经基本成熟。
现在,我们将云计算定义为基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云计算甚至可以让用户体验每秒10万亿次的运算能力,这个强大的计算能力可以模拟核爆炸、预测气候变化和市场发展趋势。
云计算与大数据密切相关,因为实时的大型数据集分析需要分布式处理框架来向数十、数百甚至数万台的电脑分配工作。可以说,没有大数据的信息积淀,云计算的计算能力再强大,也难以找到用武之地;没有云计算的处理能力,大数据的信息积淀再丰富,也终究只是镜花水月。所以说,云计算是大数据得以发挥其价值的关键所在,没有云计算技术的成熟,就不能说大数据时代真正地到来了。
分布式技术
随着大数据时代的悄然到来,虽然数据分析一直以来都是IT产业的一部分,而且数据仓库、数据挖掘、商业智能等一直在不停地为企业的发展和创新提供价值,但随着数据规模的指数级增长,在数据处理方面,Hadoop技术无疑成为了时代的明星。
Hadoop技术并不是凭空想象出来的,它的出现源于人们创建和使用的数据量的爆炸性增长,脱胎于MapReduce(Google提出的一个软件架构,是一种处理海量数据的并行编程模式,用于大规模数据集的并行运算。)的大数据分布式处理架构,是大数据生态系统的主角,而且许多的商业和产品的创新也围绕这个架构产生。
Hadoop 是最受欢迎的在 Internet 上对搜索关键字进行内容分类的工具,但它也可以解决许多伸缩性极大的问题,它还可以使用户在不了解分布式底层细节的情况下,充分利用集群的威力进行高速运算和存储。
我们不妨一起来看看Hadoop的特性:可靠性。因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。
扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
低成本。与一体机、商用数据仓库等数据集市相比,Hadoop是开源的,项目的软件成本因此会大大降低。因为它以并行的方式工作,通过并行处理加快处理速度。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。