1.1 初步认识,大数据究竟是什么
随着信息时代的到来,各种数据围绕在我们身边,大数据时代即将到来。但是,很多人并不了解大数据到底是个什么概念。
下面介绍3个场景,也许你能从其中找到想要的答案。
【场景1】:2013年4月15日,美国波士顿举行了第117届波士顿马拉松大赛,在美东部时间下午2时50分突然发生两起爆炸,发生地点位于美国马萨诸塞州波士顿科普里广场。爆炸案发生后,美国联邦调查局立即着手调查。波士顿马拉松爆炸案调查部门在4月16日表示,至少有1枚炸弹的制造材料是日常就可购得的压力锅改造而成的,推测可能是国内恐怖分子所为。
2013年7月,在波士顿爆炸案发生3个月后,纽约萨克福马县一对夫妻因为妻子用谷歌搜索了“高压锅”,而丈夫在同一时段用谷歌搜索了“背包”。结果,一个由6人组成的联合反恐部队,利用“查水表”的名义对这对夫妻进行盘问,“你们有炸弹吗?你们有高压锅吗?为什么只有电饭煲?能拿来做炸弹吗?”
为什么美国政府知道他们有关搜索情况?这一切都归功于“棱镜”和谷歌的数据监视。据悉,类似的上门“查水表”事件,联合反恐部队每周就要进行多达上百次。
由此可见,一个人的搜索信息会成为破案侦查的依据,所以请小心了!
【场景2】:据某权威机构分析,5万名手机用户在3个月内,无论在家附近活动还是出远门,他们的行踪都相当有规律。一个人大约93%的行踪在理论上是可预测的。当配偶怀疑对方有了外遇,雇主怀疑雇员把公司的车辆挪为私用,或者是父母想知道他们的孩子是否去了他们所说的那个地方,这些都可以使用如图1-1所示的全球卫星定位系统找到所要的地址等信息。
图1-1 GPS系统中的地图
利用GPS定位系统,再综合多颗卫星的数据,就可以在全球范围内随时找到你或者你的车辆所在的精确位置,如图1-2所示。这就是信息、数据时代的威力。
图1-2 GPS定位系统可以找到每个人(上图)或者车辆(下图)的精确位置
【场景3】:2014年春节,百度推出了“百度迁徙”,其利用大数据技术,对其拥有的LBS(基于地理位置的服务)大数据进行计算分析,并采用创新的可视化呈现方式,在业界首次实现了全程、动态、即时、直观地展现中国春节前后人口大迁徙的轨迹与特征,如图1-3所示。查询网址:http://qianxi.baidu.com/。
图1-3 中国春节前后人口大迁徙的轨迹与特征
用户还可以查询某一个城市的“迁入城市”、“迁出城市”的最新数据迁徙图,如查询“北京”的迁徙情况,如图1-4所示。
图1-4 春节期间北京的迁徙情况
1.1.1 大数据基本定义
前面洋洋洒洒地说了很多,相信很多读者看到过相关的报告,但是截至目前,我们始终没有给出大数据的定义,也就是说我们并没有清楚地表述过:大数据到底是什么。
在IDC(Internet Data Center,互联网数据中心)的报告中,他们对大数据进行了一个简单的描述:Big data is a big dynamic that seemed to appear from nowhere. But in reality, big data isn't new. Instead, it is something that is moving into the mainstream and getting big attention, and for good reason. Big data is not a“thing”but instead a dynamic/activity that crosses many IT borders。
中文翻译为:大数据是一个看起来似乎来路不明的大的动态过程。但实际上,大数据并不是一个新生事物,虽然它确确实实正在走向主流和引起广泛的注意。大数据并不是一个实体,而是一个横跨很多IT边界的动态活动。如图1-5所示为IDC所描述的大数据世界。
图1-5 IDC所描述的大数据世界(资料来源:IDC)
如果IDC的解释也能算是大数据的一种描述性定义的话,相信大部分人应该是很难理解大数据的。
因此,想要明白“大数据”的概念,还要从“大数据”的名词本身入手。首先要从“大”入手,那么“大数据”的“大”到底指的是哪些方面呢?笔者认为,大数据同过去的海量数据有所区别,其基本特征可以用4个V来总结(Volume、Variety、Value和Velocity),即体量大、多样性、价值密度低、速度快。
➢ 数据体量大:大数据一般指在10TB规模以上的数据量。但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量。
➢ 数据多样性:数据来自多种数据源,数据种类和格式日渐丰富,已经冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。
➢ 价值密度低:大数据所创造的价值密度明显更低。根据福利经济学的观点,生产率与单位商品的价值无关,生产率只与生产的数量有关,即生产率高的企业在相同的时间内生产更多的价值——因而可以把更高的生产率理解为通过生产和管理技术的革新而形成的更高的劳动复杂度,劳动复杂度的提高使单位劳动时间具有了更大的价值密度。
➢ 速度快:有数据显示,在全球范围内,数据量以每年50%的速度增长,数据增长的速度已经远远超过IT设计发展的速度。数据本身已经成为企业发展的资产。快速捕捉数据信息,实现数字化生产和管理,已经成为未来企业赢得市场,应对行业互联网化的必经之路。
另外,从“数据”这个词来分析,大数据是海量的,是巨大的,它关乎数据量。笔者认为可以从3个方面定义大数据:(1)数据量;(2)广度、分类;(3)速度。简而言之,大数据就是一个体量特别大,数据类别特别丰富的数据集。也就是说“大数据”本身并不是一种新的技术,也不是一种新的产品,而是我们这个时代出现的一种现象。而这个“大”大到了一种什么样的程度呢?可以说它即将突破现有常规软件所能提供的能力极限。
综上所述,全球最大的战略咨询公司麦肯锡给出了一个十分明确的定义:大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合。
随着互联网革命性地改变了商业的运作模式、政府的管理方法以及人们的生活方式,信息的积累足以引发新的变革。世界充斥着比以往更多的信息,信息总量的变化导致了信息形态的变化。“大数据”这一概念应运而生。“大数据”不同于互联网,它正在以巨大的力量改变着世界,它是具有更强的决策力、洞察力、流程优化能力、高增长率和多样化的信息资产。
如今,数据库、大数据已经成为变革的中心,事实上可以成为一场革命。在IT领域、制造业、零售业、政府管理、科技领域,大数据都在改变着这个世界的运行方式。因此,我们称之为大数据的新世界。
专家提醒
数据基本单位换算:
1B(byte,字节)=8b(bit位)
1KB(Kilobyte,千字节)=1024B
1MB(Megabyte,百万字节兆字节,简称“兆”)=1024KB
1GB(Gigabyte,十亿字节吉字节,又称“千兆”)=1024MB
1TB(Trillionbyte,万亿字节太字节)=1024GB
1PB(Petabyte,千万亿字节拍字节)=1024TB
1EB(Exabyte,百亿亿字节艾字节)=1024PB
1ZB(Zettabyte,十万亿亿字节泽字节)=1024EB
1.1.2 大数据结构特征
如今,全球存储的数据量正在急剧增长,数据量大是大数据的一致特征。在2000年,全球存储了800000PB的数据。预计到2020年,这一数字会达到35ZB。单单Twitter每天就会生成超过7TB的数据,Facebook为10TB,一些企业在一年中每一天的每一小时就会产生数TB的数据。
就传统IT企业来看,其结构化和非结构化的数据增长也是惊人的。2005年企业存储的结构化数据为4EB,到2015年将增至29EB,年复合增长率逾20%。非结构化数据发展更猛。2005年为22EB,2015年将增至1600EB,年复合增长率约60%,远远快于摩尔定律。
那么,一分钟到底会有多少数据产生呢?
➢ 电子邮件用户发送204166677条信息。
➢ Google收到超过2000000个搜索查询。
➢ Facebook用户分享684478条内容。
➢ 消费者在网购上花费272070美元。
➢ Twitter用户发送超过100000条微博。
➢ 苹果公司收到大约47000个应用下载。
➢ Facebook上的品牌和企业收到34722个“赞”。
➢ Tumblr博客用户发布27778个新帖子。
➢ Instagram用户分享36000张新照片。
➢ Flickr用户添加3125张新照片。
➢ Foursquare用户执行2083次签到。
➢ 571个新网站诞生。
➢ WordPress用户发布347篇新博文。
由于数据自身的复杂性,作为一个必然的结果,处理大数据的首选方法就是在并行计算的环境中进行大规模并行处理(Massively Parallel Processing, MPP),这使得并行摄取、并行数据装载和分析成为可能。实际上,大多数的大数据都是非结构化或者半结构化的,这需要不同的技术和工具来处理和分析。
大数据的结构就体现了它最突出的特征,如表1-1所示,显示了几种不同数据结构类型数据的增长趋势。据悉,未来数据增长的80%~90%将来自于非结构化的数据类型(包括半非结构化、准非结构化和非结构化数据)。
表1-1 数据增长日益趋向非结构化
1.1.3 大数据与云计算
在过去3年当中,笔者经历了大数据的发展从无到有,3年前可能还没有人说这个词,现在已经如火如荼。现在,每天有大量数据和信息生成,这为大数据分析提供了机会。相较于传统数据,大数据更能反映这个世界的真实情况,例如,人们会上传和公布大量的图片来记录个人的生活和社会的变化。如今,一天之内人们上传的照片数量就相当于柯达发明胶卷之后拍摄的图像总和。
过去,计算机主要是用于解决大企业交易型的数据,并不会记录其他无关的信息,只有在云计算产业规模化发展之后,分布式计算才给大数据提供了记录的载体。可以说,云计算使大数据变成可能,打个比方,云计算充当了工业革命时期“发动机”的角色,而大数据则是“电”。
然而,现在除了数据本身发生了改变,云计算也使数据变得更加分散,在这样的趋势下,传统数据库对于海量数据存储的需求、处理速度的需求、数据多样化的需求难以满足,从而使各种各样的解决方案大行其道。
总之,云计算为大数据带来了硬件存储的条件——更便宜的分布式运算存储,而互联网时代的今天也在不断呼唤数据应用和服务。在技术和需求的双重推动下,会有越来越多的政府机构、公司企业和个人意识到数据是巨大的经济资产,像货币或黄金一样,它将带来全新的创业方向、商业模式和投资机会。
大数据和云计算的区别与联系如表1-2所示。
表1-2 大数据和云计算的区别与联系
专家提醒
云计算和大数据注定将带来一次革命,无论是对社会、公司和个人来说,都是一次世界观的改变。届时,互联网不再是一个展示公司的工具或平台,而是属于未来的生产方式,是关乎竞争和生存的关键。
1.1.4 大数据规模预测
当你走进一家陌生的小餐厅时,耳边响起只有你才熟悉的音乐旋律。这样的场景实现技术上并不难,餐厅只要读出你的手机音乐下载记录,通过数据分析,就可以定制播放你喜欢的音乐,这就是大数据时代的潜力。
前面笔者已经说了,大数据由4个V组成,这4个V的组合推动了第5个因素——价值(Value)的出现。随着云计算概念日渐深入人心,大数据也越来越受到关注。国际知名数据公司IDC在长期对云计算市场进行跟踪研究的同时,也对大数据市场保持着密切关注。如图1-6所示,IDC发现,目前大数据对市场的影响正日益提升,已经开始影响数据中心设计、移动应用投资、数据管理等相关领域。
图1-6 IDC全球大数据市场规模与预测
1.1.5 大数据的发展史
如今,越来越多的企业参与到大数据的竞争中来,那么“大数据”这个词汇是如何诞生以及演变的呢?
大数据是一个修辞学意义上的词汇,在数据方面,“大”(big)是一个快速发展的术语。早在1890年,美国统计学家赫尔曼·霍尔瑞斯为了统计这一年的人口普查数据,发明了一台电动器来读取卡片上的数据,该设备让美国用一年时间就完成了原本耗时8年的人口普查活动,由此在全球范围内引发了数据处理的新纪元。
1961年,刚成立9年的美国国家安全局(NSA)是拥有超过12000个密码学家的情报机构,在间谍饱和的冷战年代,面对超量信息,他们开始采用计算机自动收集处理信号情报,并努力将仓库内积压的模拟磁带信息进行数字化处理。仅1961年7月份,该机构就收到了17000卷磁带。
起初,许多科学家和工程师都嘲笑“大数据”只不过是一个营销术语。2008年末,“大数据”得到部分美国知名计算机科学研究人员的认可,业界组织“计算社区联盟”(Computing Community Consortium)发表了一份有影响力的白皮书《大数据计算》,中肯地阐述了大数据带来的机遇和挑战。
2009年5月,美国总统巴拉克·奥巴马政府推出data.gov网站,作为政府开放数据计划的部分举措。该网站拥有超过4.45万的数据量集,这样一些网站和智能手机应用程序能跟踪如航班、产品召回、特定区域内失业率等信息,这一行动激发了肯尼亚、英国等政府相继推出类似举措。
2011年2月,扫描2亿页的页面信息,或4兆兆字节磁盘存储,只需几秒即可完成。同时,IBM的沃森计算机系统在智力竞赛节目《危险边缘》中打败了两名人类挑战者,后来《纽约时报》称这一刻为“大数据计算胜利”的时刻。
2011年,英国《自然》杂志曾出版专刊指出,倘若能够更有效地组织和使用大数据,人类将得到更多的机会发挥科学技术,这对社会发展有巨大的推动作用。
2012年3月,美国政府报告要求每个联邦机构都要有一个“大数据”的策略,作为回应,奥巴马政府宣布了一项耗资两亿美元的大数据研究与发展项目。
2012年7月,美国国务卿希拉里·克林顿宣布了一个名为“数据2X”的公私合营企业,用来收集统计世界各地的妇女和女童在经济、政治和社会地位方面的信息。
回顾过去的50多年,我们可以看到IT产业已经经历了几轮新兴和重叠的技术浪潮,如图1-7所示。这里面的每一波浪潮都是由新兴的IT供应商主导的,他们改变了已有的秩序,重新定义了已有的计算机规范,并为进入新时代铺平了道路。
图1-7 IT产业的发展浪潮
人们手中的手机和移动设备是数据量爆炸的一个重要原因,目前,全球拥有50亿台手机用户,其中20亿台为智能电话,这相当于20世纪80年代20亿台IBM的大型机掌握在消费者手里。
“大数据”是“数据化”趋势下的必然产物。数据化最核心的理念是:“一切都被记录,一切都被数字化”。它带来了两个重大的变化:一是数据量的爆炸性剧增,最近两年所产生的数据量等同于2010年以前整个人类文明产生的数据量总和;二是数据来源的极大丰富,形成了多源异构的数据形态,其中非结构化数据所占比重逐年增大。
1.1.6 大数据技术架构
即便是在“摩尔定律”,即每18个月芯片性能将提高1倍的支撑下,硬件性能进化的速度也早已赶不上数据增长的速度了,并且差距越来越巨大。例如,一分钟之内,新浪微博有数万条微博发送,苹果应用商店下载次数以万计,淘宝卖出了几万件商品,百度产生了百万次搜索查询……所有这些行为都由海量的数据来呈现。
那么,大数据是通过什么样的技术架构来接受、容纳并处理这些海量数据的呢?
要容纳数据本身,IT基础架构必须能够以经济的方式存储比以往更大量、类型更多的数据。此外,还必须能适应数据速度,即数据变化的速度。数量如此大的数据难以在当今的网络连接条件下快速来回移动。大数据基础架构必须具有分布式计算能力,以便能在接近用户的位置进行数据分析,减少跨越网络所引起的延迟。
因此,云计算模式为大数据的成功提供了很好的条件,以实现大数据分析所需的效率、可扩展性、数据便携性和经济性。另外,还可以用来跨越毫不相干的数据源比较不同类型的数据和进行模式匹配。这使得大数据分析能以新视角挖掘企业传统数据,并带来传统上未曾有过的数据洞察力。
例如,LinkedIn是世界上最大的专业人士社交网络,在全球范围内有2.25亿用户,并且以每秒2个新用户的速度增长。LinkedIn还是一个解决方案供应商,据悉,目前有88%的财富100强企业在使用LinkedIn的付费解决方案,LinkedIn还有超出290万的公司主页及相关信息。
LinkedIn之所以取得如此大的成功,是因为他们有专业的身份可以拓展人脉发现机遇,专业的内容全方位掌握业界资讯,专业的平台随时随地了解人脉动向。
从LinkedIn的业务模型不难看出,其本身就拥有海量的数据,通过这些数据创造出有价值的产品和服务,来增加用户数量和用户黏性,这样数据还会不断增长从而形成一个“闭环”。LinkedIn有人才、市场、高级订阅服务三大商业解决方案,而且三大商业解决方案的盈收每年也呈翻倍增长趋势,而其中占盈收比例最大的是人才解决方案。
另外,LinkedIn的数据按用户可分为用户特征数据、用户行为数据、用户网络数据;按数据存取速度可分为在线数据、近线数据、离线数据。LinkedIn的三级数据架构根据不同性质的工作设计,其中近线数据存储在Voldemort分布式数据库中,在线数据存储在Oracle和Espresso中,服务器日志存储在Web Logs中。使用Kafka发布数据,通过Databus捕获在线数据,而所有的离线数据由Hadoop和Teradata数据库构成。
基于上述考虑,大数据可以采用四层堆栈式技术架构,如表1-3所示。
表1-3 采用四层堆栈式技术架构的大数据
专家提醒
云模型鼓励访问数据并提供弹性资源池来应对大规模问题,其解决了如何存储大量数据,以及如何积聚所需的计算资源来操作数据的问题。在云中,数据可跨多个节点调配和分布,这使得数据更接近需要它的用户,从而缩短响应时间和提高生产率。
1.1.7 大数据重要的理由
人们为什么如此关心大数据呢?其实大数据可以使我们提出新问题,来了解我们的业务。例如社交网络分析,一个企业,即使你是一个个体,你也有一个品牌,如何分析你的品牌影响力、品牌声誉,这些问题之前不容易回答,如今在大数据的时代可以很容易得到答案,并且几乎是以实时的速度来解答。
例如,有一家物流公司,有卡车等运输工具,希望优化车队的运输路线,提高运输效率,并且基于实时的交送信息、天气信息及其他类型的信息。现在通过传感器和大数据就可以做到。事实上,关于过去和现在,甚至是未来的事务,大数据分析都能够用得上。
专家提醒
虽然大数据是一个重大问题,但笔者认为,真正的问题是如何让大数据更有意义,如何在大数据里面寻找模式帮助组织机构做出更好的商业决策。
当前,随着互联网科技的日益成熟,各种类型数据的增长将会超越历史上任何一个时期。因此,用户想要从这庞大的数据库中提取对自己有用的信息,就离不开大数据分析技术和工具。如表1-4所示,向大家展示了大数据分析将越来越重要的10个理由。
表1-4 大数据分析为何重要的理由
专家提醒
对大企业而言,大数据的兴起,首先,是因为计算能力可以更低的成本获得,且各类系统如今已能够支持多任务处理;其次,内存的成本也在直线下降,企业可以在内存中处理比以往更多的数据;最后,把计算机聚合成服务器集群越来越简单。
1.1.8 大数据的解决方案
当前,越来越多的企业将大数据的分析结果作为其判断未来发展的依据。同时,传统的商业预测逻辑正日益被新的大数据预测所取代。既然大数据如此重要,那么大数据解决方案是否可以完全替代传统的数据库解决方案呢?
在这里,笔者先不说出答案,而是先带大家看一个典型的案例:
例如,一个优秀的棒球运动员知道自己的哪一只手更擅长抛球,哪一只手更擅长接球。就像这样一种情形,每只手可以尝试执行它天生不适合的任务,但会非常笨拙,因此,通常不会看到棒球运动员使用一只手接球,停下来,丢掉他们的手套,然后使用同一只手抛球。棒球运动员的左手和右手协同起来会实现最佳的结果。
上面的例子就是传统数据库和大数据技术的一个简单类比:没有这两个重要实体的协同工作,任何组织或结构的信息平台都很难得到进一步发展,因为就像棒球运动员协调双手来抛接棒球一样,一个团结一致的分析生态系统才能实现最佳的结果。
此时,我们经过初步分析就可以了解到,有些类型的问题不是本来就属于传统数据库的,至少在最初不是,而且也不确定是否希望将一些数据放在仓库中,因为我们不知道它是否拥有较高的价值、是否是非结构化的,或者是否太庞大了。更多的情况是,在投入精力和金钱将数据放在仓库之后,才能发现每个字节的数据价值;但我们希望在投资之前,就能明确该数据值得保存,并拥有较高的价值。
典型的大数据解决方案应该是具有多种能力的平台化解决方案,这些能力包括结构化数据的存储、计算、分析和挖掘,多结构化数据的存储、加工和处理,以及大数据的商务智能分析。笔者认为,这种解决方案在技术上应具有以下4个特性:软硬集成化的大数据处理能力、全结构化数据处理的能力、大规模内存计算的能力、超高网络速度访问的能力。
因此,你一定要认识到传统数据库技术是整体解决方案中一个重要且相关的部分。事实上,它们在与你的大数据平台结合使用时会变得更加重要。
专家提醒
当前,越来越多的企业将大数据的分析结果作为其判断未来发展的依据。同时,传统的商业预测逻辑正日益被新的大数据预测所取代。但是,笔者觉得大家对于大数据的期望值要谨慎一些,因为海量数据只有在得到有效治理的前提下,才能进一步发挥其价值。