大数据:从海量到精准
上QQ阅读APP看书,第一时间看更新

3.1 探索全球,10大大数据部署方案

就在近两年,大数据应用突然爆炸,五彩缤纷的创意都变成现实。即使最谨慎的观察家也承认,大数据的商业应用时代已经来临,这都源于它前所未有的“从海量到精准”的预测能力。因此,大数据被认为是下一个创新、竞争和生产力的前沿,谁率先抓住大数据的先机即意味着能够在未来市场竞争中取得标杆地位。

俗话说:“工欲善其事,必先利其器。”在大数据实践之中,基础架构就犹如基石一般,是构建一切的基础,基础架构基石不稳,大数据“大厦将倾”,具有优秀的基础架构才能够让用户在未来的大数据之路中越走越宽。本节笔者就带大家一同回顾在世界各地那些不为人知却实际存在的大数据基础设施部署方案。

3.1.1 Netflix:掌握视频大数据炼金术

Netflix是一家在线影片租赁提供商,能够提供超大数量的DVD,而且让顾客可以快速方便地挑选影片,同时免费递送。

Netflix已经成为美国国内规模最大的商业视频流供应商——目前拥有2900万视频流客户。这家公司同时也成为吸收新增数据的“海绵”——用户在看什么、喜欢在什么时段观看、在哪里观看以及使用哪些设备观看,爆增的信息量成为Netflix手中的宝贵资产。他们甚至掌握着用户在哪个视频的哪个时间点后退、快进或者暂停,乃至看到哪里直接将视频关掉等信息。

IHS研究公司表示,2011年Netfix的网上电影营收超过苹果,网络电影销量占据美国用户在线电影总销量的45%,这主要得益于网络用户对在线视频的强大需求。

在美国众多的视频服务商里,Netflix是最早尝试将大数据和媒体行业结合起来的公司。现在Netflix公司开始推出自己的原创节目,而节目制作的依据正是刚刚提到的这些数据。例如,Netflix最新投资的电视剧“House of Cards”(纸牌屋),让人们见识了大数据分析对Netflix这样的新媒体公司的价值。

现在的Netflix不只提供线上影片出租与影片推荐服务,更是一家能够推出自制影集的全方位娱乐公司,其商业模式主要有两点,如表3-1所示。

表3-1 Netflix的商业模式

当初,Netflix由于缺乏相应的设计人员和数据平台,因此颁发了100万美金大奖,希望世界上的计算机专家和机器学习专家们能够改进Netflix推荐引擎的效率。随后,来自186个国家的四万多个团队经过近3年的较量,一个由工程师、统计学家、研究专家组成的团队夺得了Netflix的大奖,该团队成功地将Netflix的影片推荐引擎的推荐效率提高了10%。Netflix大奖的参赛者们不断改进影片推荐效率,Netflix的客户已经为此获益。

根据Sandvine市调公司研究报告,其下载量占全美网络下载量的32.25%,以绝对优势占据第一名的位置,如图3-1所示。

图3-1 2013年上半年全美网络视频下载量统计

专家提醒

Netflix在全球拥有超过2500万用户,每日平均3000万次的点击、播放、暂停、快转、回播,400万次的评价行为,300万次的搜索动作。

3.1.2 家谱网:建立更准确的血缘关系

家谱网到底有何魅力,先看看下面的两个资料。

资料1:著名主持人马丁是马英九的远房亲戚,且比马英九长6代——两人均出自扶风马氏,赵国大将军赵奢(马服君)之后。马丁是赵奢的第65世孙,而马英九是赵奢的第71世孙。

资料2:一个是中国奥运历史上首位冠军的安徽人许海峰,一个是来自台北的音乐人许常德,两位相隔几千公里的许姓男人,却有着一位共同的显赫祖先——唐朝宰相唐敬宗。

这些信息来自于2008年在国内上线的家谱网(jiapu.com),它是美国家谱网站Ancestry的中国版。Ancestry.com(家谱网)是一家家谱在线服务网站,拥有10PB的家族遗传数据,如图3-2所示。

图3-2 Ancestry.com(家谱网)主页

长久以来,Ancestry.com都是使用apache Hadoop以及其他的开源工具来进行数据 处理和分析的。然而,想要将Hadoop架构与dba数据处理联系起来,就极具挑战性,其中之一就是团队建设。因此,Ancestry.com构建了自己的搜索引擎,并对算法以及记录连接软件进行了仔细的调优,该引擎可以对网站的结构化数据和非结构化数据进行遍历。

Ancestry.com网站包含了大量出生、死亡、人口普查以及其他相关记录,这些记录起初大多是非结构化数据。随着用户以及家族数据的不断增长,Ancestry.com公司希望改善其信息检索的算法。

不久后,公司招募了一些数据科学家,他们选择使用最新的工具,把Hadoop、mapreduce以及R语言引入了Ancestry.com的工具集。Ancestry.com的团队使用Hadoop架构来对搜索进行优化,同时对客户流失率进行预测建模,并开始使用Hadoop以及相关的hbase nosql列式数据存储来对Ancestry DNA产品进行扩展。新的大数据平台利用高级内容处理技术对全部相关信息加以索引,使用染色体DNA测试技术来为用户提供更好的服务,从而保证数据的可搜索性,甚至能够对远亲进行准确识别,从而让Ancestry. com获得用户的认可。

例如,Ancestry.com通过对唾液进行采样,能够对客户的DNS进行排序并将结果与数据库中的其他客户加以匹配,客户甚至可以找到多年没有联系的表亲。

专家提醒

目前,家谱网累积的华人家谱总库中,包含65584种家谱数据,年代跨越明、清、民国以及当代,地域覆盖24个省及地区。其中,最早能追溯到1498年(明代)休宁陪郭(地名)的叶氏世谱。

Ancestry.com帮助人们将自己与家庭史结合起来并创建独一无二的树状家谱。从表面上看,这个主意似乎没什么技术含量,但为了实现这项功能,网站需要维护超过110亿条记录与高达4PB的数据量——其中包括历史记录、出生记录、死亡记录、战争与移动记录甚至年鉴等,其中不少往往采取手写格式。

想要构建这一大数据平台,需要涉及大量的操作,大约有70万个DNA样本要与Ancestry.com数据库汇总已有的相同数量样本进行配对比较。Ancestry.com的团队对学术算法进行了改写,从而可以在Hadoop和hbase上运行并行的任务,这样做可以大大提升海量数据处理的速度。

Ancestry.com拥有明晰的盈利方式以及庞大的付费用户。付费用户可以分为两类,查看美国本土资料的用户和查看世界资料的用户,但收费不同。另外,在开发个人用户价值之外,Ancestry.com还盯上了企业用户,例如数据库能使得企业的宣传销售更具针对性,以便提供个性化服务。数据库里的庞大家谱相当于“商品”,用户有需要时,便可付费购买。

3.1.3 西奈山:更深刻地理解数据形态

西奈山医院始建于1852年,是美国历史最悠久和最大的教学医院之一,以其在临床治疗、教学和科研方面的杰出成绩而闻名于世。

西奈山医院的很多新设备都是用来采集分析数据的,它运行Hadoop软件进行大数据分析。医院希望计算机专家利用大数据来寻找联系,例如在ICU中发现的微生物的DNA,或者跟踪那些使用家用监控器的病人发来的数据流。

来自Facebook的首席数据科学家杰夫·哈默巴赫尔(Jeff Hammerbacher)负责设计这一切,他用分析目标在线广告的数据技术来分析各类基因数据和生物学信息,目的是减少医疗费用,同时探索“个性化医疗”。

目前,西奈山医院正利用来自大数据新兴企业Ayasdi公司的技术对整个大肠杆菌基因组序列进行分析,其中包括超过100万个DNA变异,旨在努力理解某些菌株如何在与抗生素的共处中获得抗药性。细菌的抗药性影响着全球各地数以百万计的病人。Ayasdi的技术为数学研究、拓扑数据分析(简称TDA)开辟了一片新天地,有助于人们更深刻地理解数据形态。

在研究的基础上建立相应的数据库,结合日益普及的个人基因监测服务,正成为个性化医疗的基础。个性化医疗会彻底改变我们对待健康和疾病的方式,无论从政府、技术、学术还是产业层面,个性化医疗都是大势所趋。

3.1.4 CAIISO:实现电厂电网的智能化

美国加利福尼亚州独立系统运营商(California Independent System Operator, CAIISO)管理着全加州地区超过八成电网中的供电走向,每年提供的电力达到2.89亿千万时,惠及3500万民众,供电线路的总长度超过25000英里。

CAIISO所有的大型电厂都已经用上了企业后台办公系统,其中包括地理信息系统(GIS)、停电管理以及配电管理系统(DMS)。为了实现电网的智能化,CAIISO利用带有分析工具的历史数据功能接收数据流,将其与历史模式进行比较和对比,以便找出数据中的异常情况,如图3-3所示。

图3-3 独立运营商(ISO)基础设施中的关键组件

ISO利用Space-Time Insight公司的软件实现情景智能化机制,从而将来自多个来源的大规模数据进行关联与分析——其中包括天气状况、传感器数据以及计量设备测绘结果等,并以可视化形式帮助用户查看并理解如何对可再生能源进行优化,以实现整个电网的电力供需平衡并快速应对潜在危机。

3.1.5 Hydro One:把大数据放地图上

Hydro One(英语Ontario,简称安省)是加拿大安大略省多伦多市最大的电力输送集团,负责为全省的家庭及企业提供电力。Hydro One公司拥有并经营安大略省内总长达29000公里的高压输电网络以及总长达123000公里、直接面向130万用户的低压配电系统,如图3-4所示。

图3-4 Hydro One公司的高压输电网

Hydro One使用的是由Space-Time Insight提供的地理空间与可视化分析软件,旨在改进当前输电与配电资产的健康性与可靠性。Space-Time Insight是一家将大数据、数据可视化、地图LBS服务三者整合起来的公司,他们将企业需要的大量专业数据以地理信息的形式展现在地图上,让人们更好地了解、比较和研究他们所需的信息,如图3-5所示。

图3-5 Space-Time Insight的地理空间与可视化分析软件

Space-Time Insight打造的这套系统能帮助资产管理者及时获取相关情报,包括资产性能随时间推移而发生的变化、资产更换战略以及资产维护需求等。该方案还能将数据与其他多种不同系统的功能结合起来,包括SAP ECC、SAP BW、GIS系统以及实时数据等,从而帮助Hydro One对自身拥有的资产具备宏观掌控能力。

虽然Space-Time的主要重心仍然放在电力行业,但无疑在其他能源、运输、气象等行业都有广阔的前景。而且除了企业市场,这类地图可视化技术在传统消费、生活服务市场也会有乐观的应用前景。

专家提醒

在大数据时代,笔者认为企业更应该聚焦非结构化数据,结构化数据已经有了不错的归宿,非结构化数据才是我们处理的难题。据预测,到2020年,非结构化数据将数十倍于传统的结构化数据,成为大数据最主要的数据来源。

3.1.6 OHSU:结合数据虚拟化技术

俄勒冈健康与科学大学(Opegon Health and Science University, OHSU)是一所历史悠久、以研究为取向的最好的综合性公立大学,下辖两所医院、一座一级创伤恢复中心和一家儿童医院。学校致力于人类健康事业的发展,专注于提高食品安全、疑难疾病的预防与治疗等方面的研究。

为了追踪学校内4000个注液泵的实时位置与工作状态,更快地掌握注入到患者循环系统当中的液体、药物或者营养物质,校方将Stanley Black与Decker Disivion Stanley Healthcare提供的Mobile View软件与Tableau软件的数据虚拟化技术结合起来,改变传统的手动执行方式。该技术还允许校方对历史及当前资产数量进行分析,进而更好地规划未来数量水平,提高库存物资的分配与利用效率。

Tableau公司将数据运算与美观的图表完美地结合在一起,如图3-6所示。它的程序很容易上手,各公司可以用它将大量数据拖放到数字“画布”上,转眼间就能创建好各种图表。这一软件的理念是,界面上的数据越容易操控,公司对自己所在业务领域里的所作所为到底是正确还是错误,就能了解得越透彻。

图3-6 Tableau Mobile软件界面

专家提醒

如今,每个企业都会有很多数据以及产生很多问题,为了分析这些数据,人们可以创建图表把数据与问题联系起来,但很多时候大家不确定从哪种图表可以得到自己要找的答案。Tableau通过把数据搁置于独立的、静态的图中,限制了能够解决问题的范围。通过如何让数据成为决策的核心,以数据讲述一个故事来做出决策,以及添加一张图、提供过滤器以了解得更深入,Tableau能帮助企业解决问题,它所带来的商业洞察力和回答问题的速度能与你的思想同步。

3.1.7 VTN:公共设施的实时3D模型

过去,大部分城市中的公共事业机构都是采用古老的手动记录方式,处理地下的各种资产,因此信息准确度十分低。例如,居民往往会由于某条供电线被意外切断或者某条供水管线老化爆裂而受到影响。

拉斯维加斯(Las Vegas)作为美国内华达州的最大城市,为了避免这些难题,市政部门采取智能数据方式开发出一套实时公共事业网络模型。另外,VTN咨询公司帮助市政当局通过各种渠道汇总数据,并利用Autodesk技术创建出实时3D模型。这套模型中包含着地上与地下的所有公共设施,目前已经被用于监测城市地下设施的具体位置以及运转状况。

专家提醒

大数据虽然在不同的应用场景、不同的企业环境其应用方式会千差万别,但是常见的基本架构是大同小异的。经过分析与处理,能够应用于实践指导的信息数据会被整理到数据中心、应用程序以及基础设施当中,企业管理者需要以此为基础进一步将其导入各类系统及业务流程中,并最终获得(近乎)实时的决策能力。

3.1.8 戴德县:实现大型城市的智能化

迈阿密-戴德县(Miami-Dade County, Florida)是位于美国佛罗里达州东南部的一个县,2005年估计人口达2376014,成为美国的第8大县。

迈阿密-戴德县响应IBM提出的智能化城市倡议,希望将35个区域自治单位与迈阿密市聚拢起来,以便做出更为明智的管理决策——包括充分利用水资源、减少交通拥堵以及改善公共安全等,如图3-7所示。

图3-7 智能化城市的构成体系

为此,IBM(国际商业机器公司,International Business Machines Corporation, IBM)通过云计算环境下的深层分析为该县带来一套情报仪表板,从而帮助各机关与部门彼此协作并实现可视化管理。

智慧城市具有3项基本特征,分别是物联化、互联化和智能化。基于这3个特征的IBM智慧地球计划自2008年开始展开,并且在近年来加速,且出现了很多成功的落地项目。以2012年为例,IBM先后发布了智慧云上的智慧交通新版本、智慧云上的智能运算中心新版本及智慧云上的智慧水利新版本。基于这一系列方案,IBM搭建了涵盖公共安全、交通、水利等多个领域的解决方案,并搭建了智能运营中心。

专家提醒

笔者认为,城市管理只有利用大数据,才能获得突破性改善,诸多产业利用大数据,才能发现创新升级的机会点,进而获得先发优势……有了云计算、物联网,但缺乏大数据分析处理的核心技术,智慧城市的“大脑”就不够发达,“智商”就不够高,“能力”就不够强。

3.1.9 澳网:利用大数据分析做出决策

澳大利亚网球公开赛(Australian Open,简称“澳网”)是网球四大满贯赛事之一,也是四大满贯赛事中每年最先登场的,通常于每年1月的最后两个星期在澳大利亚墨尔本市的墨尔本公园举行。

澳大利亚网球公开赛的总奖金在2013年达到3100万澳元(3260万美元),是四大满贯中奖金最高的赛事。澳大利亚网球公开赛自1905年创办以来,至今已经走过了一百多年的历史,赛事目前由澳大利亚网球协会(Tennis Australia)主办。

在平时,澳大利亚网球协会的运作状态与普通的小型企业没什么差别,然而一旦到了为期两周的澳网公开赛时期,协会瞬间就成了一家规模庞大、对数据极度渴求的大型企业——他们需要不间断地访问准确内容、数据以及统计结果,从而进行分析并做出决策。

下面提供一组2013年度澳大利亚网球公开赛的统计资料:

➢ 684457名球迷到现场观看了比赛。

➢ 澳网网站有1410万绝对造访人次。

➢ 澳网Social Leaderboard追踪到900多万涉及球员的Twitter。

➢ 澳大利亚网球协会在比赛期间获取了约60TB的数据和视频资源,本次赛事男子抽签127场比赛打了764盘。

目前,澳大利亚网球协会采用IBM的实时数据分析软件来检查赛程进行状态、运动员人气、历史数据记录以及社交媒体上球迷们对比赛网站提出的数据需求。根据实际需求,这项技术能够为分析工作分配必要的计算资源。

澳大利亚网球公开赛网站上提供IBM SlamTracker工具,用以分析8年大满贯赛事比赛的4100万个数据点,如图3-8所示。除了其他方面之外,该工具还有一项功能,称为“Keys to the Match”,可帮助球迷了解球员为了在某项特定比赛中取胜,需要做哪些工作。当一场比赛拉开帷幕时,该工具根据关键点测评每个球员的表现并实时更新,从而提供更深入的洞察力,包括高比例第二发球接发或者上网成功率是否有助于挑高球过人。

图3-8 IBM智能分析平台SlamTracker

例如,在李娜与小威廉姆斯的比赛中,李娜一方获得赢球的关键包括3个指标(如图3-8所示):1.一发(首次发球)得分率超过69%;2.4~9拍相持中得分率要超过48%;3.发球局30-30或40-40时得分率要超过67%。

而在实际的比赛中,李娜只完成了第二项指标,相比之下,小威廉姆斯则完成了两个指标。因此,据此分析,李娜出局主要跟一发得分率低、双方平分时未能获得关键分数有关。

为了打造完善的大数据基础设施,澳大利亚网球协会还与Aruba共同构筑安全可靠、灵活、可扩展的无线网络,而它所具备的环境意识功能,更可有效地管理紧凑赛程网络状况。这意味着协会能够非常准确预测网络连接需求高峰的时间和地点,从而调整网络满足所需。

据悉,在2013年澳网比赛的两周内,单是#ausope标签就有一百多万条微博,澳网Facebook页面增加到约887158。社交媒体洞察力在澳大利亚网球协会和其他机构的决策以及与客户互动方面,具有越来越重要的作用。在该满贯赛事期间,使用先进的IBM分析软件和自然语言处理技术来评估Twitter、Facebook、新闻网站、博客和视频等网站上数十万社交媒体消息分享的正面和负面情绪。

专家提醒

数据分析已经深入体育运动,并且在改变体育运动的发展模式。大数据将改变我们消费、观看网球等体育运动以及与其进行互动的方式。那些拥护并利用该技术为业务决策以及与球迷联络提供相关信息的机构,和竞争对手相比,将赢得竞争优势。

3.1.10 DPR:结合3D技术与大数据

美国加州大学旧金山分校斥资15亿美元在米慎湾兴建了一座医学中心,这也是第一座建造时间超过十年的医学中心,承包商为DPR Construction公司。

DPR Construction公司利用Autodesk公司的3D技术,帮助设计师们收集空气流量、建筑物朝向、楼体间距、环境永续性以及建筑性能等数据,并将结果导入到一套单独的虚拟模型当中。通过这种方式,建筑师、设计师以及旗工队伍能够以可视化方式掌握遍布整个运作环境下的数亿个数据标记。

专家提醒

Autodesk公司的Vault数据管理软件可以帮助设计、工程和施工团队组织、管理和跟踪数据创建、仿真和文档编制流程。借助版本管理功能,企业可以更好地控制设计数据,快速查找和重用设计数据,从而更加轻松地管理设计与工程信息。使用Autodesk Vault后,用户可以在一个平台下管理所有的CAD和非CAD数据,从而提高工作效率,如图3-9所示。

图3-9 Autodesk Vault