3.3 大数据基础设施应用案例
目前,很多人只将眼光盯在数据分析与处理层面,而笔者认为,用户在尝试大数据解决方案之前,更应从全面角度去审视自身的基础架构是否适合大数据未来的需求与发展。简而言之,就是“大数据实践,基础架构先行”。只有如此,方能在大数据浪潮之中淘得金。本节主要介绍大数据基础设施的应用案例。
3.3.1 【案例】Streams监控婴儿ICU感染
ICU病室是医院主要科室之一,因其病人多来自于院内各科室,且病情危重,致使院内感染发生率在ICU相对增高。又因病人治愈后,又回散到原科室,使在ICU的耐药菌株被携带到医院各处而引起流行。由此可见,做好ICU病室的感染控制十分有必要。
安大略理工大学(UOIT)是加拿大最现代的公立大学,其拥有北美一流的教学设备和师资。学校目前正在使用Streams监控新生婴儿,提前24小时预测ICU感染。
安大略理工大学健康信息学首席科学家Carolyn McGregor博士称,这一技术让安大略理工大学能够搞清楚这些数据并分析它们,如揭示败血症的发生前兆,以及这些问题发生前的多种条件。
Streams提供了一种操作系统实现这个功能,其在多台计算机之间共享一个特定程序,这样系统作为一个整体就可以在不把数据提交到硬盘的情况下生成答案,解决了针对能够实时处理生成的海量流数据的平台和架构的一种迫切需求。
【案例解析】:在本案例中,InfoSphere Streams是一款满足即时处理、过滤和分析流数据需要的应用程序。流数据包括传感器数据(环保以及工业生产传感器产生的数据、监控视频、GPS产生的数据等)、“数据废气”(如网络/系统/Web服务器/应用程序服务器日志文件)、高速交易数据(如金融交易和呼叫详细记录)等。
预测分析与结构化数据未来将在医疗保健领域中被广泛应用,以帮助降低成本,防止病人病情恶化。大数据分析平台使医疗机构拥有更好使用这些信息的能力,这将从本质上改变医疗保健行业的未来。
3.3.2 【案例】沃尔玛打造商业数据中心
在2012年财政年度报表上,沃尔玛记录了4440亿美元的销售额,这个数字比奥地利的GDP多200亿美元。如果沃尔玛是一个国家的话,它将是第26个世界最大的经济体。
沃尔玛为何取得如此大的成就?笔者发现,沃尔玛其实是最早通过利用大数据而受益的企业之一,曾经拥有世界上最大的数据仓库系统。早在2007年,沃尔玛就已建立了一个超大的数据中心,其存储能力高达4PB以上。《经济学人》曾报道,沃尔玛的数据量已经是美国国会图书馆的167倍。
众所周知,沃尔玛的供应链是全球零售商中最先进的。早在20世纪80年代,沃尔玛就率先开发数据交换系统(Electronic Data Interchange, EDI)与供应商信息系统直接对接,实现了商品的自动补货。如图3-20所示为基于EDI的供应链信息组织与集成模式。为了加强数据的共享,沃尔玛还投资4亿美元发射卫星进行全球数据联网。通过全球网络,沃尔玛数千家门店可在一小时内对每种商品的库存、在架以及销售盘点一遍。
图3-20 基于EDI的供应链信息组织与集成模式
沃尔玛全球电子商务总监Stephen O'Sullivan称,沃尔玛实验室计划将沃尔玛的10个不同的网站整合成一个,同时将一个10个节点的Hadoop集群扩展到250个节点的Hadoop集群。目前,实验室正在设计几个能将当前像Oracle、Neteeza这样的开放资源的数据库进行迁移、整合的工具。
沃尔玛还通过先进的大数据预测分析技术发现两个电子产品连锁店Source和Carlie Brown的顾客的购买意向正在向高档产品转移,并及时调整了两家店的库存,一举将销售业绩提升了40%。大数据分析技术使得沃尔玛能够实时对市场动态做出积极响应。通过对消费者的购物行为等非结构化数据进行分析,沃尔玛成为最了解顾客购物习惯的零售商,并创造了“啤酒与尿布”的经典商业案例。
沃尔玛曾进行了一系列的收购,包括Kosmix(沃尔玛实验室前身)、Small Society、Set Direction、OneRiot、Social Calenda、Grabble等多家中小型创业公司,这些创业公司要么精于数据挖掘和各种算法,要么在移动社交领域有其专长,由此可见沃尔玛进军移动互联网和挖掘大数据的决心。
【案例解析】:从沃尔玛投入巨资开发大数据工具并推动大数据技术发展的案例中,笔者发现对大数据最热心的企业不是IT厂商,而是能直接从大数据中获益的传统企业,他们已经迫不及待,甚至跑到了厂商的前面。
线下零售的海量数据一旦可以整合,必将极大改变现有商业模式。零售巨头沃尔玛正在变革其电子商务模式,而大数据是这次变革的动因。如今,沃尔玛在大数据上的投资已经开始产生回报。相信在沃尔玛的带领下,传统行业也会慢慢意识到大数据的重要性,加速步入大数据时代。
3.3.3 【案例】Clustrix挖掘整合海量数据
Clustrix公司创建于2005年,Clustrix总部设在美国旧金山,研发中心设在西雅图。为打开欧洲市场,公司计划将总部迁至荷兰的阿姆斯特丹,还在印度设立了办公室。2010年,Clustrix推出了一个可高度扩容的伸缩式数据库解决方案Sierra,其提供了和SQL数据库相似的功能,同时还能对数据存储进行无限制扩展。
Clustrix Sierra被业内称之为云计算时代的MySQL,它可以帮助现在要处理海量数据的公司更快地找到数据并解决日益增长的数据扩容等问题。Clustrix Sierra可以为SQL数据库提供专利数据应用方法,帮助人们处理大量的数据,使SQL数据库无限扩容成为可能。
【案例解析】:除了传统的大企业已经开始进入大数据领域之外,还有不少的创业企业也意识到了大数据带来的商机,纷纷推出自己的产品,以期抓住大数据时代的机遇,Clustrix便是其中之一。
笔者在前面的章节已经介绍过,大数据的容量往往是PB级别,甚至有些用户的数据量开始达到EB级别,这要求未来的存储系统能够具备容量大、易扩展的特点。对海量的、无意义的“非结构化数据”进行挖掘提取,整合成结构化数据,并使之有意义或创造价值,这是很多大数据公司的根本愿望。而完成这些任务有一个前提,必须构架一个大数据分析平台,并利用该平台从海量数据中找到你需要的那部分,这就是创业公司Clustrix正在做的。
3.3.4 【案例】长虹联手IBM掘金大数据
2013年9月16日,IBM与长虹集团正式发布“绵阳IBM大数据分析竞争力中心”。据悉,该中心将以大数据分析和科学管理推动长虹集团智能战略实施和自身转型发展,从而实现绵阳市智慧城市的落地。
早在1999年,长虹就成功使用ERP系统对集团进行系统化管理。在家电领域,长虹是最早使用ERP系统进行管理的企业。ERP系统已经成为了长虹信息化的DNA,也是长虹现阶段发展大数据战略的关键基础。
2008年,长虹集团成立了虹信公司,开始对外输出软件业务,让更多企业能使用到长虹信息化的成果。
2012年,长虹虹信公司的收入达到了2.5亿元,为中国西南片区的酒类行业、巴斯夫、中海油、云天化等提供了系统的专项服务。
对于长虹来说,大数据服务并不是新起楼阁,随着长虹家庭互联网技术的成熟与整套产品的落地,云计算、大数据服务这些新兴业务将成为公司新的增长领域。而围绕大数据商业模式创新的长虹已积极展开多项相关技术合作开发,包括与中科院软件所进行大数据的数据挖掘项目合作,与中科大进行数据存储、图像识别、算法、云服务平台关键技术等方面的合作,与西安交大共同研发人脸识别、手势识别等技术。
例如,中国首款电视操作系统轩辕TVOS、全球首创的电视语音浏览器、超高清数字电视系统等,这些软件的研发为长虹带来一个更宽阔的视野,从单一智能终端走向多个智能终端的连接、交互、协同,这是对现有智能终端形态的一次大的颠覆。
在大数据智能时代,长虹芯片将是长虹智能产品的“大脑”,而软件(操作系统)将是“思想”,二者缺一不可。装备了长虹智能芯片和软件的第三代智能电视可以产生很多有趣的应用场景,例如电视节目向不同终端推送,电视控制调节冰箱、空调的状态,以及基于共同的内容产生的社交圈子等。
【案例解析】:在本案例中,处于大数据时代的长虹,无论是在硬件还是软件方面,都占据着相当有利的优势,同时更具备了各软件之间的融合以及硬件与软件间的融合,是最有能力把软件和硬件优势进行有效、完美整合的企业。
大数据对于长虹争夺家庭互联网入口的意义在于:它能使长虹的智能电视更“懂”用户,它能帮助用户实现这样一个梦想,“当你坐在沙发上,电视机就会自动打开,并且调到你最喜欢看的频道”。
3.3.5 【案例】LSI积极创新数据中心变革
LSI公司(LSI Corporation)是一家总部位于加利福尼亚州米尔皮塔斯(Milpitas)的半导体和软件领先供应商,其为加速数据存储中心与移动网络性能提供了许多领先的解决方案。
近日,LSI对其数据中心进行了以下两大创新:
➢ 为了解决闪存错误率高的现象,LSI创新了新技术LSI SHIELD。这是一种高级的纠错方法,即便同时使用出错率较高的廉价闪存存储器也能实现企业级的SSD耐久度和数据完整性。
➢ 针对典型数据库应用,通过LSI DVC(DuraWrite Virtual Capacity,一种全新的数据压缩技术)功能,其规划出的虚拟容量可以达到原物理容量的三倍。可以理解为新增的虚拟容量可以显著降低每GB的用户存储成本。
通过对数据的采集、存储和分析三个领域的深入研究,LSI不断解决用户在大数据方面的技术难点。
【案例解析】:不可否认我们已经身处大数据洪流中,无时无刻地体验着大数据带来的价值。面对大数据洪流,数据中心的变革已经迫在眉睫,数据中心的基石IT基础架构也需要转变。
面对大数据“多元、高速、海量”三个特点,以及未来基础设施足够的规模及经济性,这些因素推动移动计算的架构向数据流架构的转换。为了顺应这种变化,本案例中的LSI必须有智能的芯片解决方案,例如闪存、可共享的DAS架构以及异构的多核处理器,为迈进全新的数据中心时代做好全面的准备。