1.4 Hadoop使用
Hadoop是一个开源的、高效的云计算实现平台,其不仅在云计算领域用途广泛,同时在海量数据处理、数据挖掘、机器学习、科学计算等领域也越来越受到青睐。以下将列出著名企业使用Hadoop的情况,这些数据大多数统计的时间在2008年,目前Hadoop的使用远远超出这些数据。
1.4.1 国外Hadoop使用
1.Yahoo
Yahoo是Hadoop的最大支持者,大约有两万台计算机,超过10万个CPU运行Hadoop。最大的一个机群有2000个节点(每个节点2×4 CPU boxes w,4TB磁盘)用于支持广告系统和Web搜索的研究,用于可扩展性测试,以便支持更大机群上的Hadoop开发。
2.FaceBook
FaceBook使用Hadoop存储内部日志与多维数据,并以此作为报告、分析和学习的数据源。使用320台机器的机群,共计2560个核,大约1.3PB的原始存储。每个商用节点8个核,4TB数据存储。作为Streaming API和Java API的重要用户,FackBook使用这些特性建立了一个名为Hive的数据仓库框架,目前Hive已经正式成为基于Hadoop的相关项目,Apache一级项目。此外,开发了HDFS上的FUSE实现。
3.A9.com-Aamzon
Amazon使用Streaming API及C++、Perl和Python工具构建了商品搜索索引。使用Java和Streaming API分析处理每日数以百万计的会话。机群的节点数目在1~100之间变化。
4.Adknowledge(广告网络)
美网络广告公司使用Hadoop构建行为导向的广告推荐系统,并进行单击流分析。每日处理500MB的单击流。机群的节点数目在50~200之间变化,机群主要基于EC2。在集群上使用Hadoop进行统计分析及大规模建模。
5.CbIR(图像检索引擎)
2008年4月以来,日志的CbIR(Content-based Information Retrieval)公司在亚马逊EC2上使用Hadoop来构建图像处理环境,用于图像产品推荐系统。使用Hadoop环境生成源数据库,便于Web应用对其进行快速访问。同时使用Hadoop分析用户行为的相似性。
6.Last.Fm
Last.Fm(为Audioscrobbler音乐引擎设计团队的旗舰产品,以英国为总部的网络电台和音乐社区)拥有50个节点(双Xeon LV 2 GHz,4GB内存,每个节点1TB存储;双Xeon L58321.86GHz,8GB内存,每个节点3TB存储),主要用于图表计算、日志分析、A/B测试等。
7.NetSeer
NetSeer是一家专注于新一代搜索和定向广告技术的初创公司,其为Amazon EC2上使用最多的实例(1000个)。数据存储于Amazon S3。使用Coloc的50个节点的机群。使用Hadoop作数据抓取、处理、服务和日志分析。
8.Powerset/Microsoft(自然语言搜索)
Powerset为一家位于加州圣弗朗西斯科的公司,正在开发互联网上的自然语言搜索引擎。其使用Amazon EC2上近400个实例,数据存储于Amazon S3。微软对Hadoop的一个子项目HBase有所贡献。
9.Quantcast
美国的Quantcast公司本身有300个CPU,3500 TB存储。每日处理1PB以上的数据。使用完全自定义的数据路径和排序器的Hadoop调度器,对KFS文件系统有突出贡献。
10.Rapleaf
16个节点的机群(每个节点2个双核CPU,2TB存储,4GB内存),主要使用Hadoop处理Web上关联到个人的数据,引入Cascading简化数据流来穿过各种处理阶段。
11.WorldLingo
基硬件有44台服务器(每台2个双核CPU,2TB存储,8GB内存),每台服务器均运行Xen,开一个虚拟机实例运行Hadoop/HBase,再开一个虚拟机实例运行Web或应用程序服务器,即有88台可用的虚拟机。运行两套独立的Hadoop/HBase机群,它们各自拥有22个节点。Hadoop主要用于运行HBase和MapReduce作业,扫描HBase的数据表,执行特定的任务。HBase作为一种可扩展的、快速的存储后端,用于保存数以百万计的文档。目前存储了1200万篇文档,近期的目标是存储4亿5000万篇文档。
12.University of Glasgow-Terrier Team
30个节点的机群(Xeon Quad Core 2.4 GHz,4GB内存,每节点1TB存储)。使用Hadoop促进信息检索研究和试验,特别是用于TREC,用于Terrier IR平台。Terrier的开源发行版中包含了基于Hadoop MapReduce的大规模分布式索引。
13.University of Nebraska Lincoln,Research Computing Facility
运行的一个中等规模的Hadoop机群(200 TB)用于存储和提供物理数据,以支持紧凑型)子螺旋型磁谱仪(CMS,Compact Muon Solenoid)试验的计算。这需要一类能够以几Gb/s的速度下载数据,并以更高的速度获得本地处理数据的文件系统的支持。
14.Vsisible Measures Corporation
将Hadoop作为可扩展数据流水线的一个组件,最终用于VisibleSuite等产品。使用Hadoop汇总、存储和分析与网络视频观众收看行为相关的数据流。目前的网络包括超过128个CPU核,超过100TB的存储,并计划大幅扩容。
15.Tailsweep——面向blog和其他社会化媒体的广告网络
拥有8个节点的机群(Xeon Quad Core 2.4 GHz,8GB内存,每个节点1套500GB RAID 1存储)用于一个概念验证性机群,主要处理诸如数据挖掘和Blog抓取等应用。
1.4.2 国内Hadoop使用
1.百度
百度用Hadoop来分析日志的搜索、在网页数据库上做一些挖掘工作。每周处理大约3000TB。集群有10~500个节点。百度也支持Hypertable。
2.中国移动
中国移动于2010年5月正式推出BigCloud1.0,集群节点达到了1024,移动大云是基于Hadoop的Map Reduce实现了分布式计算,并利用了HDFS来实现分布式存储,目前正在研究将大云应用在移动业务中。
3.阿里巴巴
阿里巴巴拥有一个Hadoop集群,提供各种商业业务数据处理。这个集群利用Map Reduce将各种应用规约在一起,然后这些数据被送入阿里巴巴的垂直搜索引擎iSearch,其中每个节点有8个核心,16GB的RAM和1.4TB的存储空间。
4.优酷
优酷使用小的Hadoop集群,以减少内部指标、搜索索引和推荐数据的数据使用。
5.天涯
天涯主要使用Hadoop进行日志分析。