1.4 Hadoop使用_典型Hadoop云计算-QQ阅读男生轻小说网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

1.4 Hadoop使用

Hadoop是一个开源的、高效的云计算实现平台，其不仅在云计算领域用途广泛，同时在海量数据处理、数据挖掘、机器学习、科学计算等领域也越来越受到青睐。以下将列出著名企业使用Hadoop的情况，这些数据大多数统计的时间在2008年，目前Hadoop的使用远远超出这些数据。

1.4.1 国外Hadoop使用

1.Yahoo

Yahoo是Hadoop的最大支持者，大约有两万台计算机，超过10万个CPU运行Hadoop。最大的一个机群有2000个节点（每个节点2×4 CPU boxes w，4TB磁盘）用于支持广告系统和Web搜索的研究，用于可扩展性测试，以便支持更大机群上的Hadoop开发。

2.FaceBook

FaceBook使用Hadoop存储内部日志与多维数据，并以此作为报告、分析和学习的数据源。使用320台机器的机群，共计2560个核，大约1.3PB的原始存储。每个商用节点8个核，4TB数据存储。作为Streaming API和Java API的重要用户，FackBook使用这些特性建立了一个名为Hive的数据仓库框架，目前Hive已经正式成为基于Hadoop的相关项目，Apache一级项目。此外，开发了HDFS上的FUSE实现。

3.A9.com-Aamzon

Amazon使用Streaming API及C++、Perl和Python工具构建了商品搜索索引。使用Java和Streaming API分析处理每日数以百万计的会话。机群的节点数目在1～100之间变化。

4.Adknowledge（广告网络）

美网络广告公司使用Hadoop构建行为导向的广告推荐系统，并进行单击流分析。每日处理500MB的单击流。机群的节点数目在50～200之间变化，机群主要基于EC2。在集群上使用Hadoop进行统计分析及大规模建模。

5.CbIR（图像检索引擎）

2008年4月以来，日志的CbIR（Content-based Information Retrieval）公司在亚马逊EC2上使用Hadoop来构建图像处理环境，用于图像产品推荐系统。使用Hadoop环境生成源数据库，便于Web应用对其进行快速访问。同时使用Hadoop分析用户行为的相似性。

6.Last.Fm

Last.Fm（为Audioscrobbler音乐引擎设计团队的旗舰产品，以英国为总部的网络电台和音乐社区）拥有50个节点（双Xeon LV 2 GHz，4GB内存，每个节点1TB存储；双Xeon L58321.86GHz，8GB内存，每个节点3TB存储），主要用于图表计算、日志分析、A/B测试等。

7.NetSeer

NetSeer是一家专注于新一代搜索和定向广告技术的初创公司，其为Amazon EC2上使用最多的实例（1000个）。数据存储于Amazon S3。使用Coloc的50个节点的机群。使用Hadoop作数据抓取、处理、服务和日志分析。

8.Powerset/Microsoft（自然语言搜索）

Powerset为一家位于加州圣弗朗西斯科的公司，正在开发互联网上的自然语言搜索引擎。其使用Amazon EC2上近400个实例，数据存储于Amazon S3。微软对Hadoop的一个子项目HBase有所贡献。

9.Quantcast

美国的Quantcast公司本身有300个CPU，3500 TB存储。每日处理1PB以上的数据。使用完全自定义的数据路径和排序器的Hadoop调度器，对KFS文件系统有突出贡献。

10.Rapleaf

16个节点的机群（每个节点2个双核CPU，2TB存储，4GB内存），主要使用Hadoop处理Web上关联到个人的数据，引入Cascading简化数据流来穿过各种处理阶段。

11.WorldLingo

基硬件有44台服务器（每台2个双核CPU，2TB存储，8GB内存），每台服务器均运行Xen，开一个虚拟机实例运行Hadoop/HBase，再开一个虚拟机实例运行Web或应用程序服务器，即有88台可用的虚拟机。运行两套独立的Hadoop/HBase机群，它们各自拥有22个节点。Hadoop主要用于运行HBase和MapReduce作业，扫描HBase的数据表，执行特定的任务。HBase作为一种可扩展的、快速的存储后端，用于保存数以百万计的文档。目前存储了1200万篇文档，近期的目标是存储4亿5000万篇文档。

12.University of Glasgow-Terrier Team

30个节点的机群（Xeon Quad Core 2.4 GHz，4GB内存，每节点1TB存储）。使用Hadoop促进信息检索研究和试验，特别是用于TREC，用于Terrier IR平台。Terrier的开源发行版中包含了基于Hadoop MapReduce的大规模分布式索引。

13.University of Nebraska Lincoln,Research Computing Facility

运行的一个中等规模的Hadoop机群（200 TB）用于存储和提供物理数据，以支持紧凑型）子螺旋型磁谱仪（CMS，Compact Muon Solenoid）试验的计算。这需要一类能够以几Gb/s的速度下载数据，并以更高的速度获得本地处理数据的文件系统的支持。

14.Vsisible Measures Corporation

将Hadoop作为可扩展数据流水线的一个组件，最终用于VisibleSuite等产品。使用Hadoop汇总、存储和分析与网络视频观众收看行为相关的数据流。目前的网络包括超过128个CPU核，超过100TB的存储，并计划大幅扩容。

15.Tailsweep——面向blog和其他社会化媒体的广告网络

拥有8个节点的机群（Xeon Quad Core 2.4 GHz，8GB内存，每个节点1套500GB RAID 1存储）用于一个概念验证性机群，主要处理诸如数据挖掘和Blog抓取等应用。

1.4.2 国内Hadoop使用

1.百度

百度用Hadoop来分析日志的搜索、在网页数据库上做一些挖掘工作。每周处理大约3000TB。集群有10~500个节点。百度也支持Hypertable。

2.中国移动

中国移动于2010年5月正式推出BigCloud1.0，集群节点达到了1024，移动大云是基于Hadoop的Map Reduce实现了分布式计算，并利用了HDFS来实现分布式存储，目前正在研究将大云应用在移动业务中。

3.阿里巴巴

阿里巴巴拥有一个Hadoop集群，提供各种商业业务数据处理。这个集群利用Map Reduce将各种应用规约在一起，然后这些数据被送入阿里巴巴的垂直搜索引擎iSearch，其中每个节点有8个核心，16GB的RAM和1.4TB的存储空间。

4.优酷

优酷使用小的Hadoop集群，以减少内部指标、搜索索引和推荐数据的数据使用。

5.天涯

天涯主要使用Hadoop进行日志分析。