典型Hadoop云计算
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

前言

什么是云计算?云计算是一种基于互联网的超级计算模式,在远程数据中心,几万台甚至几千万台计算机和服务器连接成一片。云计算甚至可以让人们体验每秒超过10万亿次的运算能力,如此强大的运算能力几乎无所不能。用户通过计算机、笔记本电脑、手机等方式接入数据中心,按各自的需求进行存储和运算。

云计算是传统计算机技术和网络技术发展融合的产物,也是引领未来信息产业创新的关键战略性技术和手段。云计算的广泛普及与应用,也将催生信息技术的第三次生产变革浪潮,引发未来新一代信息技术变革、IT应用方式的核心变革,同时也将带来工作方式和商业模式的根本性变革。作为21世纪IT业界乃至全社会关注的焦点和热点,未来云计算应用可以作为一种IT基础设施服务模式、一种信息服务的交付模式、一种基于互联网的新型商业模式,一种像供水、输电一样的创建性资源服务模式,将为人类社会提供更加方便、快捷、廉价的信息服务,为人们的工作、生活提供更多便利。

云计算作为新一代的技术变革,其发展受到了各行各业的关注,无论是政府部门,还是企事业单位,他们所签的如雪片一般的订单昭示了云计算的巨大市场。中国把云计算提高到了战略发展项目的高度,2010年10月,发改委、工信部联合发文通知,加强中国云计算创新发展的总体布局,并开展了云计算服务创新发展的一系列试点示范工作。“十二五”规划纲要中云计算也占据了引人注目的位置。有了广阔的前景和市场,加之政策的扶持,云计算项目在中国大有遍地开花之势。

与以往的高新技术不同,云计算不光给大型的企业和单位带来了实惠,对于中小型企业来说,更是一种莫大的机遇。过去,中小型公司人力资源不足,IT预算吃紧,动辄数百万元的IT设备和设备所带来的生产力提升离他们相距甚远,而现在,云计算为它们提供了大企业级的技术,前期成本低,升级方便。

这一新兴技术的重要性毋庸置疑,不过,它尚处于起步阶段,接下来会有一系列的变革。云计算甚至可以抹平企业规模所导致的优劣差距,而且极有可能让小企业占据优势。简言之,目前世界上功能最强、最具创新能力的技术已不再为大型企业所独享。事实上,每个人都已经开始不同程度地享受到这一技术了。

人们前期已经热衷于对云计算技术概念的专注研讨,而这个术语被广泛地定义为一个“计算”的本身。关于这个主题的文献已经被很多权威专家想象、分析描述如下。

● 一个毁灭性结构的架构。

● 一个21世纪的巨大潮流。

● 大的经济平均主义者。

● 一个全球社会和经济网络。

● 一个国家工业的毁灭。

● 媒体的民主时代。

● 一个国家终结的开始。

● 一个地球村的崛起。

● 全球恐怖组织扩展的加速器。

● 权力从西方向东方转移的加速器。

● 计算历史上的下一次革命。

● 数字和物理世界的融合。

有专业人士预测,到2020年,全球云计算市场规模将比现在增长5倍多,从406亿美元增长到2410亿美元以上,中小企业对于云计算的需求会逐年上升。可以预见的是,随着云计算日趋走向成熟,小型企业出于越来越多的技术需求会更加依赖于云计算,而其成本和复杂性也会逐渐降低。

Hadoop云是一个实现了MapReduce计算模型的开源分布式并行编程框架。MapReduce的概念来源于Google实验室,它是一个简化并行计算的编程模型,适用于大规模集群上的海量数据处理。

随着2007年底该模式Java开源实现项目Apache Hadoop的出现,使得程序员可以轻松地编写分布式并行程序,并将其运行于计算机集群上,完成海量数据的计算。近两年,尤其是2012年,国内外采用MapReduce模型的应用也逐渐丰富起来,如像NTT KDDI和中国移动这类公司采用该模型分析用户信息,优化网络配置;美国供电局采用该模型来分析电网现状;包括VISA和JP摩根在内的金融公司采用该模型来分析股票数据;包括Amazon和ebay在内的零售商和电子商务公司也开始采用该模型;甚至部分生物公司也采用该模型来进行DNA测序和分析。

经过几年的发展,在所有的开源云计算系统里,Hadoop一直稳居第一。而本书也因此诞生。

本书共分为9章,各章主要介绍内容如下。

第1章:介绍云计算背景与Hadoop,主要包括云的基本概念、云计算的优缺点、云计算存在的问题及Hadoop的概述及使用等内容。

第2章:介绍Hadoop的安装与配置,主要包括Hadoop的安装、Hadoop的组件、Hadoop常用命令及Hadoop的I/O操作等内容。

第3章:介绍Hadoop云计算的MapReduce详解,主要介绍MapReduce的总体结构、MapReduce工作原理、MapReduce基础模板及MapReduce应用实例等内容。

第4章:介绍Hadoop云计算的ZooKeeper详解,主要介绍ZooKeeper的基本概念、ZooKeeper的安装、ZooKeeper的配置及ZooKeeper的典型应用等内容。

第5章:介绍Hadoop云计算的Mahout详解,主要介绍Mahout的安装与配置、Mahout的相关算法、Naive Bayes分类器及Mahout的应用等内容。

第6章:介绍Hadoop云计算的Avro详解,主要介绍Avro模式、Avro数据、Avro协议等内容。

第7章:介绍Hadoop云计算的Chukwa详解,主要介绍Chukwa的架构、Chukwa的安装与配置、Chukwa源代码分析及Chukwa的应用实践等内容。

第8章:介绍Hadoop云计算的其他相关项目,主要介绍Hadoop的HBase详解、Hadoop的Hive详解、Hadoop的Pig详解及Hadoop的Cassandra详解等内容。

第9章:介绍Hadoop云计算的综合实例,主要介绍Hadoop云计算在移动通信信令监控与查询方面的综合实例及Hadoop在Last.fm的应用这两个应用实例。

本书由赵新芬编著,此外参加编写的还有李晓东、丁伟雄、雷晓平、李娅、杨文茵、何正风、赵书梅、栾颖、刘志为、周灵、周品、张德丰、余智豪和赵书兰。

由于作者水平有限,加之时间仓促,书中难免存在不足之处,敬请广大读者批评指正。

编著者

2012.8