大数据技术基础
上QQ阅读APP看书,第一时间看更新

1.4 大数据解决方案

目前很多企业都提供了大数据解决方案,典型有Cloudera、Hortonworks、MapR和FusionInsight等,下面分别介绍。

1.Cloudera

在Hadoop生态系统中,规模最大、知名度最高的是Cloudera,它既是公司的名字,也代表Hadoop的一种解决方案。Cloudera可以为开源Hadoop提供支持,同时将数据处理框架延伸到一个全面的“企业数据中心”范畴,这个数据中心可以作为管理企业所有数据的中心点,它可以作为目标数据仓库、高效的数据平台、或现有数据仓库的ETL来源。

2.Hortonworks

Hortonworks数据管理解决方案使组织可以实施下一代现代化数据架构。Hortonworks是基于Apache Hadoop开发的,可以从云的边缘以及内部来对数据资产进行管理,无论数据是静态还是动态的。Hortonworks数据平面服务(DPS)可以轻松地配置和操作分布式数据系统(不管是数据科学、自助服务分析,还是数据仓储优化)。由于治理功能是内置的,并且基于开放源码技术(如Apache Atlas),所以Hortonworks DPS用户可以轻松访问防火墙、公有云(或两者的组合)背后的可信数据(无论类型或来源如何),这使得组织能够从源到目标获得受信任的沿袭。Hortonworks Data Flow (HDF)能够收集、组织、整理和传送来自于全联网(设备、传感器、点击流、日志文件等)的实时数据。Hortonworks Data Platform(HDP)能够用于创建安全的企业数据池,为企业提供信息分析,实现快速创新和实时深入了解业务动态。

3.MapR

MapR是一个比现有Hadoop分布式文件系统还要快三倍的产品,并且也是开源的。MapR配备了快照,并号称不会出现单节点故障,且与现有HDFS的API兼容,因此非常容易替换原有的系统。MapR使Hadoop变为一个速度更快、可靠性更高、更易于管理、使用更加方便的分布式计算服务和存储平台,并扩大了Hadoop的使用范围和方式。MapR包含了开源社区的许多流行工具和功能,例如HBase、Hive以及和Apache Hadoop兼容的API。

4.华为FusionInsight

华为FusionInsight大数据平台,能够帮助企业快速构建海量数据信息处理系统,通过对企业内部和外部的巨量信息数据实时与非实时的分析挖掘,发现全新价值点和企业商机。FusionInsight是完全开放的大数据平台,可运行在开放的X86架构服务器上,它以海量数据处理引擎和实时数据处理引擎为核心,并针对金融和运营商等数据密集型行业的运行维护及应用开发等需求,打造了敏捷、智慧、可信的平台软件和建模中间件,让企业可以更快、更准、更稳地从各类繁杂无序的海量数据中发现价值。

基于华为对电信运营商网络和业务的长期专注和深刻理解,FusionInsight大数据平台还集成了企业知识引擎和实时决策支持中心等能力。企业级的实时知识引擎是电信运营商大数据解决方案的核心,数据在这里经过分析和挖掘形成真正有价值的知识。实时决策中心是事件适配和策略生成的核心,数据在这里经过适配生成对应的策略,满足特定场景的决策需求。丰富的知识库和分析套件工具、全方位企业实时知识引擎和决策中心,能够帮助运营商在瞬息万变的数字商业环境中快速决策,实现敏捷的商业成功。开发者可以在华为FusionInsight大数据平台上,基于大数据的各类商业应用场景,比如增强型BI、客户智能和数据开放,为金融、运营商等客户实现数据的价值——效率提升和收入提升。

FusionInsight解决方案由四个子产品FusionInsight HD、FusionInsight MPPDB、FusionInsight Miner、FusionInsight Farmer和一个操作运维系统FusionInsight Manager构成,如图1.6所示。

图1.6 FusionInsight的构成

• FusionInsight HD:企业级的大数据处理环境,是一个分布式数据处理系统,对外提供大容量的数据存储、分析查询和实时流式数据处理分析能力。

• FusionInsight MPPDB:企业级的大规模并行处理关系型数据库。FusionInsight MPPDB采用MPP(Massive Parallel Processing)架构,支持行存储和列存储,提供PB(Petabyte,250字节)级别数据量的处理能力。

• FusionInsight Miner:企业级的数据分析平台,基于华为FusionInsight HD的分布式存储和并行计算技术,提供从海量数据中挖掘出价值信息的能力。

• FusionInsight Farmer:企业级的大数据应用容器,为企业业务提供统一开发、运行和管理的平台。

• FusionInsight Manager:企业级大数据的操作运维系统,提供高可靠、安全、容错、易用的集群管理能力,支持大规模集群的安装部署、监控、告警、用户管理、权限管理、审计、服务管理、健康检查、问题定位、升级和补丁等功能。

5.云上大数据解决方案

云上大数据解决方案主要有阿里云与亚马逊云。

阿里云创立于2009年,是全球领先的云计算及人工智能科技公司,致力于以在线公共服务的方式,提供安全、可靠的计算和数据处理能力,让计算和人工智能成为普惠科技。

阿里云为制造、金融、政务、交通、医疗、电信、能源等众多领域的企业提供服务,包括中国联通、12306、中石化、中石油、飞利浦、华大基因等大型企业客户,以及微博、知乎、锤子科技等明星互联网公司。甚至在天猫双11全球狂欢节、12306春运购票等极富挑战的应用场景中,阿里云保持着良好的运行纪录。

亚马逊云(Amazon Web Services,AWS)是亚马逊提供的专业云计算服务,于2006年推出,以Web服务的形式向企业提供IT基础设施服务,通常称为云计算,其中一个优势是能够根据业务发展需要以较低可变成本来替代前期基础设施的大量投入。

亚马逊云提供服务包括:亚马逊弹性计算网云(Amazon EC2)、亚马逊简单储存服务(Amazon S3)、亚马逊简单数据库(Amazon SimpleDB)、亚马逊简单队列服务(Amazon Simple Queue Service)以及Amazon CloudFront等。