自己动手做大数据系统(第2版)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.3 大数据平台的技术架构选型和产品对比

在企业技术架构中典型的数据架构可以分3层,如图1-3所示。

图1-3 数据架构分层

随着数据量的增加和业务应用实时消费的需求,以上架构在处理层上存在严重的劣势。这时数据无法满足灵活弹性的按需存储需求,也无法满足海量的数据计算及其计算速度(单位时间处理的数据量)需求。要想解决传统架构的劣势,需要通过图1-4中架构的数据平台来实现。

图1-4 对处理层进行分割后的架构分层图

在满足以上数据架构的平台中,目前企业界主要有以下几种解决方案。

• 开源大数据组件集成及二次开发解决方案。

该方案基于大数据的开源生态系统组件Apache Hadoop、Hive、Spark等进行版本匹配的集成部署,以实现满足数据架构中的数据存储、数据计算和数据服务。根据业务的需要和企业数据平台的战略定位,企业会选择在源码的基础上进行二次开发和集成,以弥补开源版本缺陷修复不及时的缺点,或者进行对外数据服务能力的产品化开发设计。国内有些大型厂商就是基于开源组件进行二次开发集成,经过“千锤百炼”才最终打造成可以对外的产品化的解决方案平台的,如阿里的数加平台、腾讯的TDW大数据平台。

• 国外大数据公司的解决方案。

CDH(Cloudera’s Distribution Including Apache Hadoop)是由美国Cloudera公司进行开发的大数据一站式平台管理解决方案,是基于Hadoop生态的第三方发行版本。其有免费版和收费的企业版。国外同样基于Hadoop生态第三方发行版本的,还有美国Hortonworks公司发行的HDP(Hortonworks Data Platform)大数据平台。不过,2018年10月上述两家公司宣布合并成为全球第二大开源软件公司。所以,CDH大数据平台在国际化公司应用场景中的优势更加明显。CDH相对于由开源大数据组件集成的大数据平台来说主要具有三大优势:

1)开发、部署、运行的稳定性强。CDH通过CM(Cloudera Manager)组件实现各大数据组件集成的自动化安装部署和运维管理监控。

2)兼容性和安全性强。CDH会集成测试通过的各组件稳定版本并统一构建安全管理组件,以实现大数据系统的组件间兼容性和数据及用户的安全管理。

3)企业服务有保障。不同于开源免费版本在人们遇到问题时无产品企业对应,CDH企业版通过一对一的企业服务可以保证大家的问题得到及时的响应处理。

• 国内大数据公司的解决方案。

目前国内市场上比较流行的大数据平台产品有华为的Fusion Insight等。该平台在运营商及金融行业中的客户比较多。根据笔者这几年的大数据培训、咨询及项目实践来看,华为大数据平台相对于CDH大数据平台来说,本地化的产品功能及服务支持会强一些。国内大数据公司的其他解决方案还有星环科技的Transwarp Data Hub大数据平台等。

那么,在企业大数据落地的过程中到底应该从哪些角度来选择适合自己的大数据平台呢?结合笔者的实践经验,总的来说可以从以下3个方面来考虑选型:

1)企业所处的行业和企业发展阶段。

在一般传统行业或企业发展的早期,大数据平台系统的主要作用就是尽快给其现有业务“赋能”。所以,根据企业规模和发展阶段,他们可以选择商用集成的大数据平台方案。如果是更早期的验证阶段,则可以选用易于上手的阿里云或腾讯云上的大数据计算存储数据产品来实现。而以数据为核心的互联网行业和互联网+行业,数据源及数据处理方式的不确定性大,建议基于开源大数据组件的自定义组合来满足企业快速发展所带来的数据源及数据处理的变化需求。

2)大数据平台解决的业务场景和大数据技术团队定位。

对大数据平台的选型还要考虑平台需要解决的业务场景。如果是传统行业或技术团队重在理解业务信息化系统的应用开发,则可以选用商用大数据平台,以尽快部署信息系统来支撑核心业务。如果是产品研发型的技术型公司,且具有相关的技术团队开发能力,则可以选择将原生、开源大数据系统组件集成到自己的应用中,以满足更多的用户业务场景需求,也便于满足版本的自主升级改进需求。

3)大数据平台方案提供方的技术栈和服务优势。

对响应速度要求比较高的公司业务,需要考虑大数据平台产品所对应的售后技术支持的响应等级是否满足相关需求。