Spark分布式处理实战
上QQ阅读APP看书,第一时间看更新

前言

写作背景

党中央、国务院高度重视大数据产业发展,推动实施国家大数据战略。习近平总书记就推动大数据和数字经济相关战略部署、发展大数据产业多次做出重要指示。工业和信息化部会同相关部委建立大数据促进发展部际联席会议制度,不断完善政策体系,聚力打造大数据产品和服务体系,积极推进各领域大数据融合应用,培育发展大数据产业集聚高地。

党的二十大报告指出“深入实施科教兴国战略、人才强国战略、创新驱动发展战略,开辟发展新领域新赛道,不断塑造发展新动能新优势”。移动互联网与大数据技术的飞速发展,极大地改变了人们的生活方式,人们可以随时随地享受便捷的网络服务,电子商务(简称“电商”)系统已经成为人们生活中不可缺少的消费方式。在多年的快速发展中,国内的大型电商平台积累了海量的用户行为日志、商品订单等数据。大数据技术需要从海量的数据中对电商数据进行处理和分析,探索数据之间的内在规律,挖掘有价值的信息,以满足用户个性化和精准化的服务需求。

在众多的大数据技术中,Apache Spark成为大数据分析的重要工具之一。Spark是加州大学伯克利分校的AMP实验室开源的基于内存的并行计算框架。相对于基于Hadoop的MapReduce计算而言,Spark可以将中间计算结果保存在内存中,不再需要重复读写硬盘数据,大大提升了并行计算的效率,在大数据企业级项目中得到广泛应用。

本书采用理论与实践相结合的方式,以项目为主线来设计教学实践环节,由浅入深地讲解了Spark在企业级项目中的应用,尤其是大型电商平台的数据分析项目中的应用。读者在项目学习过程中可以边学边练,循序渐进。按照本书讲解的步骤进行操作,读者可以完成相应的学习任务。通过本书的学习,读者可以逐步增强Spark大数据分析项目的实践能力。