上QQ阅读APP看书,第一时间看更新
1.2 什么是Spark
Spark 是为大规模分布式数据处理而设计的一站式引擎,可以用于数据中心的物理机,也可以在云上使用。
Spark 为中间计算结果提供了基于内存的存储,这让它比 Hadoop MR 快了很多。它整合了各种上层库,比如用于机器学习的库 MLlib、提供交互式查询功能的 Spark SQL、支持操作实时数据的流处理库 Structured Streaming,以及图计算库 GraphX。这些库都提供了易用的 API。
Spark 的设计哲学围绕下列四大特性展开:
- 快速
- 易用
- 模块化
- 可扩展
接下来我们看看这些特性对于计算框架而言有哪些意义。