Spark快速大数据分析(第2版)
上QQ阅读APP看书,第一时间看更新

1.2 什么是Spark

Spark 是为大规模分布式数据处理而设计的一站式引擎,可以用于数据中心的物理机,也可以在云上使用。

Spark 为中间计算结果提供了基于内存的存储,这让它比 Hadoop MR 快了很多。它整合了各种上层库,比如用于机器学习的库 MLlib、提供交互式查询功能的 Spark SQL、支持操作实时数据的流处理库 Structured Streaming,以及图计算库 GraphX。这些库都提供了易用的 API。

Spark 的设计哲学围绕下列四大特性展开:

  • 快速
  • 易用
  • 模块化
  • 可扩展

接下来我们看看这些特性对于计算框架而言有哪些意义。