Spark大数据商业实战三部曲:内核解密|商业案例|性能调优
上QQ阅读APP看书,第一时间看更新

第9章
Spark中Cache和checkpoint原理和源码详解

本章讲解Spark中Cache和checkpoint原理和源码。9.1节讲解Spark中Cache原理和源码,CacheManager管理缓存,缓存可基于内存或者磁盘。CacheManager通过BlockManager来操作数据;9.2节对Spark中checkpoint原理和源码进行详解。Spark在生产环境下,如果Tranformations的RDD非常多或者具体Tranformation产生的RDD本身计算特别复杂和耗时,我们就可以通过checkpoint对计算结果数据进行持久化。