上QQ阅读APP看书,第一时间看更新
第9章
Spark中Cache和checkpoint原理和源码详解
本章讲解Spark中Cache和checkpoint原理和源码。9.1节讲解Spark中Cache原理和源码,CacheManager管理缓存,缓存可基于内存或者磁盘。CacheManager通过BlockManager来操作数据;9.2节对Spark中checkpoint原理和源码进行详解。Spark在生产环境下,如果Tranformations的RDD非常多或者具体Tranformation产生的RDD本身计算特别复杂和耗时,我们就可以通过checkpoint对计算结果数据进行持久化。