RDD的依赖关系
Spark的血统机制保证了系统的容错率,血统机制依赖于RDD之间的依赖关系,依赖关系又分为窄依赖和宽依赖:
(1)窄依赖:父的RDD和子RDD的parition(分区)之间的关系是一对一的,也就是父的RDD的分区parition和子的RDD的分区parition是一对一的,或者是父的RDD的分区parition和子的RDD的分区parition是多对一的,之间不会有shuffle的产生。
(2)宽依赖:父RDD与子RDD partition之间的关系是一对多。会有shuffle的产生。
上图中左边是窄依赖,右边是宽依赖。