Spark学习(5)

RDD的依赖关系

Spark的血统机制保证了系统的容错率,血统机制依赖于RDD之间的依赖关系,依赖关系又分为窄依赖和宽依赖:

1)窄依赖:父的RDD和子RDDparition(分区)之间的关系是一对一的,也就是父的RDD的分区parition和子的RDD的分区parition是一对一的,或者是父的RDD的分区parition和子的RDD的分区parition是多对一的,之间不会有shuffle的产生。

(2)宽依赖:父RDD与子RDD partition之间的关系是一对多。会有shuffle的产生。

上图中左边是窄依赖,右边是宽依赖。

(完)