Spark学习(6)

在了解了RDD之间的依赖关系,我们再来了解下RDDStage划分。Spark任务会根据RDD之间的依赖关系形成一个DAG有向无环图,DAG会提交给DAGSchedulerDAGScheduler会把DAG划分相互依赖的多个stage,划分stage的依据就是RDD之间的宽窄依赖。遇到宽依赖就划分stage,每个stage包含一个或多个task任务。然后将这些tasktaskSet的形式提交给TaskScheduler运行。下图为RDD划分stage的一个示例:

(完)