分析并简述spark的基本流程

时间：2025-02-07 08:02:57 硬件设备

spark运行的基本流程

1. Spark的整体流程。Client提交应用，Master找到一个Worker启动Driver，Driver向Master或者资源管理器申请资源，之后将应用转化为RDD Graph，再由DAG Scheduler将RDD Graph转化为Stage的有向无环图提交给TaskScheduler，由TaskScheduler提交任务给Executor执行。

2. Stage的划分。如上面这个运行流程所示，在 Apache Spark 中，一个作业（Job）通常会被划分为多个阶段（Stage），每个阶段包含一组并行的任务（Task）。这种划分主要是基于数据宽窄依赖进行的，以便更有效地进行任务调度和执行。以下是关于 Spark 中 Stage 划分的一些关键点：

3. Stage和Task调度方式。Stage的调度是由DAGScheduler完成的。由RDD的有向无环图DAG切分出了Stage的有向无环图DAG。 Stage的DAG通过最后执行Stage为根进行广度优先遍历，遍历到最开始执行的Stage执行，如果提交的Stage仍有未完成的父母Stage，则Stage需要等待其父Stage执行完才能执行。同时DAGScheduler中还维持了几个重要的Key-Value集合构，用来记录Stage的状态，这样能够避免过早执行和重复提交Stage。waitingStages中记录仍有未执行的父母Stage，防止过早执行。 runningStages中保存正在执行的Stage，防止重复执行。failedStages中保存执行失败的Stage，需要重新执行。

4. Shuffle机制。为什么spark计算模型需要Shuffle过程？我们都知道， spark计算模型是在分布式的环境下计算的，这就不可能在单进程空间中容纳所有的计算数据来进行计算，这样数据就按照Key进行分区，分配成一块一块的小分区，打散分布在集群的各个进程的内存空间中，并不是所有计算算子都满足于按照一种方式分区进行计算。例如，当需要对数据进行排序存储时，就有了重新按照一定的规则对数据重新分区的必要， Shuffle就是包裹在各种需要重分区的算子之下的一个对数据进行重新组合的过程。

如有侵权请及时联系我们处理，转载请注明出处来自