首页 / 科技百科 / 正文

简述spark工作机制 

Spark的工作机制主要包括以下几个部分:

1. 任务分配:Spark应用提交后,会经历一系列转换,最后成为Task在每个节点上执行。大体的执行流程包括:RDD的Actions操作除非Job的提交,提交到spark中的job生成RDD DAG,由DAG Scheduler转换为stage中的task集合,再由TaskScheduler将任务分发到Executor执行,会在Executor中创建线程池,并发执行。

2. I/O制度:Spark虽然是基于内存计算的框架,但是不可避免的也会接触到一些存储层,那么在和存储层交互的时候,Spark做了哪些工作?主要包括序列化和压缩。

3. 通信控制模块:Spark中使用Akka作为通信框架,Actors是一组包含状态和行为的对象,一个Actor接收到其他Actor的信息之后可以根据需求做出各种反应。Client、Master、Worker等都是一个Actor。

4. 容错模块:RDD之间的算子操作会形成DAG图,RDD之间的依赖关系会形成Lineage。

如有侵权请及时联系我们处理,转载请注明出处来自