简述spark工作机制
Spark的工作机制主要包括以下几个部分:
1. 任务分配:Spark应用提交后,会经历一系列转换,最后成为Task在每个节点上执行。大体的执行流程包括:RDD的Actions操作除非Job的提交,提交到spark中的job生成RDD DAG,由DAG Scheduler转换为stage中的task集合,再由TaskScheduler将任务分发到Executor执行,会在Executor中创建线程池,并发执行。
2. I/O制度:Spark虽然是基于内存计算的框架,但是不可避免的也会接触到一些存储层,那么在和存储层交互的时候,Spark做了哪些工作?主要包括序列化和压缩。
3. 通信控制模块:Spark中使用Akka作为通信框架,Actors是一组包含状态和行为的对象,一个Actor接收到其他Actor的信息之后可以根据需求做出各种反应。Client、Master、Worker等都是一个Actor。
4. 容错模块:RDD之间的算子操作会形成DAG图,RDD之间的依赖关系会形成Lineage。
如有侵权请及时联系我们处理,转载请注明出处来自
推荐文章
科技快看 网站地图广州壹创集信息科技有限公司 版权所有 粤ICP备2021122624号