Spark源码之Spark on Yarn运行时架构

这篇文章距离上次修改已过368天，其中的内容可能已经有所变动。

在Spark on YARN模式下，Spark任务运行时的架构如下：

Client提交应用：用户提交应用的入口是Client，它负责向YARN提交应用，包括Application Master。
RM Scheduler：YARN的资源管理器（ResourceManager, RM）负责调度整个集群的资源，Application Master向RM申请资源，Container由RM分配给Application Master。
Node Manager：YARN的节点管理器（NodeManager, NM）负责管理集群中每个节点的资源和任务。
Application Master：每个应用程序在YARN中都有一个Application Master，它负责与RM协商资源，与NM通信来启动/停止任务，任务监控等。
Executors：Application Master向RM申请足够的容器，一旦得到容器，就在对应的NM上启动Executor进程，Spark任务就在这些Executor上运行。
Driver：Driver在Client端启动，如果是集群模式，Driver会运行在Application Master所在的节点。
Exeuctor Backend：每个Executor运行在一个JVM中，它负责与Driver进行通信，并管理自己的线程池运行任务。

以下是一个简化的Spark on YARN提交过程的伪代码：




// 用户代码，提交Spark作业
val conf = new SparkConf()
conf.setMaster("yarn")
conf.setAppName("My Spark Application")
 
val sc = new SparkContext(conf)
 
// 运行Spark作业
sc.textFile("hdfs://path/to/input/data").count()
 
sc.stop()

在这个例子中，SparkContext负责与YARN集群通信，请求资源，并启动作业。这个过程在Spark源代码中的org.apache.spark.deploy.yarn.Client类中实现，它负责与YARN资源管理器（ResourceManager）通信，并且与节点管理器（NodeManager）通信以启动Executor。Driver在Application Master中运行，而Executor在YARN容器内运行。

Spark源码之Spark on Yarn运行时架构

评论已关闭

推荐阅读