Spark高可用模式和Spark分布式Yarn环境安装
Spark高可用性通常涉及配置多个节点以防止单点故障。在YARN上部署Spark时,通常涉及配置YARN以管理Spark应用程序的资源分配,并可能涉及配置高可用性的Spark集群。
以下是一个基本的指南和示例配置,用于在YARN上部署Spark,并假设你已经有了一个Hadoop集群和YARN。
- 下载并解压Spark:
wget https://downloads.apache.org/spark/spark-3.2.1/spark-3.2.1-bin-hadoop3.2.tgz
tar xvf spark-3.2.1-bin-hadoop3.2.tgz
cd spark-3.2.1-bin-hadoop3.2
- 配置
spark-env.sh
,设置YARN为资源管理器,并指定Spark配置:
cp conf/spark-env.sh.template conf/spark-env.sh
编辑conf/spark-env.sh
,添加:
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=zk1:2181,zk2:2181,zk3:2181 -Dspark.deploy.zookeeper.dir=/spark"
- 配置
yarn-site.xml
,启用容器内存溢出时的日志收集:
<property>
<name>yarn.nodemanager.pmem-check-enabled</name>
<value>false</value>
</property>
<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>
- 配置ZooKeeper集群作为Spark的高可用性存储。
- 启动YARN集群和Spark。
sbin/start-all.sh
sbin/start-spark.sh
- 提交应用程序到YARN。
./bin/spark-submit --master yarn --deploy-mode cluster --class org.apache.spark.examples.SparkPi ./examples/jars/spark-examples_2.12-3.2.1.jar 10
以上是一个基本的指南,实际部署时可能需要根据你的具体环境进行调整。例如,配置Spark与ZooKeeper集成,配置Spark与HDFS集成,配置Spark与YARN工作节点交互等。
评论已关闭