Spark on YARN 环境搭建详细步骤:
环境准备:
- 确保已经安装好Hadoop YARN集群。
- 下载并解压Spark安装包。
配置Spark:
- 进入Spark安装目录下的
conf
文件夹。 复制
spark-defaults.conf.template
为spark-defaults.conf
,并编辑该文件,添加以下配置(根据实际需求调整):spark.master yarn spark.executor.memory 1g spark.executor.cores 1 spark.executor.instances 2 spark.driver.memory 1g
- 复制
slaves.template
为slaves
,并编辑该文件,列出所有工作节点的主机名或IP地址。
- 进入Spark安装目录下的
配置环境变量:
在每个节点的
~/.bashrc
或~/.bash_profile
中添加Spark的环境变量,例如:export SPARK_HOME=/path/to/spark export PATH=$PATH:$SPARK_HOME/bin
- 使环境变量生效:
source ~/.bashrc
或source ~/.bash_profile
。
分发配置:
- 使用
scp
或其他工具将配置好的Spark目录分发到其他节点上。
- 使用
启动Spark on YARN:
在YARN的ResourceManager节点上,使用以下命令提交Spark作业:
spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster /path/to/spark/examples/jars/spark-examples*.jar 1000
这个命令会运行Spark的Pi示例程序,计算π的值。
验证:
- 在YARN的ResourceManager UI中查看Spark作业的运行状态。
- 在Spark的History Server UI中查看作业的历史记录(如果已启用)。
请注意,这些步骤是一个基本的指南,具体配置可能会根据您的集群环境和需求有所不同。务必参考官方文档以获取更详细的信息和最佳实践。