Spark on YARN 环境搭建

作者：System 时间：2024年08月04日分类：所有,ajax 字数：1246

这篇文章距离上次修改已过504天，其中的内容可能已经有所变动。

Spark on YARN 环境搭建详细步骤：

环境准备：
- 确保已经安装好Hadoop YARN集群。
- 下载并解压Spark安装包。
配置Spark：
- 进入Spark安装目录下的conf文件夹。
- 复制spark-defaults.conf.template为spark-defaults.conf，并编辑该文件，添加以下配置（根据实际需求调整）：
```
spark.master                     yarn
spark.executor.memory            1g
spark.executor.cores             1
spark.executor.instances         2
spark.driver.memory              1g
```
- 复制slaves.template为slaves，并编辑该文件，列出所有工作节点的主机名或IP地址。
配置环境变量：
- 在每个节点的~/.bashrc或~/.bash_profile中添加Spark的环境变量，例如：
```
export SPARK_HOME=/path/to/spark
export PATH=$PATH:$SPARK_HOME/bin
```
- 使环境变量生效：source ~/.bashrc 或 source ~/.bash_profile。
分发配置：
- 使用scp或其他工具将配置好的Spark目录分发到其他节点上。
启动Spark on YARN：
- 在YARN的ResourceManager节点上，使用以下命令提交Spark作业：
```
spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster /path/to/spark/examples/jars/spark-examples*.jar 1000
```
  这个命令会运行Spark的Pi示例程序，计算π的值。
验证：
- 在YARN的ResourceManager UI中查看Spark作业的运行状态。
- 在Spark的History Server UI中查看作业的历史记录（如果已启用）。

请注意，这些步骤是一个基本的指南，具体配置可能会根据您的集群环境和需求有所不同。务必参考官方文档以获取更详细的信息和最佳实践。