搭建分布式大数据平台：基础环境配置与Hadoop集群搭建全程指南

这篇文章距离上次修改已过429天，其中的内容可能已经有所变动。

以下是搭建Hadoop集群的基本步骤，包括基础环境配置和集群搭建：

关闭防火墙和SELinux：




sudo systemctl stop firewalld
sudo systemctl disable firewalld
sudo setenforce 0

设置SSH免密登录：
- 在主节点上生成密钥对：ssh-keygen
- 将公钥复制到所有节点的~/.ssh/authorized_keys：ssh-copy-id hadoop-node-1
安装Hadoop：
- 下载Hadoop：wget https://downloads.apache.org/hadoop/common/hadoop-3.2.2/hadoop-3.2.2.tar.gz
- 解压缩：tar -xzvf hadoop-3.2.2.tar.gz
- 移动到合适目录：sudo mv hadoop-3.2.2 /usr/local/hadoop
- 配置环境变量：
```
echo 'export HADOOP_HOME=/usr/local/hadoop' >> ~/.bashrc
echo 'export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin' >> ~/.bashrc
source ~/.bashrc
```
配置Hadoop：
- 修改/usr/local/hadoop/etc/hadoop/hadoop-env.sh，设置JAVA\_HOME。
- 修改/usr/local/hadoop/etc/hadoop/core-site.xml，配置HDFS的NameNode。
- 修改/usr/local/hadoop/etc/hadoop/hdfs-site.xml，配置DataNode的存储路径和副本数量。
- 修改/usr/local/hadoop/etc/hadoop/mapred-site.xml（如果存在这个文件），配置MapReduce的相关设置。
- 修改/usr/local/hadoop/etc/hadoop/yarn-site.xml，配置YARN的ResourceManager。
- 配置slaves文件，添加所有DataNode节点的主机名。
格式化NameNode：
```
hdfs namenode -format
```
启动Hadoop集群：
```
start-all.sh
```
检查集群状态：
- 通过jps命令检查各节点上运行的Java进程。
- 通过hadoop dfsadmin -report查看HDFS状态。

以上步骤提供了搭建Hadoop集群的基本框架，具体配置文件的修改需要根据实际环境和Hadoop版本进行相应的调整。