Linux环境搭建Hadoop及完全分布式集群_hdfs分布式环境搭建
在配置Hadoop的HDFS全分布模式之前,确保你已经正确安装和配置了所有的Hadoop节点,包括基本的网络和SSH配置。以下是配置全分布模式的步骤:
- 修改
core-site.xml
文件,配置HDFS的命名空间:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://mycluster</value>
</property>
</configuration>
- 修改
hdfs-site.xml
文件,配置副本数量和名称节点的存储位置:
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///path/to/namenode/data</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:///path/to/datanode/data</value>
</property>
</configuration>
- 修改
mapred-site.xml
(如果存在的话),配置MapReduce使用YARN框架:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
- 修改
yarn-site.xml
文件,配置资源管理器和节点管理器:
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>resourcemanager-host</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
- 配置
hadoop-env.sh
,yarn-env.sh
,mapred-env.sh
等环境配置文件,确保JAVA\_HOME设置正确。 - 配置
slaves
文件,列出所有的数据节点主机名:
datanode1-host
datanode2-host
datanode3-host
- 在所有节点上配置SSH免密登陆,确保NameNode能够无密码SSH到所有DataNode。
- 在NameNode节点上格式化HDFS(第一次配置时执行):
hdfs namenode -format
- 启动HDFS和YARN:
start-dfs.sh
start-yarn.sh
这些步骤提供了全分布模式配置Hadoop的基本指导,确保所有配置文件路径、主机名和环境变量都已正确设置。
评论已关闭