hadoop-3.1.1分布式搭建与常用命令
warning:
这篇文章距离上次修改已过304天,其中的内容可能已经有所变动。
在这里,我们将讨论如何在一个集群上安装和配置Hadoop 3.1.1,并介绍一些常用的Hadoop命令。
分布式安装
- 准备机器:确保你有多台配置好的机器用于安装Hadoop。
- 安装Java:确保所有机器都安装了相同版本的Java。
- 配置SSH免密登录:在所有节点上配置SSH免密登录,以便Hadoop能够通过SSH进行通信。
- 下载并解压Hadoop:在每个节点下载Hadoop 3.1.1,并解压到相应目录。
- 配置环境变量:设置HADOOP\_HOME和PATH环境变量。
- 配置Hadoop:编辑
etc/hadoop/hadoop-env.sh
,设置JAVA_HOME
。 - 配置
core-site.xml
,设置HDFS的路径和临时文件路径。 - 配置
hdfs-site.xml
,设置副本数量。 - 配置
mapred-site.xml
(如果存在这个文件),设置MapReduce的应用程序完成后删除任务所生成的临时文件。 - 配置
yarn-site.xml
,设置ResourceManager的地址等。 - 配置
slaves
,列出所有DataNode节点。 - 格式化HDFS:使用
hdfs namenode -format
命令格式化NameNode。 - 启动Hadoop:使用
start-dfs.sh
和start-yarn.sh
命令启动Hadoop。
常用命令
- 查看HDFS文件系统:
hdfs dfs -ls /
- 创建一个新的HDFS目录:
hdfs dfs -mkdir /new_directory
- 将文件上传到HDFS:
hdfs dfs -put local_file /hdfs_directory
- 从HDFS下载文件:
hdfs dfs -get /hdfs_file local_directory
- 查看运行的Hadoop守护进程:
jps
- 查看HDFS的磁盘使用情况:
hdfs dfs -df /
- 查看Hadoop任务历史:
mapred job -list
- 杀死Hadoop任务:
mapred job -kill job_id
以上是安装Hadoop和一些常用命令的简要说明,具体配置和命令可能会根据Hadoop版本和集群配置的不同而有所差异。
评论已关闭