hadoop-3.1.1分布式搭建与常用命令
warning:
这篇文章距离上次修改已过454天,其中的内容可能已经有所变动。
在这里,我们将讨论如何在一个集群上安装和配置Hadoop 3.1.1,并介绍一些常用的Hadoop命令。
分布式安装
- 准备机器:确保你有多台配置好的机器用于安装Hadoop。
- 安装Java:确保所有机器都安装了相同版本的Java。
- 配置SSH免密登录:在所有节点上配置SSH免密登录,以便Hadoop能够通过SSH进行通信。
- 下载并解压Hadoop:在每个节点下载Hadoop 3.1.1,并解压到相应目录。
- 配置环境变量:设置HADOOP\_HOME和PATH环境变量。
- 配置Hadoop:编辑
etc/hadoop/hadoop-env.sh,设置JAVA_HOME。 - 配置
core-site.xml,设置HDFS的路径和临时文件路径。 - 配置
hdfs-site.xml,设置副本数量。 - 配置
mapred-site.xml(如果存在这个文件),设置MapReduce的应用程序完成后删除任务所生成的临时文件。 - 配置
yarn-site.xml,设置ResourceManager的地址等。 - 配置
slaves,列出所有DataNode节点。 - 格式化HDFS:使用
hdfs namenode -format命令格式化NameNode。 - 启动Hadoop:使用
start-dfs.sh和start-yarn.sh命令启动Hadoop。
常用命令
- 查看HDFS文件系统:
hdfs dfs -ls / - 创建一个新的HDFS目录:
hdfs dfs -mkdir /new_directory - 将文件上传到HDFS:
hdfs dfs -put local_file /hdfs_directory - 从HDFS下载文件:
hdfs dfs -get /hdfs_file local_directory - 查看运行的Hadoop守护进程:
jps - 查看HDFS的磁盘使用情况:
hdfs dfs -df / - 查看Hadoop任务历史:
mapred job -list - 杀死Hadoop任务:
mapred job -kill job_id
以上是安装Hadoop和一些常用命令的简要说明,具体配置和命令可能会根据Hadoop版本和集群配置的不同而有所差异。
评论已关闭