搭建学习大数据，需要的虚拟机Linux集群环境

最新推荐文章于 2024-09-26 19:24:27 发布

ydenergy_殷志鹏

最新推荐文章于 2024-09-26 19:24:27 发布

阅读量682

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/grd_java/article/details/115693312

版权

大数据专栏收录该内容

6 篇文章

订阅专栏

本文详细指导如何在Linux虚拟机上搭建Hadoop环境，包括安装JDK、Hadoop，配置环境变量，通过脚本分发环境至多台虚拟机，以及SSH免密登录和集群配置。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

网页右边，向下滑有目录索引，可以根据标题跳转到你想看的内容
如果右边没有就找找左边

声明：此文是学习尚硅谷Hadoop3.1.x课程的学习笔记
尚硅谷视频资源地址：https://www.bilibili.com/video/BV1Qp4y1n7EN?p=34&spm_id_from=pageDriver

一、搞3台做实验的虚拟机

1、搭建Linux虚拟机环境

由于篇幅大，我将Linux虚拟机搭建放在这篇文章中：https://blog.csdn.net/grd_java/article/details/115676099

虚拟机搭建完成后，你还需要学会使用远程访问工具：https://blog.csdn.net/grd_java/article/details/107233667
这篇文章中有介绍到

2、给Linux安装epel-release

如果你安装的是桌面标准版，只需要安装epel-release即可

 yum install -y epel-release

解决可能出现进程被占用的情况

kill -9 3030

如果你安装的是最小系统版，还需要安装如下工具

➢ net-tool：工具包集合，包含 ifconfig 等命令
[root@hadoop100 ~]# yum install -y net-tools 
➢ vim：编辑器
[root@hadoop100 ~]# yum install -y vim

3、关闭防火墙

企业中，通常公司会整体对外设置非常安全的防火墙，所以我们关闭linux防火墙

➢ 查看防火墙状态
	[hadoop100@hadoop100 ~]$ firewall-cmd --state
	not running //执行结果为这个表示已经关闭
➢ 关闭防火墙开机自启动
	[root@hadoop100 ~]# systemctl disable firewalld.service
➢ 关闭防火墙
	[root@hadoop100 ~]# systemctl stop firewalld

4、为非root用户开启加sudo执行root命令的权限

非root用户是无法使用root命令的，而有些时候我们需要非root用户执行一些命令，就可以为其开启sudo权限

进入sudoers文件

找到如下命令并修改(hadoop100是我linux里面的一个非root用户)

hadoop100 ALL=(ALL) NOPASSWD:ALL

➢ 删除指定文件夹
	sudo rm -rf rh/
➢ 创建文件夹
	[hadoop100@hadoop100 opt]$ sudo mkdir module 
	[hadoop100@hadoop100 opt]$ sudo mkdir software
	[hadoop100@hadoop100 opt]$ ll
	总用量 0
	drwxr-xr-x. 2 root root 6 4月  14 09:49 module
	drwxr-xr-x. 2 root root 6 4月  14 09:52 software
➢ 将文件所属用户改为hadoop100
	[hadoop100@hadoop100 opt]$ sudo chown hadoop100:hadoop100 module/ software/
	[hadoop100@hadoop100 opt]$ ll
	总用量 0
	drwxr-xr-x. 2 hadoop100 hadoop100 6 4月  14 09:49 module
	drwxr-xr-x. 2 hadoop100 hadoop100 6 4月  14 09:52 software

5、卸载虚拟机自带JDK

桌面板默认带一个JDK，我们需要卸载，如果是最小化安装则不需要

进入root用户下，然后卸载

rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps
➢ rpm -qa：查询所安装的所有 rpm 软件包
➢ grep -i：忽略大小写
➢ xargs -n1：表示每次只传递一个参数，就是如果前面查询出来有多个，一个一个卸载，而不是一起卸载，容易死机
➢ rpm -e –nodeps：强制卸载软件

6、重启虚拟机后克隆虚拟机

重启虚拟机（为了让刚才的更改不出差错）

关闭虚拟机

克隆虚拟机

各选项如何选择

克隆3台虚拟机，然后将这3台放在一个文件夹，我们用克隆后的3台虚拟机，而最开始的Hadoop100，我们就不用了，保留着日后继续克隆，因为后续学习中，虚拟机很容易玩坏，那么之后我们只需要再克隆3台就行了

虚拟机如何删除？（这里只是告诉你如何删除，日后虚拟机玩坏方便删除，现在没问题可不要真的给删了）

移除，只是将虚拟机从列表中移除，但在本地上还有，日后可以添加回来

彻底删除（无法恢复）

7、给克隆后的虚拟机配置ip和主机名

打开Hadoop102虚拟机，进入root用户，使用vim编辑ip地址

➢ 注意，当下面的命令敲到ifcfg-ens后，每个虚拟机后面的数字是不同的，你可以按键盘上的TAB键自动补齐，以防出错
vim /etc/sysconfig/network-scripts/ifcfg-ens33

改主机名

映射

重启虚拟机

根据上面的步骤，配置103和104虚拟机，一样将103ip改为103,104ip改为104，主机名改成和自己匹配的即可，然后看各虚拟机是否可以上网

6、通过putty工具远程连接3个虚拟机

二、开发环境

1、给虚拟机安装JDK

只需给Hadoop102安装，然后103和104只需要拷贝即可

首先我们需要获取linux的jdk8和hadoop3.1.x的linux包

JDK https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html

Hadoop https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.1.3/hadoop-3.1.3.tar.gz

通过远程传输工具，将两个包传输给虚拟机

使用WinSCP远程连接虚拟机

把我们刚刚下载的包传输给虚拟机

进虚拟机目录中检查文件是否传输成功

安装JDK

tar -zxvf jdk-8u281-linux-x64.tar.gz -C /opt/module/

配置JDK环境变量

进入/etc/profile.d文件夹（可见有很多sh后缀的文件，当虚拟机启动，会依次加载这些sh文件，将环境变量加载进去）

创建自己的sh文件my_env.sh,意思是我的环境变量,直接用vim创建打开

配置环境变量

➢ #JAVA_HOME ,#表示注释
➢ export 表示全局声明，表示将内容暴露出去
➢ JAVA_HOME=/opt/module/jdk1.8.0_281，配置JAVA_HOME，后面是我们安装JDK的目录
➢ $PATH表示引用PATH，:表示拼接
➢ $PATH:$JAVA_HOME/bin表示在原有$PATH的基础上拼接上JDK环境变量
#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_281
export PATH=$PATH:$JAVA_HOME/bin

重新加载环境变量（如果输入java没有出来信息，试着重启一下）

source /etc/profile

安装Hadoop，配置Hadoop环境变量
配置hadoop环境变量需要引入bin和sbin目录
bin目录主要包括yarn等组件
sbing目录主要包括启动yarn等组件的sh文件

安装

配置环境变量

#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

查看是否成功

三、集群分发（此章节主要介绍方便集群管理的常用工具）

1、脚本分发

我们现在只有一台虚拟机上有JDK和hadoop运行环境，我们可以通过脚本分发，将环境分发给另外两个服务器
如果你不想学脚本，可以选择在另外两台虚拟机，使用上面的步骤安装jdk，安装hadoop，配置环境变量

1. scp(secure copy) 安全拷贝

scp
scp 可以实现服务器与服务器之间的数据拷贝

➢ 基本语法：
	scp -r $pdir/$fname $user@$host:$pdir/$fname
	命令 递归 要拷贝的文件路径/名称 目的地用户@主机:目的地路径/名称
➢ 前提(我下面的命令都是根据下面条件进行操作的，如果你和我的不一样，需要换成你自己的)
	在 hadoop102、hadoop103、hadoop104 都已经创建好的/opt/module和/opt/software 
	两个目录，并且已经把这两个目录修改为相同的非root用户，比如我的都是
	hadoop100
➢ 修改目录为指定用户的命令（我这里改成了hadoop100）
	sudo chown Hadoop100:Hadoop100 -R /opt/module

在hadoop102上，将jdk拷贝到hadoop103

➢ 下面的命令是，使用scp命令通过递归的方式将/opt/module/jdk1.8.0_212目录
	拷贝到，指定ip虚拟机的/opt/module目录下，并且属于hadoop100用户
	@hadoop103是主机地址映射，我们前面介绍过，vim /etc/hostname配置
scp -r /opt/module/jdk1.8.0_212 hadoop100@hadoop103:/opt/module

在hadoop103上，将hadoop102的hadoop安装包拷贝到hadoop103上（其实完全可以用上面传输JDK的命令一起传，这里是为了介绍不同的方式）

➢ 下面的命令是,将指定ip的/opt/module/hadoop-3.1.3（同时指定这个文件的所有者）
	拷贝到当前虚拟机的 /opt/module/目录下，文件所有者为当前用户
scp -r hadoop100@hadoop102:/opt/module/hadoop-3.1.3 /opt/module/

在hadoop103上，将hadoop102中的jdk和hadoop全部拷贝到hadoop104上

➢ 下面的命令是,将指定ip（hadoop102）的指定目录拷贝到另一个指定ip（hadoop104）
	的指定目录下
scp -r hadoop100@hadoop102:/opt/module/* hadoop100@hadoop104:/opt/module

2、 rsync远程同步工具

非常重要的一件事
[hadoop100@hadoop102 ~]：只要看到 ~ 这个路径，表示在当前用户的home目录下，下面代码中，会频繁出现@hadoop102 ~，代表当前用户home下

rsync
主要用于备份和镜像
速度快、避免复制相同内容和支持符号链接
`rsync 和 scp 区别`：用 rsync 做文件的复制要比 scp 的速度快，rsync 只对差异文件做更新。scp 是把所有文件都复制过去。

➢ 基本语法：
	rsync -av $pdir/$fname $user@$host:$pdir/$fname
	命令 选项参数 要拷贝的文件路径/名称 目的地用户@主机:目的地路径/名称
	其中
		-a 归档拷贝
		-v 显示复制过程

在hadoop103中，如果你执行了前面scp的操作，那么我们就可以对刚拷贝的文件做一些更改，然后通过rsync同步hadoop102的文件进行恢复

➢ 先进入hadoop-3.1.3的目录，然后删除wcinput文件夹
	[hadoop100@hadoop103 hadoop-3.1.3]$ rm -rf wcinput/

在hadoop102中，同步hadoop102的文件到hadoop103中

➢ 先进入hadoop-3.1.3所在目录下
➢ 下面的命令是,通过归档拷贝并且显示复制过程的方式
	将hadoop-3.1.3文件同步到hadoop103的文件中
rsync -av hadoop-3.1.3/ hadoop100@hadoop103:/opt/module/hadoop-3.1.3/

3、集群分发脚本

循环复制文件到所有节点的相同目录下
我们希望脚本在任何路径下都能使用，所以将其放在声明了全局环境变量的路径

在/home/hadoop100/bin目录下创建xsync文件

[hadoop100@hadoop102 opt]$ cd /home/hadoop100
[hadoop100@hadoop102 ~]$ mkdir bin
[hadoop100@hadoop102 ~]$ cd bin
[hadoop100@hadoop102 bin]$ vim xsync

编写代码（直接复制下面代码过去，主要要先按i键进入插入模式，否则遇到复制内容的i字母才开始插入，linux粘贴命令shift+insert）

阅读用，不可直接使用，里面注释太多，想复制执行请复制下面内个版本

#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ] # 判断参数是否小于1，$#表示获取参数个数，-lt表示小于
then # 条件为真执行
 echo Not Enough Arguement! # 提示没有参数
 exit; # 退出程序
fi # if结束
#2. 遍历集群所有机器
for host in hadoop102 hadoop103 hadoop104
do # 循环体 do和done是一对，标志循环体开始和结束
 echo ==================== $host ==================== # 打印 $host表示获取当前循环变量host的值
 #3. 遍历所有目录，挨个发送
 for file in $@ # 循环，遍历目录个数，$@表示传入的文件，比如a.txt b.txt挨个遍历
 do # 循环体
 #4. 判断文件是否存在
 if [ -e $file ] # 判断当前文件是否存在，-e表示判断是否存在
	 then #条件成立执行
		 #5. 获取父目录
		 # $file 表示获取当前文件名，$(dirname $file)表示获取执行dirname $file 的结果，保证无论是相对路径还是绝对路径，都获取到父目录
		 #-P表示如果刚刚获取的结果都是软连接，那么定位到真正的目录
		 #cd表示进入前面内容获取的目录
		 #pwd获取当前目录
		 #pdir=$(..)表示获取值给pdir
		 pdir=$(cd -P $(dirname $file); pwd)# 获取到当前文件父目录
		 #6. 获取当前文件的名称
		 fname=$(basename $file)# 获取当前文件名
		 #ssh $host，表示远程连接到当前循环的host主机，
		 #比如当前是hadoop103，那么就连接到hadoop103虚拟机
		 #"mkdir -p $pdir" 表示ssh连接后执行的语句，创建目录
		 ssh $host "mkdir -p $pdir" #远程连接目标主机，创建父目录
		 rsync -av $pdir/$fname $host:$pdir # 通过rsync同步文件
	 else # 条件失败执行
		 echo $file does not exists!
 fi
 done # for循环结束
done # for循环结束

#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ]
then
 echo Not Enough Arguement!
 exit;
fi
#2. 遍历集群所有机器
for host in hadoop102 hadoop103 hadoop104
do
 echo ==================== $host ====================
 #3. 遍历所有目录，挨个发送
 for file in $@
 do
 #4. 判断文件是否存在
 if [ -e $file ]
 then
 #5. 获取父目录
 pdir=$(cd -P $(dirname $file); pwd)
 #6. 获取当前文件的名称
 fname=$(basename $file)
 ssh $host "mkdir -p $pdir"
 rsync -av $pdir/$fname $host:$pdir
 else
 echo $file does not exists!
 fi
 done
done

让脚本xsync具有执行权限

➢ chmod +x表示给执行权限，比如chmod +777就是给所有权限，增删改查等，会发现文件变成绿色
[hadoop100@hadoop102 bin]$ chmod +x xsync

测试脚本

[hadoop100@hadoop102 ~]$ xsync /home/hadoop100/bin

将脚本复制到/bin中，以便全局使用，这个/bin是linux的不是现在home里的

[hadoop100@hadoop102 bin]$ sudo cp xsync /bin/

同步环境变量配置（root所有者）

➢ 注意：如果用了 sudo，那么 xsync 一定要给它的路径补全，
	因为sudo命令是由root来执行的，而我们xsync在hadoop100的home里面，
	root无法直接进去执行，只能通过./来搞一个绝对路径帮他找到
[hadoop100@hadoop102 ~]$ sudo ./bin/xsync /etc/profile.d/my_env.sh

让环境变量生效

[hadoop100@hadoop103 bin]$ source /etc/profile
[hadoop100@hadoop104 opt]$ source /etc/profile

2、 ssh免密登录（解决分发脚本每次都需要输入密码问题）

配置ssh，及其简单，直接介绍命令

➢ 基本语法，远程连接另一台服务器
	ssh 另一台电脑的 IP 地址
➢ ssh 连接时出现 Host key verification failed 的解决方法
	[atguigu@hadoop102 ~]$ ssh hadoop103
➢ 如果出现如下内容
	Are you sure you want to continue connecting (yes/no)?
	输入 yes，并回车
➢ 断开远程连接，回到自己的服务器
	[atguigu@hadoop103 ~]$ exit

无密钥配置

免密登录原理（设置一个私钥一个公钥，我们会把公钥分发给其它人，然后这些人会把公钥保存起来，私钥我们自己保密，我们每次建立连接，我先发给要连接对象一个使用私钥加密的数据，而连接对象，获取到加密数据，只有对应公钥可以解密，如果解密成功，说明可以建立连接，然后使用公钥再加密一份数据发送回去，我们接受到数据后，再用私钥解密，完成连接）

生成公钥和私钥

[hadoop100@hadoop102 .ssh]$ pwd /home/hadoop100/.ssh
[hadoop100@hadoop102 .ssh]$ ssh-keygen -t rsa
然后敲（三个回车），就会生成两个文件 id_rsa（私钥）、id_rsa.pub（公钥）

将公钥拷贝到需要免密登录的目标机器上（以102为例，我们需要拷贝包括自己在内的所有机器上）

[hadoop100@hadoop102 .ssh]$ ssh-copy-id hadoop102
[hadoop100@hadoop102 .ssh]$ ssh-copy-id hadoop103
[hadoop100@hadoop102 .ssh]$ ssh-copy-id hadoop104

(这一步很重要，你需要在103和104上也配置上面的第2步和第三步)hadoop103上使用hadoop100用户，也配置一些无密登录到hadoop102、103、104,同理hadoop104上也需要配置相同命令
.ssh文件夹下（~/.ssh）的文件功能

配置是否成功的标志（保证自己每个机器都生成了密钥，并且将公钥拷贝到了每一台机器上（包括自己），下图是没有将公钥拷贝到每一台机器的情况和正确拷贝的情况），下图使用了集群群起脚本，是后面介绍的内容，第五节集群常用操作的脚本，也只有这个脚本非常害怕ssh不成功

四、集群配置

hadoop的3中运行模式，我们只介绍完全分布式

在这里插入图片描述

完全分布式运行模式要求
我们前面已经做了前5步了

准备 3 台客户机（关闭防火墙、静态 IP、主机名称） 前面已做
安装 JDK 前面已做
配置环境变量 前面已做
安装 Hadoop 前面已做
配置环境变量 前面已做
配置集群
单点启动
配置 ssh
群起并测试集群

集群部署规划

NameNode 和 SecondaryNameNode 不要安装在同一台服务器
ResourceManager 也很消耗内存，不要和 NameNode、SecondaryNameNode 配置在同一台机器上。
如果你的机器非常厉害，可以无视上面两条，配在同一台服务器上

配置文件说明
Hadoop 配置文件分两类：默认配置文件和自定义配置文件，只有用户想修改某一默认配置值时，才需要修改自定义配置文件，更改相应属性值

1、配置文件

自定义配置文件位置

在这里插入图片描述

核心配置core-site.xml

在这里插入图片描述

[hadoop100@hadoop102 ~]$ cd $HADOOP_HOME/etc/hadoop
[hadoop100@hadoop102 hadoop]$ vim core-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
 <!-- 指定 NameNode 的地址 -->
 <property>
  <name>fs.defaultFS</name>
  <value>hdfs://hadoop102:8020</value>
 </property>
 <!-- 指定 hadoop 数据的存储目录 -->
 <property>
  <name>hadoop.tmp.dir</name>
  <value>/opt/module/hadoop-3.1.3/data</value>
 </property>
 <!-- 配置 HDFS 网页登录使用的静态用户为 hadoop100 -->
 <property>
  <name>hadoop.http.staticuser.user</name>
  <value>hadoop100</value>
 </property>
</configuration>

HDFS配置hdfs-site.xml

在这里插入图片描述

[hadoop100@hadoop102 hadoop]$ vim hdfs-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
 <!-- nn web 端访问地址-->
 <property>
  <name>dfs.namenode.http-address</name>
  <value>hadoop102:9870</value>
 </property>
<!-- 2nn web 端访问地址-->
 <property>
  <name>dfs.namenode.secondary.http-address</name>
  <value>hadoop104:9868</value>
 </property>
</configuration>

YARN配置yarn-site.xml

在这里插入图片描述

[hadoop100@hadoop102 hadoop]$ vim yarn-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
 <!-- 指定 MR 走 shuffle -->
 <property>
  <name>yarn.nodemanager.aux-services</name>
  <value>mapreduce_shuffle</value>
 </property>
 <!-- 指定 ResourceManager 的地址-->
 <property>
  <name>yarn.resourcemanager.hostname</name>
  <value>hadoop103</value>
 </property>
 <!-- 环境变量的继承 -->
 <property>
  <name>yarn.nodemanager.env-whitelist</name>
  <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
 </property>
</configuration>

MapReduce配置mapred-site.xml

在这里插入图片描述

[hadoop100@hadoop102 hadoop]$ vim mapred-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<!-- 指定 MapReduce 程序运行在 Yarn 上 -->
 <property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
 </property>
</configuration>

集群分发配置文件

在这里插入图片描述

[hadoop100@hadoop102 hadoop]$ xsync /opt/module/hadoop-3.1.3/etc/hadoop/

103和104中查看文件分发情况

在这里插入图片描述

[hadoop100@hadoop103 ~]$ cat /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml
[hadoop100@hadoop104 ~]$ cat /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml

2、群起集群（刚刚都配置完了，现在该启动了）

配置workers
workers是告诉hadoop集群有几个节点，我们一共3个，就配置3个

在这里插入图片描述

➢ 配置workers
[hadoop100@hadoop102 hadoop]$ vim /opt/module/hadoop-3.1.3/etc/hadoop/workers
➢ 文件内容如下，注意：该文件中添加的内容结尾不允许有空格，文件中不允许有空行。
hadoop102
hadoop103
hadoop104

➢ 同步所有节点配置文件
[hadoop100@hadoop102 hadoop]$ xsync /opt/module/hadoop-3.1.3/etc

启动集群

如果集群是第一次启动,需要格式化NameNode

需要在 hadoop102 节点格式化 NameNode（注意：格式化 NameNode，会产生新的集群 id，导致 NameNode 和 DataNode 的集群 id 不一致，集群找不到已往数据。如果集群在运行过程中报错，需要重新格式化 NameNode 的话，一定要先停止 namenode 和 datanode 进程，并且要删除所有机器的 data 和 logs 目录，然后再进行格式化。）

[hadoop100@hadoop102 hadoop-3.1.3]$ hdfs namenode -format

启动 HDFS

[hadoop100@hadoop102 hadoop-3.1.3]$ sbin/start-dfs.sh

在配置了 ResourceManager 的节点（hadoop103）启动 YARN

[hadoop100@hadoop103 hadoop-3.1.3]$ sbin/start-yarn.sh

Web端查看HDFS的NameNode

浏览器输入http://hadoop102:9870
查看 HDFS 上存储的数据信息

Web 端查看 YARN 的 ResourceManager

浏览器中输入：http://hadoop103:8088
查看 YARN 上运行的 Job 信息

集群基本测试（`只需要跟着把1.上传文件到集群做了即可，其它的还没学的话，不好理解，了解一下就行`）

上传文件到集群

➢ 上传小文件
[hadoop100@hadoop102 ~]$ hadoop fs -mkdir /input
[hadoop100@hadoop102 ~]$ hadoop fs -put $HADOOP_HOME/wcinput/word.txt /input
➢ 上传大文件
[hadoop100@hadoop102 ~]$ hadoop fs -put /opt/software/jdk-8u212-linux-x64.tar.gz /
➢ 删除文件
[hadoop100@hadoop102 ~]$ hadoop fs -rm -r /input

文件上传后存储位置和HDFS 在磁盘存储文件的内容

➢ HDFS 文件存储路径
[hadoop100@hadoop102 subdir0]$ pwd
➢ 结果如下
/opt/module/hadoop-3.1.3/data/dfs/data/current/BP-1436128598-
192.168.10.102-1610603650062/current/finalized/subdir0/subdir0

➢ HDFS 磁盘存储文件内容
[hadoop100@hadoop102 subdir0]$ cat 文件名
➢ 结果如下
hadoop yarn
hadoop mapreduce 
atguigu
atguigu

拼接（了解即可，下面文件是一个大文件的分卷压缩形式，我们通过cat命令拼接，然后tar命令解压就可以获取的原始的文件）

➢ 假设有如下文件
-rw-rw-r--. 1 hadoop100 hadoop100 134217728 5 月 23 16:01 blk_1073741836
-rw-rw-r--. 1 hadoop100 hadoop100 1048583 5 月 23 16:01 blk_1073741836_1012.meta
-rw-rw-r--. 1 hadoop100 hadoop100 63439959 5 月 23 16:01 blk_1073741837
-rw-rw-r--. 1 hadoop100 hadoop100 495635 5 月 23 16:01 blk_1073741837_1013.meta
➢ 拼接
[hadoop100@hadoop102 subdir0]$ cat blk_1073741836>>tmp.tar.gz
[hadoop100@hadoop102 subdir0]$ cat blk_1073741837>>tmp.tar.gz
[hadoop100@hadoop102 subdir0]$ tar -zxvf tmp.tar.gz

下载

[hadoop100@hadoop104 software]$ hadoop fs -get /jdk-8u212-linux-x64.tar.gz ./

执行wordcount程序

[hadoop100@hadoop102 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output

3、配置历史服务器

YARN执行后的任务，如果把页面关掉，再想回顾历史任务执行过程时无法回顾的，因为没有保存
为了解决问题，我们需要配置一台历史服务器

配置mapred-site.xml

在这里插入图片描述

[hadoop100@hadoop102 hadoop]$ vim mapred-site.xml

➢ 在该文件里面增加如下配置。
<!-- 历史服务器端地址 -->
<property>
 <name>mapreduce.jobhistory.address</name>
 <value>hadoop102:10020</value>
</property>
<!-- 历史服务器 web 端地址 -->
<property>
 <name>mapreduce.jobhistory.webapp.address</name>
 <value>hadoop102:19888</value>
</property>

分发脚本

在这里插入图片描述

[hadoop100@hadoop102 hadoop]$ xsync $HADOOP_HOME/etc/hadoop/mapred-site.xml

启动历史服务器

[hadoop100@hadoop102 hadoop]$ mapred --daemon start historyserver

查看是否启动成功

在这里插入图片描述

[hadoop100@hadoop102 hadoop]$ jps

查看历史工作记录
http://hadoop102:19888/jobhistory

在这里插入图片描述

4、配置日志聚集

日志聚集
应用运行完成以后，将程序运行日志信息上传到 HDFS 系统上

在这里插入图片描述

配置 yarn-site.xml

在这里插入图片描述

[hadoop100@hadoop102 hadoop]$ vim yarn-site.xml

➢ 在该文件里面增加如下配置。
<!-- 开启日志聚集功能 -->
<property>
 <name>yarn.log-aggregation-enable</name>
 <value>true</value>
</property>
<!-- 设置日志聚集服务器地址 -->
<property> 
 <name>yarn.log.server.url</name> 
 <value>http://hadoop102:19888/jobhistory/logs</value>
</property>
<!-- 设置日志保留时间为 7 天 -->
<property>
 <name>yarn.log-aggregation.retain-seconds</name>
 <value>604800</value>
</property>

分发配置

在这里插入图片描述

[hadoop100@hadoop102 hadoop]$ xsync $HADOOP_HOME/etc/hadoop/yarn-site.xml

关闭NodeManager、ResourceManager和HistoryServer

在这里插入图片描述

[hadoop100@hadoop103 hadoop-3.1.3]$ sbin/stop-yarn.sh
[hadoop100@hadoop103 hadoop-3.1.3]$ mapred --daemon stop historyserver

重启被关闭的进程

在这里插入图片描述

[hadoop100@hadoop103 ~]$ start-yarn.sh
[hadoop100@hadoop102 ~]$ mapred --daemon start historyserver

五、集群常用操作总结

1、整体启动和停止

➢ 各个模块分开启动/停止（配置 ssh 是前提）常用
	1）整体启动/停止 HDFS
		start-dfs.sh/stop-dfs.sh
	2）整体启动/停止 YARN
		start-yarn.sh/stop-yarn.sh
➢ 各个服务组件逐一启动/停止（比如HDFS有两个服务，上面命令是一次全启动，这个是启动指定的服务）
	1）分别启动/停止 HDFS 组件
		hdfs --daemon start/stop namenode/datanode/secondarynamenode
	2）启动/停止 YARN
		yarn --daemon start/stop resourcemanager/nodemanager

2、 Hadoop集群常用脚本

1、hadoop集群启停脚本（包含 HDFS，Yarn，Historyserver）

和xsync分发脚本放在一个文件夹

➢ 创建脚本
[hadoop100@hadoop102 ~]$ cd /home/hadoop100/bin
[hadoop100@hadoop102 bin]$ vim myhadoop.sh

➢ 编辑如下内容
#!/bin/bash
if [ $# -lt 1 ]
then
 echo "No Args Input..."
 exit ;
fi
case $1 in
"start")
 echo " =================== 启动 hadoop 集群 ==================="
 echo " --------------- 启动 hdfs ---------------"
 ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/start-dfs.sh"
 echo " --------------- 启动 yarn ---------------"
 ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/start-yarn.sh"
 echo " --------------- 启动 historyserver ---------------"
 ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon start historyserver"
;;
"stop")
 echo " =================== 关闭 hadoop 集群 ==================="
 echo " --------------- 关闭 historyserver ---------------"
 ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon stop historyserver"
 echo " --------------- 关闭 yarn ---------------"
 ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/stop-yarn.sh"
 echo " --------------- 关闭 hdfs ---------------"
 ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/stop-dfs.sh"
;;
*)
 echo "Input Args Error..."
;;
esac

➢ 保存后退出，然后赋予脚本执行权限
[hadoop100@hadoop102 bin]$ chmod +x myhadoop.sh

➢ 执行
[hadoop100@hadoop102 bin]$ myhadoop.sh stop
[hadoop100@hadoop102 bin]$ myhadoop.sh start

2、查看三台服务器 Java 进程脚本：jpsall

[hadoop100@hadoop102 ~]$ cd /home/hadoop100/bin
[hadoop100@hadoop102 bin]$ vim jpsall

#!/bin/bash
for host in hadoop102 hadoop103 hadoop104
do
 echo =============== $host ===============
 ssh $host jps 
done
➢ 保存后退出，然后赋予脚本执行权限
[hadoop100@hadoop102 bin]$ chmod +x jpsall

写完脚本记得同步

[hadoop100@hadoop102 ~]$ xsync /home/hadoop100/bin/

3、常用端口号和配置文件说明

在这里插入图片描述

4、集群时间同步（了解即可，不需要跟着配置）

如果服务器在公网环境（能连接外网），可以不采用集群时间同步,，因为服务器会定期和公网时间进行校准；
如果服务器在内网环境，必须要配置集群时间同步，否则时间久了，会产生时间偏差，导致集群执行任务时间不同步。

解决方案

找一个机器，作为时间服务器，所有的机器与这台集群时间进行定时的同步，
生产环境根据任务对时间的准确程度要求周期同步。测试环境为了尽快看到效果，采用 1 分钟同步一次

时间服务器配置（必须root用户配置）

1.查看所有节点 ntpd 服务状态和开机自启动状态

[hadoop100@hadoop102 ~]$ sudo systemctl status ntpd
[hadoop100@hadoop102 ~]$ sudo systemctl start ntpd
[hadoop100@hadoop102 ~]$ sudo systemctl is-enabled ntpd

修改hadoop102的ntp.conf配置文件

[hadoop100@hadoop102 ~]$ sudo vim /etc/ntp.conf

➢ 1：授权 192.168.10.0-192.168.10.255 网段上的所有机器可以从这台机器上查询和同步时间
	修改 #restrict 192.168.10.0 mask 255.255.255.0 nomodify notrap
	为 restrict 192.168.10.0 mask 255.255.255.0 nomodify notrap

➢ 2：集群在局域网中，不使用其他互联网上的时间
	修改
		server 0.centos.pool.ntp.org iburst
		server 1.centos.pool.ntp.org iburst
		server 2.centos.pool.ntp.org iburst
		server 3.centos.pool.ntp.org iburst
	为
		#server 0.centos.pool.ntp.org iburst
		#server 1.centos.pool.ntp.org iburst
		#server 2.centos.pool.ntp.org iburst
		#server 3.centos.pool.ntp.org iburst
➢ 3：当该节点丢失网络连接，依然可以采用本地时间作为时间服务器为集群中的其他节点提供时间同步
	添加如下内容
		server 127.127.1.0
		fudge 127.127.1.0 stratum 10

修改hadoop102的/etc/sysconfig/ntpd文件

[hadoop100@hadoop102 ~]$ sudo vim /etc/sysconfig/ntpd

➢ 1：让硬件时间与系统时间一起同步
	增加如下内容
		SYNC_HWCLOCK=yes
➢ 2：重启ntpd服务
	[hadoop100@hadoop102 ~]$ sudo systemctl start ntpd
➢ 3：设置 ntpd 服务开机启动
	[hadoop100@hadoop102 ~]$ sudo systemctl enable ntpd

其它机器配置(必须root用户)

➢ 1：关闭所有节点上 ntp 服务和自启动
	[hadoop100@hadoop103 ~]$ sudo systemctl stop ntpd
	[hadoop100@hadoop103 ~]$ sudo systemctl disable ntpd
	[hadoop100@hadoop104 ~]$ sudo systemctl stop ntpd
	[hadoop100@hadoop104 ~]$ sudo systemctl disable ntpd
➢ 2：在其他机器配置 1 分钟与时间服务器同步一次
	[hadoop100@hadoop103 ~]$ sudo crontab -e
	编写定时任务如下：
	*/1 * * * * /usr/sbin/ntpdate hadoop102
➢ 3：修改任意机器时间
	[hadoop100@hadoop103 ~]$ sudo date -s "2021-9-11 11:11:11"
➢ 4：1 分钟后查看机器是否与时间服务器同步
	[hadoop100@hadoop103 ~]$ sudo date