hadoop3.x 统计词频案例（hadoop-mapreduce-examples）和web管理页面-马育民老师

# 介绍

mapreduce提供的案例，可以统计某目录下 文件中的词频

# 准备工作

### 启动服务

必须启动 hdfs 和 yarn

```
start-dfs.sh
```

```
start-yarn.sh
```

### 创建 文本文件

**注意：** 要保存为 `utf-8` 编码，否则生成 **结果文件是乱码**

创建文件 `/program/data.txt`

```
vim /program/data.txt
```

内容如下：

```
李雷
韩梅梅
lucy
lili
张三
李四
王五
李雷
韩梅梅
lucy
李雷
韩梅梅
李雷
```

保存退出：

【esc】

```
:wq
```

### 创建目录

```
hadoop fs -mkdir /data
```

### 上传

```
hadoop fs -put /program/data.txt /data
```
将 linux 系统的 `/data.txt` 文件，上传到 HDFS `/data` 路径

# 案例命令

```
hadoop jar /program/hadoop-3.0.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.0.3.jar wordcount /data /result
```

**解释：**

- `hadoop jar`：执行jar命令

- `/devtools/hadoop-3.0.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.0.3.jar`：jar包所在位置，可以是相对路径

- `wordcount`：统计词频。还有其他功能
- `/top/malaoshi/data`：读取 hdfs 的目录
- `/result`：将结果输出到 hdfs 的目录下

# 命令查看结果

```
hadoop fs -cat /result/p*
```

显示结果如下：

```
li      1
lucy    1
张三    1
李四    1
李雷    3
王五    1
韩梅梅  2
```

**注意：** 此处可能是 **中文乱码**，原因：`data.txt` 没有保存为 `utf-8` 编码

# Hadoop web查看结果

访问 http://hadoop1:9870/

[![](http://65242847.gitee.io/pic/hadoop/QQ20210209224800.png)](http://65242847.gitee.io/pic/hadoop/QQ20210209224800.png)

# Yarn Web管理界面查看结果

访问：http://hadoop1:8088/ ，显示界面如下：

[![](http://65242847.gitee.io/pic/hadoop/QQ20210210214302.png)](http://65242847.gitee.io/pic/hadoop/QQ20210210214302.png)