spark3.0教程：spark-shell yarn client提交任务-马育民老师

# 说明

通过 `spark-shell` 命令，适用于测试环境，便于交互调试，只能是 **yarn client** 模式

# 启动

```
spark-shell --master yarn --deploy-mode client
```

启动如下图：

[![](https://www.malaoshi.top/upload/pic/spark/Snipaste_2021-12-08_20-23-54.png)](https://www.malaoshi.top/upload/pic/spark/Snipaste_2021-12-08_20-23-54.png)

### web ui

根据上图红框提示，访问 http://hadoop1:4040 ，可查看 web ui

# 执行 wordcount

### 创建 文本文件

**注意： **要保存为 `utf-8` 编码，否则生成 结果文件是乱码

创建文件 `data.txt`

内容如下：

```
李雷  lucy
韩梅梅 李雷
lucy  韩梅梅
lili 李雷
张三  lucy
李四  韩梅梅
王五  韩梅梅
李雷  lucy
韩梅梅
lucy 李雷
李雷 李雷
韩梅梅  lucy
李雷 韩梅梅
```

### 上传到 HDFS

上传到 HDFS中，如：上传到 HDFS 的 `/data` 目录下

### 执行 scala 代码

代码摘自官网：http://spark.apache.org/examples.html

在控制台窗口中 **粘贴** 下列代码：

**注意：**不要随意换行

```
val textFile = sc.textFile("/data/data.txt")

val counts = textFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_ + _)

counts.saveAsTextFile("/result/spark_result")
```

**解释：**

1. 读取 HDFS 的 `/data/data.txt` 文件
2. 根据空格 ` ` 拆分每一行，统计词出现的次数
3. 将结果写入到 `/result/spark_result` 目录中

**优点：**使用 scala 编写 spark 程序，大大简化了代码

### web页面

在 web ui 中查看运行信息 http://hadoop1:4040

**注意：**退出 `spark-shell` 后，web ui服务也就关闭。此时想查看 运行详情，需要到 历史服务中查看

原文出处：http://malaoshi.top/show_1IX2N3Ye8s1K.html