spark3.0教程:spark-shell yarn client提交任务 作者:马育民 • 2021-12-08 20:20 • 阅读:10320 # 说明 通过 `spark-shell` 命令,适用于测试环境,便于交互调试,只能是 **yarn client** 模式 # 启动 ``` spark-shell --master yarn --deploy-mode client ``` 启动如下图: [](https://www.malaoshi.top/upload/pic/spark/Snipaste_2021-12-08_20-23-54.png) ### web ui 根据上图红框提示,访问 http://hadoop1:4040 ,可查看 web ui # 执行 wordcount ### 创建 文本文件 **注意: **要保存为 `utf-8` 编码,否则生成 结果文件是乱码 创建文件 `data.txt` 内容如下: ``` 李雷 lucy 韩梅梅 李雷 lucy 韩梅梅 lili 李雷 张三 lucy 李四 韩梅梅 王五 韩梅梅 李雷 lucy 韩梅梅 lucy 李雷 李雷 李雷 韩梅梅 lucy 李雷 韩梅梅 ``` ### 上传到 HDFS 上传到 HDFS中,如:上传到 HDFS 的 `/data` 目录下 ### 执行 scala 代码 代码摘自官网:http://spark.apache.org/examples.html 在控制台窗口中 **粘贴** 下列代码: **注意:**不要随意换行 ``` val textFile = sc.textFile("/data/data.txt") val counts = textFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_ + _) counts.saveAsTextFile("/result/spark_result") ``` **解释:** 1. 读取 HDFS 的 `/data/data.txt` 文件 2. 根据空格 ` ` 拆分每一行,统计词出现的次数 3. 将结果写入到 `/result/spark_result` 目录中 **优点:**使用 scala 编写 spark 程序,大大简化了代码 ### web页面 在 web ui 中查看运行信息 http://hadoop1:4040 **注意:**退出 `spark-shell` 后,web ui服务也就关闭。此时想查看 运行详情,需要到 历史服务中查看 原文出处:http://malaoshi.top/show_1IX2N3Ye8s1K.html