spark api:SparkContext 作者:马育民 • 2021-06-12 23:06 • 阅读:10034 # 读取文件 ### textFile ``` def textFile(path: String, minPartitions: Int = defaultMinPartitions): RDD[String] ``` **参数:** - path:路径。**相对路径** 或 **绝对路径** - 本地文件路径, - HDFS文件路径, - 目录路径,读取该路径下的所有文件 - 通配符 `*`,如:`book*.txt` 读取 `book`开头,后缀是`.txt`的所有文件 **返回:** - RDD,文本文件的内容 ### wholeTextFiles ``` def wholeTextFiles(path: String, minPartitions: Int = defaultMinPartitions): RDD[(String, String)] ``` **参数:** - path:同 `textFile()` 的 `path` 形参 **返回:** - RDD,文本文件的内容,返回记录是 元祖类型,第一个元素是 文件路径+文件名,第二个元素是 一行内容 # 从集合加载数据 ### makeRDD() ``` makeRDD[T: ClassTag]( seq: Seq[T], numSlices: Int = defaultParallelism): RDD[T] = withScope ``` ### parallelize() 同 makeRDD 原文出处:http://malaoshi.top/show_1IX1IcfxpRrl.html