spark3.0教程:RDD 作者:马育民 • 2021-05-17 14:18 • 阅读:10030 # 介绍 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的 **数据处理模型**。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。 - 弹性 - 存储的弹性:内存与磁盘的自动切换; - 容错的弹性:数据丢失可以自动恢复; - 计算的弹性:计算出错重试机制; - 分片的弹性:可根据需要重新分片。 - 分布式:数据存储在大数据集群不同节点上 - 数据集:RDD 封装了计算逻辑,并不保存数据 - 数据抽象:RDD 是一个抽象类,需要子类具体实现 - 不可变:RDD 封装了计算逻辑,是不可以改变的,想要改变,只能产生新的 RDD,在新的 RDD 里面封装计算逻辑 - 可分区、并行计算 原文出处:http://malaoshi.top/show_1IX18rbSag6X.html