五分鐘瞭解Spark之RDD！！

-Advertisement-

# Spark之探究RDD > 如何瞭解一個組件，先看看官方介紹！ ![](https://img2023.cnblogs.com/blog/3161112/202307/3161112-20230727212358040-237097554.png) 進入RDD.scala，引入眼帘的是這麼一段描 ...

Spark之探究RDD

如何瞭解一個組件，先看看官方介紹！

進入RDD.scala，引入眼帘的是這麼一段描述文字（渣翻勿噴）：

RDD，彈性分散式數據集，是Spark中的基礎抽象。代表了一個可以被並行化操作的不可變、可分區的要素集合。這個類包含了任何RDD都可使用的基本操作，例如map,filter。

此外，PairRDDFuncations聲明瞭只有KV對 RDD才可使用的操作，例如groupByKey、join；DoubleRDDFuncations聲明瞭只有Doubles RDD才可使用的操作；SequenceFileRDDFuncations聲明瞭只有可序列化RDD才可使用的操作。所有的操作都是通過隱式調用對於右側任何RDD自動可用的。例如 RDD[(Int, Int)]。

在內部，每一個RDD都有以下五個主要的屬性：

一個分區列表
作用到每個分區的計算函數
依賴RDD列表
【可選】對於KV類型的RDD會有一個Partitioner（例如，定義某個RDD是Hash分區的）
【可選】每個分區的首選計算執行任務

在Spark中，所有任務調度和執行都是基於這些方法，並且允許RDD覆蓋這些方法以實現自己的計算；更進一步說，用戶可以覆蓋這些方法實現自己的邏輯（例如，從一個新的存儲系統讀數據）。請參考《Spark paper》以瞭解更多關於RDD內部的信息。

源碼中的介紹就到這裡結束了，讓我們來看看之中的關鍵點。

RDD彈性分散式數據集

重要結論：RDD是一個數據集，記錄了這個數據集從哪裡來，怎麼計算

數據從哪裡來？

源頭RDD的數據從數據源來，RDD2的數據從源頭RDD來，以此類推。

數據怎麼計算？

計算就是操作，在上文RDD源碼中，說到RDD包含了許多基本的操作，例如map。那不難理解，所謂計算就是調用這些操作，而這些操作可以分成兩類：

Transformation轉換操作：返回一個新的RDD
Action動作操作：返回值不是RDD（無返回值或返回其他）

一般來說，會根據RDD調用的是哪類操作，從而定義為轉換運算元或執行運算元。

那如果轉換操作是將一個RDD轉化為另一個RDD，那不是也可以理解為某種“Action”嗎？所以，轉換操作不是真正的轉換，而是“將一個RDD重新嵌套成了另一個RDD”，而“重新嵌套”實質上就是把自己的計算邏輯套在了前一個RDD上面。

而，Action操作，就是真正的“動作”了。

當最後一個RDD觸發Action操作後，大概是這麼調用的：

（RDDn的計算邏輯（...（RDD2的計算邏輯（RDD1的計算邏輯））））.Action

所以當Action後，一直深入到RDD1開始計算，再逐級返回。從圖中理解，大概是某種“拉式”調用。

那如果沒有最後的Action，結果會怎樣呢？很明顯，無事發生！

數據存在哪裡？

從上面的過程，可以理解到，RDD不實際存儲真正要計算的數據，而是記錄了數據的位置在哪裡，數據的轉換關係。RDD這一條鏈就像是一本操作手冊，只記錄了對數據的操作，而實際執行這些操作的並不是它。

數據到哪裡去？

欸，這個不歸RDD管哈哈，RDD並不會操心數據到哪裡去。

最後

以上就是RDD最簡單的理解了，其實還有很多需要深入的地方，以及如何關聯Spark其他組件；例如，如果說RDD是一本電飯煲使用說明，那使用人是誰呢？（Driver），電飯煲又是哪個東西呢？（集群），飯在哪裡呢？（數據源）。至此，感謝閱讀！

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

在虛擬機VMware上安裝OpenKylin開源操作系統

# 在虛擬機（VMware）上安裝OpenKylin開源操作系統今天我們一下學習下開放麒麟系統的安裝。也是我的開源項目在OpenKylin上運行的實踐。希望通過該項目瞭解和學習Avalonia開發的朋友可以在我的github上拉取代碼，同時希望大家多多點點star。 https://github ...
Azure VM 遠程桌面服務異常排查思路

Windows 服務預設的遠程桌面服務埠號是3389，在創建完Azure VM之後基本都會添加一個any to any的防火牆規則，方便多人登錄這個機器。但是隨時隨地的3389掃描搞得我很煩，就修改了預設的windows 遠程桌面服務的埠號，修改完沒有在VM里的windows 自帶防火牆中添加 ...
Linux標準IO對文件的基本操作（一）

在Linux標準IO中，就是用庫函數對文件進行操作。在C語言中有許多庫函數方便用戶去對文件進行操作。下麵談談一些簡單基本的函數，這些函數都是被包含在頭文件stdio.h中的。一、fopen()函數要操作一個文件，我們肯定先打開它，這裡打開並不是去右鍵文件然後左鍵打開。這裡的打開是指讓系統知道程式 ...
Linux防火牆常用命令

## 1、CentOS-7 > 註意：下列命令要用root賬號/許可權執行 ### 1.1、查看防火牆狀態 ``` systemctl status firewalld ``` ### 1.2、非永久性關閉防火牆 ``` systemctl stop firewalld ``` ### 1.3、非永久 ...
Linux對文件夾操作(複製,移動)

# 一、複製文件夾cp ``` cp -a vue vue-copy ``` 將vue 文件夾下麵的所有文件,複製到同目錄下vue-copy文件夾下麵 ![image](https://img2023.cnblogs.com/blog/3202319/202307/3202319-202307271 ...
Mac裝機必備軟體2023

碼農一枚，Mac作為生產力工具已經有10多年了。用Mac的原因除了系統清爽，逼格高之外，最主要還是因為作為一個資深全棧，要做Apple相關開發，必須用MacOS系統。😅 與Windows不同，MacOS上流行使用的軟體很多都很小眾，作者也不是大廠，但有很多卻很實用，這裡介紹幾款我常用的免費軟體。 ...
選讀SQL經典實例筆記14_層次查詢

![](https://img2023.cnblogs.com/blog/3076680/202307/3076680-20230726164318392-162588362.png) # 1. 結果集 ## 1.1. sql ```sql select empno,mgr from emp ord ...
Mysql高級3-索引的結構和分類

一、索引概述 1.1 索引的介紹索引index：是幫助 Mysql 高效獲取數據的有序的數據結構，在數據之外，資料庫系統維護著的滿足特定查找演算法的數據結構，這些數據結構以某種方式引用(指向)數據，這樣就可以在這些數據結構上實現高級查找演算法，這種數據結構就是索引 1.2 索引的優缺點優點1：提 ...