Spark中的閉包引用和廣播變數

-Advertisement-

閉包引用概念所有編程語言都有閉包的概念，閉包就是在一個函數中引用了函數外的變數。 Spark中，普通的變數是在Driver程式中創建的，RDD的計算是在分散式集群中的task程式上進行的。因此，當分散式運算元的函數引用了外部的變數時，Driver會把該變數序列化後通過網路發送給每一個task（只針 ...

閉包引用

概念

所有編程語言都有閉包的概念，閉包就是在一個函數中引用了函數外的變數。

Spark中，普通的變數是在Driver程式中創建的，RDD的計算是在分散式集群中的task程式上進行的。因此，當分散式運算元的函數引用了外部的變數時，Driver會把該變數序列化後通過網路發送給每一個task（只針對普通對象）。

spark中所謂"閉包引用"，只是看起來類似各種編程語言中的閉包。而本質上就是對某個對象進行序列化+複製，即Driver把分散式運算元中引用的外部變數序列化後，發送給每個task來使用。

在閉包函數內對外部變數進行修改，閉包外的變數並不會改變。因為在閉包函數內的修改，只是在task上對複製過來的閉包對象副本的修改，並不會影響到driver端的原對象，他們是存在於兩台機器上的獨立的文件，互不影響。

好處

應用於大表join小表的場景，將小表數據（字典表、維度表）發送到大表所在節點的記憶體中，在map階段完成join，無需通過兩個rdd去join，省去了shuffle操作。

適用條件

1、閉包引用的對象，必須實現序列化介面：extends Serializable。

2、被引用的對象，數據量不能太大，否則會導致task端記憶體溢出。

單例對象的閉包引用

單例對象（object對象）只在每個executor進程中持有一份，由其中的多個task線程共用。不要在task中對單例對象進行修改操作，否則會產生線程安全問題。而普通對象在每個task線程中都持有一份，不存線上程安全問題。

廣播變數

閉包引用的場景中，Spark為每個task都複製了一份它需要的數據，當數據量較大且task較多時，必然會給網路io和記憶體資源造成很大壓力，而廣播變數只給每個executor發送一份變數副本，由多個task共用。

和閉包引用的區別

1、閉包引用中，是由driver給每個executor直接發送數據。廣播變數中，是通過bittorrent協議來發送數據的，可以減少通信成本。(所有executor遵循了人人為我，我為人人的原則)。

2、閉包引用中，每個task持有一份引用對象的副本，並可以修改（只在該task線程生效）；廣播變數中，一個executor只持有一份廣播變數的副本，由多個task共用，該數據是只讀的，不可修改。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Linux進程

title: 進程 cover: https://img2.imgtp.com/2024/04/30/ZamtkUJE.jpg tags: - 進程 - linux categories: linux系統編程程式與進程程式：是可執行文件，其本質是是一個文件，程式是靜態的，同一個程式可以運行多次， ...
普冉PY32系列(十五) PY32F0系列的低功耗模式

Cortex M0/M0+相對於Cortex M3/M4性能稍弱, 但是優勢在於低價格和低功耗, 這使得M0特別適合性能要求不高且電池供電的便攜類應用, 比如遙控器, 墨水屏, 電子寵物, 電子煙等. 根據 PY32F0 各型號的數據手冊, 對比其最低功耗狀態(STOP模式)下的電流, 全系列可以大... ...
《痞子衡嵌入式半月刊》第 99 期

痞子衡嵌入式半月刊：第 99 期這裡分享嵌入式領域有用有趣的項目/工具以及一些熱點新聞，農曆年分二十四節氣，希望在每個交節之日準時發佈一期。本期刊是開源項目（GitHub: JayHeng/pzh-mcu-bi-weekly），歡迎提交 issue，投稿或推薦你知道的嵌入式那些事兒。上期回顧 ...
Prometheus如何存儲和優化時間序列數據

Prometheus 使用一種稱為 TSDB（時間序列資料庫）的存儲引擎來存儲時間序列數據。以下是 Prometheus 存儲時間序列數據的基本原理：時間序列結構： Prometheus 中的每個時間序列都由一個唯一的指標名稱（metric name）和一組鍵值對標簽（label pairs）組成 ...
軟中斷調度時機

軟中斷處理流程目錄軟中斷處理流程軟中斷處理的時機中斷退出時軟中斷調度機制軟中斷處理的時機標準linux內核關搶占的情況下，軟中斷只在下麵兩個時機調度中斷退出時（中斷上下文）軟中斷線程處理中斷退出時軟中斷調度機制判斷是否屬於中斷上下文以及是否有軟中斷處與pending狀態判斷軟中斷線程 ...
KVM網路管理

一：創建nat網路模式主要就是nat模式的話，網橋沒有連接宿主機的物理網卡，就是創建出來一個網橋，會自動的虛擬出來2個介面（2個網卡的配置文件），一個是網橋的配置文件，另外一個就是nic的配置文件，主要作用就是虛擬機與宿主機進行通信用的 1：命令行的操作思路主要就是，通過配置文件來進行定義，還 ...
Linux Bridge和Tap關係詳解

Bridge（橋）是Linux上用來做TCP/IP二層協議交換的設備，與現實世界中的交換機功能相似。Bridge設備實例可以和Linux上其他網路設備實例連接，既attach一個從設備，類似於在現實世界中的交換機和一個用戶終端之間連接一根網線。當有數據到達時，Bridge會根據報文中的MAC信息進行... ...
使用DiskGenius工具來實現物理機遷移虛擬機，實現虛擬化

背景介紹：在實習的過程中，公司需要將一臺裝有win7的mac筆記本電腦遷移到戴爾G15上，提出的方案是將此筆記本的win7系統虛擬化，在戴爾G15的VmWare虛擬機上運行。作為公司的技術實習生，研究了兩天最後決定使用DiskGenius工具來進行操作。在最一開始，公司的技術發了一個名為Veri ...