Spark(二): 記憶體管理

来源:http://www.cnblogs.com/tgzhu/archive/2016/08/31/5822370.html
-Advertisement-
Play Games

Spark 作為一個以擅長記憶體計算為優勢的計算引擎,記憶體管理方案是其非常重要的模塊; Spark的記憶體可以大體歸為兩類:execution和storage,前者包括shuffles、joins、sorts和aggregations所需記憶體,後者包括cache和節點間數據傳輸所需記憶體;在Spark 1 ...


     Spark 作為一個以擅長記憶體計算為優勢的計算引擎,記憶體管理方案是其非常重要的模塊; Spark的記憶體可以大體歸為兩類:execution和storage,前者包括shuffles、joins、sorts和aggregations所需記憶體,後者包括cache和節點間數據傳輸所需記憶體;在Spark 1.5和之前版本里,兩者是靜態配置的,不支持借用,spark1.6 對記憶體管理模塊進行了優化,通過記憶體空間的融合,消除以上限制,提供更好的性能。官方網站只是要求記憶體在8GB之上即可(Impala推薦要求機器配置在128GB), 但spark job運行效率主要取決於:數據量大小,記憶體消耗,內核數(確定併發運行的task數量)

目錄:

  •  基礎知識
  • spark1.5- 記憶體管理
  • spark1.6 記憶體管理

基本知識:


  • on-heap memory:Java中分配的非空對象都是由Java虛擬機的垃圾收集器管理的,也稱為堆內記憶體。虛擬機會定期對垃圾記憶體進行回收,在某些特定的時間點,它會進行一次徹底的回收(full gc)。徹底回收時,垃圾收集器會對所有分配的堆內記憶體進行完整的掃描,這意味著一個重要的事實——這樣一次垃圾收集對Java應用造成的影響,跟堆的大小是成正比的。過大的堆會影響Java應用的性能
  • off-heap memory:堆外記憶體意味著把記憶體對象分配在Java虛擬機的堆以外的記憶體,這些記憶體直接受操作系統管理(而不是虛擬機)。這樣做的結果就是能保持一個較小的堆,以減少垃圾收集對應用的影響
  • LRU Cache(Least Recently Used):LRU可以說是一種演算法,也可以算是一種原則,用來判斷如何從Cache中清除對象,而LRU就是“近期最少使用”原則,當Cache溢出時,最近最少使用的對象將被從Cache中清除
  • spark 源碼: https://github.com/apache/spark/releases
  • scale ide for Intellij : http://plugins.jetbrains.com/plugin/?id=1347

Spark1.5- 記憶體管理:


  • 1.6 版本引入了新的記憶體管理方案,配置參數: spark.memory.useLegacyMode 預設 false 表示使用新方案,true 表示使用舊方案, SparkEnv.scala 源碼 如下圖:
  •  
  • 在staticMemoryManager.scala 類中查看構造類及記憶體獲取定義
  •       

  • 通過代碼推斷,若設置了 spark.testing.memory 則以該配置的值作為 systemMaxMemory,否則使用 JVM 最大記憶體作為 systemMaxMemory。
  • spark.testing.memory 僅用於測試,一般不設置,所以這裡我們認為 systemMaxMemory 的值就是 executor 的最大可用記憶體
  • Execution:用於緩存shuffle、join、sort和aggregation的臨時數據,通過spark.shuffle.memoryFraction配置
  • spark.shuffle.memoryFraction:shuffle 期間占 executor 運行時記憶體的百分比,用小數表示。在任何時候,用於 shuffle 的記憶體總 size 不得超過這個限制,超出部分會 spill 到磁碟。如果經常 spill,考慮調大參數值
  • spark.shuffle.safetyFraction:為防止 OOM,不能把 systemMaxMemory * spark.shuffle.memoryFraction 全用了,需要有個安全百分比
  • 最終用於 execution 的記憶體量為:executor 最大可用記憶體* spark.shuffle.memoryFraction*spark.shuffle.safetyFraction,預設為 executor 最大可用記憶體 * 0.16
  • execution記憶體被分配給JVM里的多個task線程。
  • task間的execution記憶體分配是動態的,如果沒有其他tasks存在,Spark允許一個task占用所有可用execution記憶體

  • storage記憶體分配分析過程與 Execution 一致,由上面的代碼得出,用於storage 的記憶體量為: executor 最大可用記憶體 * spark.storage.memoryFraction * spark.storage.safetyFraction,預設為 executor 最大可用記憶體 * 0.54
  • 在 storage 中,有一部分記憶體是給 unroll 使用的,unroll 即反序列化 block,該部分占比由 spark.storage.unrollFraction 控制,預設為0.2

  • 通過代碼分析,storage 和 execution 總共使用了 80% 的記憶體,剩餘 20% 記憶體被系統保留了,用來存儲運行中產生的對象,該類型記憶體不可控.

小結:


  • 這種記憶體管理方式的缺陷,即 execution 和 storage 記憶體表態分配,即使在一方記憶體不夠用而另一方記憶體空閑的情況下也不能共用,造成記憶體浪費,為解決這一問題,spark1.6 啟用新的記憶體管理方案UnifiedMemoryManager
  • staticMemoryManager- jvm 堆記憶體分配圖如下

 

Spark1.6 記憶體管理:


  • 從spark1.6開始,引入了新的記憶體管理方式-----統一記憶體管理(UnifiedMemoryManager),在統一記憶體管理下,spark一個executor中的jvm heap記憶體被劃分成如下圖:

  • Reserved Memory,這一部分的記憶體是我們無法使用的部分,spark內部保留記憶體,會存儲一些spark的內部對象等內容。
  • spark1.6預設的Reserved Memory大小是300MB。這部分大小是不允許我們使用者改變的。簡單點說就是我們在為executor申請記憶體後,有300MB是我們無法使用的。並且如果我們申請的executor的大小小於1.5 * Reserved Memory 即 < 450MB,spark會報錯:
  • User Memory:用戶在程式中創建的對象存儲等一系列非spark管理的記憶體開銷都占用這一部分記憶體
  • Spark Memory:該部分大小為 (JVM Heap Size - Reserved Memory) * spark.memory.fraction,其中的spark.memory.fraction可以是我們配置的(預設0.75),如下圖:
  • 如果spark.memory.fraction配小了,我們的spark task在執行時產生數據時,包括我們在做cache時就很可能出現經常因為這部分記憶體不足的情況而產生spill到disk的情況,影響效率。採用官方推薦預設配置
  • Spark Memory這一塊有被分成了兩個部分,Execution Memory 和 Storage Memory,這通過spark.memory.storageFraction來配置兩塊各占的大小(預設0.5,一邊一半),如圖:
  • Storage Memory主要用來存儲我們cache的數據和臨時空間序列化時unroll的數據,以及broadcast變數cache級別存儲的內容
  • Execution Memory則是spark Task執行時使用的記憶體(比如shuffle時排序就需要大量的記憶體)
  • 為了提高記憶體利用率,spark針對Storage Memory 和 Execution Memory有如下策略:
    1. 一方空閑,一方記憶體不足情況下,記憶體不足一方可以向空閑一方借用記憶體
    2. 只有Execution Memory可以強制拿回Storage Memory在Execution Memory空閑時,借用的Execution Memory的部分記憶體(如果因強制取回,而Storage Memory數據丟失,重新計算即可)
    3. 如果Storage Memory只能等待Execution Memory主動釋放占用的Storage Memory空閑時的記憶體。(這裡不強制取回,因為如果task執行,數據丟失就會導致task 失敗)

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 此簡訊平臺,支持法國wavecom簡訊貓.有VB及DELPHI示常式序 錯誤說明0 成功-1 連接簡訊平臺失敗-2 命令執行失敗-3 無可讀簡訊 function ConnectToServer(aServerName, aLogID, aPass: pchar): integer; stdcall ...
  • 下載解壓後配置redis.conf文件配置埠號和密碼,打開poweshell命令,進入redis解壓目錄,使用.\redis-server.exe redis.conf 命令啟動redis服務,再打開一個powershell命令,通過命令.\redis-cli -h 127.0.0.1 -p 63 ...
  • 這幾天一直在學習C++下使用Mysql的方法及其中各種的問題,也看了很多Mysql的API函數,當然自己看的還是很基礎的。其實對於每種資料庫的操作,基本的方法都是非常類似的,大多都是connect,select,update,delete以及insert這幾個操作。接下來我就將這幾個步驟以代碼的方式 ...
  • 回到目錄 對於redis-sentinel我在之前的文章中已經說過,它是一個仲裁者,當主master掛了後,它將在所有slave伺服器中進行選舉,選舉的原則當然可以看它的官方文章,這與我們使用者沒有什麼關係,而對於sentinel來說,它在進行主從切換時,會觸發相關事件,這是和我們開發人員有關係的, ...
  • (一)深入淺出理解索引結構 實際上,您可以把索引理解為一種特殊的目錄。微軟的SQL SERVER提供了兩種索引:聚集索引(clustered index,也稱聚類索引、簇集索引)和非聚集索引(nonclustered index,也稱非聚類索引、非簇集索引)。下麵,我們舉例來說明一下聚集索引和非聚集 ...
  • 要獲取什麼樣的數據? 我們要獲取的數據,是指那些公開的,可以輕易地獲取地數據.如果你有完整的數據集,肯定是極好的,但一般都很難通過還算正當的方式輕易獲取.單就本系列文章要研究的實時招聘信息來講,能獲取最近一個月的相關信息,已是足矣. 如何獲取數據? 爬蟲,也是可以的,作為一個備選方案.但是,我註意到 ...
  • 當天: select * from T_news where datediff(day,addtime,getdate())=0 最近三天: select * from T_news where datediff(day,addtime,getdate())<= 2 and datediff(day ...
  • 參見 HDP2.4安裝(五):集群及組件安裝 ,安裝配置的spark版本為1.6, 在已安裝HBase、hadoop集群的基礎上通過 ambari 自動安裝Spark集群,基於hadoop yarn 的運行模式。 目錄: Spark集群安裝 參數配置 測試驗證 Spark集群安裝: 在ambari ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...