Spark1.5堆記憶體分配

来源:http://www.cnblogs.com/dreamfly2016/archive/2016/07/30/5720180.html
-Advertisement-
Play Games

這是spark1.5及以前堆記憶體分配圖 下邊對上圖進行更近一步的標註,紅線開始到結尾就是這部分的開始到結尾 spark 預設分配512MB JVM堆記憶體。出於安全考慮和避免記憶體溢出,Spark只允許我們使用堆記憶體的90%,這在spark的spark.storage.safetyFraction 參數 ...


這是spark1.5及以前堆記憶體分配圖 下邊對上圖進行更近一步的標註,紅線開始到結尾就是這部分的開始到結尾 spark 預設分配512MB JVM堆記憶體。出於安全考慮和避免記憶體溢出,Spark只允許我們使用堆記憶體的90%,這在spark的spark.storage.safetyFraction 參數中配置著。也許你聽說的spark是一個記憶體工具,Spark允許你存儲數據在記憶體。其實,Spark不是真正的記憶體工具,它只是允許你使用記憶體的LRU(最近最少使用)緩存 。所以,一部分記憶體要被用來緩存你要處理的數據,這部分記憶體占可用安全堆記憶體的60%,這個值在spark.storage.memoryFraction參數中配置。所以如果你想知道你可以存多少數據在spark中,spark.storage.safetyFraction 預設值為0.9,spark.storage.memoryFraction的預設值為0.6, Storage=總堆記憶體*0.9*0.6,所以你有54%的堆記憶體用來存儲數據。 shuffle記憶體: spark.shuffle.safetyFraction * spark.shuffle.memoryFraction spark.shuffle.safetyFraction預設為0.8或80%,spark.shuffle.memoryFraction預設為0.2或20%,則你最終可以使用0.8*0.2=0.16或16%的JVM 堆記憶體用於shuffle。 Unroll記憶體: spark允許數據以序列化或非序列化的形式存儲,序列化的數據不能拿過來直接使用,所以就需要先反序列化,即unroll。  Heap Size*spark.storage.safetyFraction*spark.storage.memoryFraction*spark.storage.unrollFraction=Heap Size *0.9*0.6*0.2=Heap Size * 0.108或10.8%的JVM 堆記憶體。 到此為止,你應該就知道Spark是如何使用jvm記憶體的了,下邊是集群模式,以yarn為例,其它類似。 在Yarn集群中,Yarn Resource Manager管理集群的資源(實際就是記憶體)和一系列運行在集群Node上yarn resource manager及集群Nodes資源的使用。從YARN的角度,每一個 Node都代表了一個可控制的記憶體資源,當你向Yarn Resource Manager申請資源時,它會反饋給你哪個yarn node manager 可以連接並啟動一個execution container給你。每一個execution container都是一個可以提供堆記憶體的JVM,JVM的位置是由Yarn Resource manager選擇的。   當你在Yarn上啟動Spark時,你可以指定executor的數量(–num-executors flag or spark.executor.instances parameter)、每個executor的記憶體大小(–executor-memory flag or spark.executor.memory  parameter)、每個executor的內核數量(–executor-cores flag of spark.executor.coresparameter)、每個task執行的內核數量(spark.task.cpusparameter),你也可以指定driver的記憶體大小(–driver-memory flag or spark.driver.memory parameter)。   當你在集群中執行某項任務時,一個job會被切分成stages,每個stage會被分成多個task,每個task會被單獨分配,你可以把這些executor看成一個個執行task的槽池(a pool of tasks execution slots)。如下看一個例子:一個集群有12個節點(yarn node manager),每個節點有64G記憶體、32核的CPU(16個物理內核,一個物理內核可以虛擬成兩個)。每個節點你可以啟動兩個executors、每個executor分配26G記憶體(留一部分用於system process、yarn NM、DataNode).所以集群一共可以處理 12 machines * 2 executors per machine * 12 cores per executor / 1 core for each task = 288 task slots。這意味著該集群可以並行運行288個task,充分利用集群的所有資源。你可以用來存儲數據的記憶體為= 0.9 spark.storage.safetyFraction * 0.6 spark.storage.memoryFraction * 12 machines * 2 executors per machine * 26 GB per executor = 336.96 GB。沒有那麼多,但是也足夠了。   到此,你已經知道spark如何分配 jvm記憶體,在集群中可以有多少個execution slots。那麼什麼是task,你可以把他想像成executor的某個線程,executor是一個進程 ,它可以多線程的執行task.   下邊來解釋一下另一個抽象概念"Partition",你用來分析的所有數據都將被切分成partitions,那麼何為一個partition,它又是由什麼決定的?partition的大小是由你使用的數據源決定的,在spark中你可以使用的所有讀取數據的方式,大多你可以指定你的RDD中有多少個partitions。當你從HDFS中讀取一個文件時,hadoop的InputFormat決定partition。通常由InputFormat輸入的每一個 split對應於RDD中的一個partition,而每一個split通常相當於hdfs中的一個block(還有一些其它情況,暫不解釋,如text file壓縮後傳過一整個partition不能直接使用)。 一個partition產生一個task,併在數據所在的節點task slot執行(數據本地性)     參考譯自:https://0x0fff.com/spark-architecture/ 語言組織不是特別好,請見諒,如有失誤之處,還請多提寶貴意見。  
您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • (偷懶,寫簡略點) 自定義一個Request類 public class MyRequest extends Request<JSONObject> 存儲上一次連接的sessionid @Override protected Response<JSONObject> parseNetworkResp ...
  • Images.xcassets概述功能方便用戶管理圖像資源。圖片獲取方式Images.xcassets中的圖片資源只能通過imageNamed:方法載入,通過NSBundle的pathForResource:ofType:無法獲得圖片路徑。因此,Images.xcassets只適合存放系統常用的,占... ...
  • 前言: 前兩篇介紹了自定義控制項的基礎原理Android自定義控制項之基本原理(一)、自定義屬性Android自定義控制項之自定義屬性(二)。今天重點介紹一下如何通過自定義組合控制項來提高佈局的復用,降低開發成本,以及維護成本。 使用自定義組合控制項的好處? 我們在項目開發中經常會遇見很多相似或者相同的佈局, ...
  • ...
  • ...
  • 在Oracle中因為沒有top關鍵字,所以在sqlserver中的分頁代碼並不適用於Oracle,那麼在Oracle中如何來實現分頁呢? --查詢所有數據 比如說我要查詢stuInfo表中第二到第四條記錄 --兩層嵌套分頁 --如果我沒有對原始表有其他的排序操作的話,兩層嵌套就可以滿足需求了,但是如 ...
  • --創建一個新用戶NewUser 並設置密碼為1 create user NewUser identified by 1; --為該用戶賦予許可權 grant connect , Resource to NewUser; ...
  • Spark從1.6.0版本開始,記憶體管理模塊就發生了改變,舊版本的記憶體管理模塊是實現了StaticMemoryManager 類,現在被稱為"legacy"。"Legacy"模式預設被置為不可用,這就意味著當你用Spark1.5.x和Spark1.6.x運行相同的代碼會有不同的結果,應當多加註意。考 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...