yarn-site.xml 配置介紹

来源:https://www.cnblogs.com/wenBlog/archive/2020/01/21/12220897.html
-Advertisement-
Play Games

yarn-site.xml 配置介紹yarn.scheduler.minimum-allocation-mb yarn.scheduler.maximum-allocation-mb說明:單個容器可申請的最小與最大記憶體,應用在運行申請記憶體時不能超過最大值,小於最小值則分配最小值,從這個角度看,最小值 ...


yarn-site.xml 配置介紹

yarn.scheduler.minimum-allocation-mb

yarn.scheduler.maximum-allocation-mb

說明:單個容器可申請的最小與最大記憶體,應用在運行申請記憶體時不能超過最大值,小於最小值則分配最小值,從這個角度看,最小值有點想操作系統中的頁。最小值還有另外一種用途,計算一個節點的最大container數目註:這兩個值一經設定不能動態改變(此處所說的動態改變是指應用運行時)。

預設值:1024/8192

yarn.scheduler.minimum-allocation-vcores

yarn.scheduler.maximum-allocation-vcores

參數解釋:單個可申請的最小/最大虛擬CPU個數。比如設置為1和4,則運行MapRedce作業時,每個Task最少可申請1個虛擬CPU,最多可申請4個虛擬CPU。

預設值:1/32

yarn.nodemanager.resource.memory-mb

yarn.nodemanager.vmem-pmem-ratio

說明:每個節點可用的最大記憶體,RM中的兩個值不應該超過此值。此數值可以用於計算container最大數目,即:用此值除以RM中的最小容器記憶體。虛擬記憶體率,是占task所用記憶體的百分比,預設值為2.1倍;註意:第一個參數是不可修改的,一旦設置,整個運行過程中不可動態修改,且該值的預設大小是8G,即使電腦記憶體不足8G也會按著8G記憶體來使用。

預設值:8G /2.1

yarn.nodemanager.resource.cpu-vcores

參數解釋:NodeManager總的可用虛擬CPU個數。

預設值:8


AM記憶體配置相關參數,此處以MapReduce為例進行說明(這兩個值是AM特性,應在mapred-site.xml中配置),如下:
mapreduce.map.memory.mb
mapreduce.reduce.memory.mb
說明:這兩個參數指定用於MapReduce的兩個任務(Map and Reduce task)的記憶體大小,其值應該在RM中的最大最小container之間。如果沒有配置則通過如下簡單公式獲得:
max(MIN_CONTAINER_SIZE, (Total Available RAM) / containers))
一般的reduce應該是map的2倍。註:這兩個值可以在應用啟動時通過參數改變;

AM中其它與記憶體相關的參數,還有JVM相關的參數,這些參數可以通過,如下選項配置:
mapreduce.map.java.opts
mapreduce.reduce.java.opts
說明:這兩個參主要是為需要運行JVM程式(java、scala等)準備的,通過這兩個設置可以向JVM中傳遞參數的,與記憶體有關的是,-Xmx,-Xms等選項。此數值大小,應該在AM中的map.mb和reduce.mb之間。

我們對上面的內容進行下總結,當配置Yarn記憶體的時候主要是配置如下三個方面:每個Map和Reduce可用物理記憶體限制;對於每個任務的JVM對大小的限制;虛擬記憶體的限制;

下麵通過一個具體錯誤實例,進行記憶體相關說明,錯誤如下:
Container[pid=41884,containerID=container_1405950053048_0016_01_000284] is running beyond virtual memory limits. Current usage: 314.6 MB of 2.9 GB physical memory used; 8.7 GB of 6.2 GB virtual memory used. Killing container.
配置如下:

    <property>
        <name>yarn.nodemanager.resource.memory-mb</name>
        <value>100000</value>
    </property>
    <property>
        <name>yarn.scheduler.maximum-allocation-mb</name>
        <value>10000</value>
    </property>
    <property>
        <name>yarn.scheduler.minimum-allocation-mb</name>
        <value>3000</value>
    </property>
    <property>
        <name>mapreduce.reduce.memory.mb</name>
        <value>2000</value>
    </property>



通過配置我們看到,容器的最小記憶體和最大記憶體分別為:3000m和10000m,而reduce設置的預設值小於2000m,map沒有設置,所以兩個值均為3000m,也就是log中的“2.9 GB physical memory used”。而由於使用了預設虛擬記憶體率(也就是2.1倍),所以對於Map Task和Reduce Task總的虛擬記憶體為都為3000*2.1=6.2G。而應用的虛擬記憶體超過了這個數值,故報錯 。解決辦法:在啟動Yarn是調節虛擬記憶體率或者應用運行時調節記憶體大小.

mapred-site.xml

 

 

在上Yarn的框架管理中,無論是AM從RM申請資源,還是NM管理自己所在節點的資源,都是通過container進行的。Container是Yarn的資源抽象,此處的資源包括記憶體和cup等。下麵對container,進行比較詳細的介紹。為了是大家對container有個比較形象的認識,首先看下圖:



從上圖中我們可以看到,首先AM通過請求包ResourceRequest從RM申請資源,當獲取到資源後,AM對其進行封裝,封裝成ContainerLaunchContext對象,通過這個對象,AM與NM進行通訊,以便啟動該任務。下麵通過ResourceRequest、container和ContainerLaunchContext的protocol
ResourceRequest結構如下:

    message ResourceRequestProto {
    optional PriorityProto priority = 1; // 資源優先順序
    optional string resource_name = 2; // 期望資源所在的host
    optional ResourceProto capability = 3; // 資源量(mem、cpu)
    optional int32 num_containers = 4; // 滿足條件container個數
    optional bool relax_locality = 5 ; //default = true;
    }


對上面結構進行簡要按序號說明:
2:在提交申請時,期望從哪台主機上獲得,但最終還是AM與RM協商決定;
3:只包含兩種資源,即:記憶體和cpu,申請方式:
註:1、由於2與4並沒有限制資源申請量,則AP在資源申請上是無限的。2、Yarn採用覆蓋式資源申請方式,即:AM每次發出的資源請求會覆蓋掉之前在同一節點且優先順序相同的資源請求,也就是說同一節點中相同優先順序的資源請求只能有一個。

container結構:

    message ContainerProto {
    optional ContainerIdProto id = 1; //container id
    optional NodeIdProto nodeId = 2; //container(資源)所在節點
    optional string node_http_address = 3;
    optional ResourceProto resource = 4; //分配的container數量
    optional PriorityProto priority = 5; //container的優先順序
    optional hadoop.common.TokenProto container_token = 6; //container token,用於安全認證
    }


註:每個container一般可以運行一個任務,當AM收到多個container時,將進一步分給某個人物。如:MapReduce

ContainerLaunchContext結構:

    message ContainerLaunchContextProto {
    repeated StringLocalResourceMapProto localResources = 1; //該Container運行的程式所需的在資源,例如:jar包
    optional bytes tokens = 2;//Security模式下的SecurityTokens
    repeated StringBytesMapProto service_data = 3;
    repeated StringStringMapProto environment = 4; //Container啟動所需的環境變數
    repeated string command = 5; //該Container所運行程式的命令,比如運行的為java程式,即$JAVA_HOME/bin/java org.ourclassrepeated ApplicationACLMapProto application_ACLs = 6;//該Container所屬的Application的訪問控制列表
    }


下麵結合一段代碼,僅以ContainerLaunchContext為例進行描述(本應該寫個簡單的有限狀態機的,便於大家理解,但時間不怎麼充分):

申請一個新的ContainerLaunchContext:

    ContainerLaunchContext ctx = Records.newRecord(ContainerLaunchContext.class);
              填寫必要的信息:
    ctx.setEnvironment(...);
    childRsrc.setResource(...);
    ctx.setLocalResources(...);
    ctx.setCommands(...);
    啟動任務:
    startReq.setContainerLaunchContext(ctx);



最後對container進行如下總結:container是Yarn的資源抽象,封裝了節點上的一些資源,主要是CPU與記憶體;container是AM向NM申請的,其運行是由AM向資源所在NM發起的,並最終運行
的。有兩類container:一類是AM運行需要的container;另一類是AP為執行任務向RM申請的。


每個slave可以運行

map的數據<=yarn.nodemanager.resource.memory-mb/mapreduce.map.memory.mb,

reduce任務的數量<=yarn.nodemanager.resource.memory-mb/mapreduce.reduce.memory.mb


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 推薦閱讀: 論主數據的重要性(正確理解元數據、數據元) CDC+ETL實現數據集成方案 Java實現impala操作kudu 實戰kudu集成impala impala基本介紹 impala是cloudera提供的一款高效率的sql查詢工具,提供實時的查詢效果,官方測試性能比hive快10到100倍 ...
  • 正則表達式介紹 前兩章中的過濾例子允許用匹配、比較和通配操作符尋找數據。對 於基本的過濾(或者甚至是某些不那麼基本的過濾),這樣就足夠了。但 隨著過濾條件的複雜性的增加, WHERE 子句本身的複雜性也有必要增加。 這也就是正則表達式變得有用的地方。正則表達式是用來匹配文本 的特殊的串(字元集合)。 ...
  • LIKE 操作符 前面介紹的所有操作符都是針對已知值進行過濾的。不管是匹配一 個還是多個值,測試大於還是小於已知值,或者檢查某個範圍的值,共 同點是過濾中使用的值都是已知的。但是,這種過濾方法並不是任何時 候都好用。例如,怎樣搜索產品名中包含文本anvil的所有產品?用簡單 的比較操作符肯定不行,必 ...
  • 如何組合 WHERE 子句以建立功能更強的更高級的搜索條件?如何使用 NOT 和 IN 操作符? 組合 WHERE 子句 第6章中介紹的所有 WHERE 子句在過濾數據時使用的都是單一的條 件。為了進行更強的過濾控制,MySQL允許給出多個 WHERE 子句。這些子 句可以兩種方式使用:以 AND ...
  • 使用 WHERE 子句 資料庫表一般包含大量的數據,很少需要檢索表中所有行。通常只 會根據特定操作或報告的需要提取表數據的子集。只檢索所需數據需要 指定搜索條件(search criteria),搜索條件也稱為過濾條件(filter condition)。 在 SELECT 語句中,數據根據 WHE ...
  • 排序數據 其實,檢索出的數據並不是以純粹的隨機順序顯示的。如果不排 序,數據一般將以它在底層表中出現的順序顯示。這可以是數據最初 添加到表中的順序。但是,如果數據後來進行過更新或刪除,則此順 序將會受到MySQL重用回收存儲空間的影響。因此,如果不明確控 制的話,不能(也不應該)依賴該排序順序。關係 ...
  • SELECT 語句 SQL語句是由簡單的英語單詞構成的。這些單詞稱 為關鍵字,每個SQL語句都是由一個或多個關鍵字構成的。大概,最經常 使用的SQL語句就是 SELECT 語句了。它的用途是從一個或多個表中檢索 信息。 為了使用 SELECT 檢索表數據,必須至少給出兩條信息——想選擇什 麽,以及從 ...
  • 連接 在具有可供使用的MySQL DBMS和客戶機軟體之後,有必要簡要討 論一下如何連接到資料庫。 MySQL與所有客戶機 — 伺服器DBMS一樣,要求在能執行命令之前登 錄到DBMS。登錄名可以與網路登錄名不相同(假定你使用網路)。MySQL 在內部保存自己的用戶列表,並且把每個用戶與各種許可權關聯 ...
一周排行
    -Advertisement-
    Play Games
  • 基於.NET Framework 4.8 開發的深度學習模型部署測試平臺,提供了YOLO框架的主流系列模型,包括YOLOv8~v9,以及其系列下的Det、Seg、Pose、Obb、Cls等應用場景,同時支持圖像與視頻檢測。模型部署引擎使用的是OpenVINO™、TensorRT、ONNX runti... ...
  • 十年沉澱,重啟開發之路 十年前,我沉浸在開發的海洋中,每日與代碼為伍,與演算法共舞。那時的我,滿懷激情,對技術的追求近乎狂熱。然而,隨著歲月的流逝,生活的忙碌逐漸占據了我的大部分時間,讓我無暇顧及技術的沉澱與積累。 十年間,我經歷了職業生涯的起伏和變遷。從初出茅廬的菜鳥到逐漸嶄露頭角的開發者,我見證了 ...
  • C# 是一種簡單、現代、面向對象和類型安全的編程語言。.NET 是由 Microsoft 創建的開發平臺,平臺包含了語言規範、工具、運行,支持開發各種應用,如Web、移動、桌面等。.NET框架有多個實現,如.NET Framework、.NET Core(及後續的.NET 5+版本),以及社區版本M... ...
  • 前言 本文介紹瞭如何使用三菱提供的MX Component插件實現對三菱PLC軟元件數據的讀寫,記錄了使用電腦模擬,模擬PLC,直至完成測試的詳細流程,並重點介紹了在這個過程中的易錯點,供參考。 用到的軟體: 1. PLC開發編程環境GX Works2,GX Works2下載鏈接 https:// ...
  • 前言 整理這個官方翻譯的系列,原因是網上大部分的 tomcat 版本比較舊,此版本為 v11 最新的版本。 開源項目 從零手寫實現 tomcat minicat 別稱【嗅虎】心有猛虎,輕嗅薔薇。 系列文章 web server apache tomcat11-01-官方文檔入門介紹 web serv ...
  • 1、jQuery介紹 jQuery是什麼 jQuery是一個快速、簡潔的JavaScript框架,是繼Prototype之後又一個優秀的JavaScript代碼庫(或JavaScript框架)。jQuery設計的宗旨是“write Less,Do More”,即倡導寫更少的代碼,做更多的事情。它封裝 ...
  • 前言 之前的文章把js引擎(aardio封裝庫) 微軟開源的js引擎(ChakraCore))寫好了,這篇文章整點js代碼來測一下bug。測試網站:https://fanyi.youdao.com/index.html#/ 逆向思路 逆向思路可以看有道翻譯js逆向(MD5加密,AES加密)附完整源碼 ...
  • 引言 現代的操作系統(Windows,Linux,Mac OS)等都可以同時打開多個軟體(任務),這些軟體在我們的感知上是同時運行的,例如我們可以一邊瀏覽網頁,一邊聽音樂。而CPU執行代碼同一時間只能執行一條,但即使我們的電腦是單核CPU也可以同時運行多個任務,如下圖所示,這是因為我們的 CPU 的 ...
  • 掌握使用Python進行文本英文統計的基本方法,並瞭解如何進一步優化和擴展這些方法,以應對更複雜的文本分析任務。 ...
  • 背景 Redis多數據源常見的場景: 分區數據處理:當數據量增長時,單個Redis實例可能無法處理所有的數據。通過使用多個Redis數據源,可以將數據分區存儲在不同的實例中,使得數據處理更加高效。 多租戶應用程式:對於多租戶應用程式,每個租戶可以擁有自己的Redis數據源,以確保數據隔離和安全性。 ...