MapReduce和yarn

来源:http://www.cnblogs.com/Smileing/archive/2017/07/21/7218413.html
-Advertisement-
Play Games

1.Mapreduce是什麼? Mapreduce是一個分散式運算程式的編程框架,是用戶開發“基於hadoop的數據分析應用”的核心框架; Mapreduce核心功能是將用戶編寫的業務邏輯代碼和自帶預設組件整合成一個完整的分散式運算程式,併發運行在一個hadoop集群上; 2.作用 (1)海量數據在 ...


1.Mapreduce是什麼?

Mapreduce是一個分散式運算程式的編程框架,是用戶開發“基於hadoop的數據分析應用”的核心框架;

Mapreduce核心功能是將用戶編寫的業務邏輯代碼和自帶預設組件整合成一個完整的分散式運算程式,併發運行在一個hadoop集群上;

2.作用

1)海量數據在單機上處理因為硬體資源限制,無法勝任

2)而一旦將單機版程式擴展到集群來分散式運行,將極大增加程式的複雜度和開發難度

3)引入mapreduce框架後,開發人員可以將絕大部分工作集中在業務邏輯的開發上,而將分散式計算中的複雜性交由框架來處理.

 

3.mapreduceshuffle機制

 

mapreduce中,map階段處理的數據如何傳遞給reduce階段,是mapreduce框架中最關鍵的一個流程,這個流程就叫shuffle

 

shuffle: 洗牌、發牌——(核心機制:數據分區,排序,緩存

 

具體來說:就是將maptask輸出的處理結果數據,分發給reducetask,併在分發的過程中,數據按key進行了分區和排序

 

Shuffle整體來看,分為3個操作:

 

1、分區partition

 

2、Sort根據key排序

 

3、Combiner進行局部value的合併

 

4.MAPREDUCE中的Combiner

 

 

 

(1)combiner是MR程式中Mapper和Reducer之外的一種組件

 

(2)combiner組件的父類就是Reducer

 

(3)combiner和reducer的區別在於運行的位置:

 

Combiner是在每一個maptask所在的節點運行

 

Reducer是接收全局所有Mapper的輸出結果;

 

(4) combiner的意義就是對每一個maptask的輸出進行局部彙總,以減小網路傳輸量

 

具體實現步驟:

 

1、 自定義一個combiner繼承Reducer,重寫reduce方法

 

2、 在job中設置:  job.setCombinerClass(CustomCombiner.class)

 

(5) combiner能夠應用的前提是不能影響最終的業務邏輯

 

而且,combiner的輸出kv應該跟reducer的輸入kv類型要對應起來

 

 

5,集群運行模式

 

(1)將mapreduce程式提交給yarn集群resourcemanager,分發到很多的節點上併發執行

 

(2)處理的數據和輸出結果應該位於hdfs文件系統

 

(3)提交集群的實現步驟:

 

A、將程式打成JAR包,然後在集群的任意一個節點上用hadoop命令啟動

 

     $ hadoop jar wordcount.jar cn.itcast.bigdata.mrsimple.WordCountDriver inputpath outputpath

 

B、直接在linuxeclipse中運行main方法

 

(項目中要帶參數:mapreduce.framework.name=yarn以及yarn的兩個基本配置)

 

C、如果要在windowseclipse中提交job給集群,則要修改YarnRunner

 

6.編程規範

 

(1)用戶編寫的程式分成三個部分MapperReducerDriver(提交運行mr程式的客戶端)

 

(2)Mapper的輸入數據是KV對的形式(KV的類型可自定義)

 

(3)Mapper的輸出數據是KV對的形式(KV的類型可自定義)

 

(4)Mapper中的業務邏輯寫在map()方法中

 

(5)map()方法(maptask進程)對每一個<K,V>調用一次

 

(6)Reducer的輸入數據類型對應Mapper的輸出數據類型,也是KV

 

(7)Reducer的業務邏輯寫在reduce()方法中

 

(8)Reducetask進程對每一組相同k的<k,v>調用一次reduce()方法

 

(9)用戶自定義MapperReducer都要繼承各自的父類

 

(10)整個程式需要一個Drvier來進行提交,提交的是一個描述了各種必要信息的job對象

 

7.YARN

 

Yarn是一個資源調度平臺,負責為運算程式提供伺服器運算資源,相當於一個分散式的操作系統平臺,而mapreduce等運算程式則相當於運行於操作系統之上的應用程式

 

YARN的重要概念

 

1、 yarn並不清楚用戶提交的程式的運行機制

 

2、 yarn只提供運算資源的調度(用戶程式向yarn申請資源,yarn就負責分配資源)

 

3、 yarn中的主管角色叫ResourceManager

 

4、 yarn中具體提供運算資源的角色叫NodeManager

 

5、 這樣一來,yarn其實就與運行的用戶程式完全解耦,就意味著yarn上可以運行各種類型的分散式運算程式(mapreduce只是其中的一種),比如mapreducestorm程式,spark程式,tez ……

 

6、 所以,sparkstorm等運算框架都可以整合在yarn上運行,只要他們各自的框架中有符合yarn規範的資源請求機制即可

 

7、 Yarn就成為一個通用的資源調度平臺,從此,企業中以前存在的各種運算集群都可以整合在一個物理集群上,提高資源利用率,方便數據共用

 

 

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一、資料庫的基本概念 資料庫: 以一定方式儲存在一起、能為多個用戶共用、具有儘可能小的冗餘度的特點、是與應用程式彼此獨立的數據集合。 DBMS(DataBase Management System,資料庫管理系統)和資料庫。平時談到“資料庫”可能有兩種含義:MSSQLServer、Oracle等某種 ...
  • 高飛狗這幾天特別鬱悶,不知該如何通過TCP/IP協議連接SQL Server資料庫。好在功夫不負有心人,經過幾天的刻苦研究,終於得到了答案。 高飛狗呼叫UDP1434埠,"叮鈴鈴,叮鈴鈴…" UDP1434埠:您好,我是SQL Server Browser,我的名字是黛絲,請問有什麼可以幫您的嗎 ...
  • 1. hbase簡介 1.1. 什麼是hbase HBASE是一個高可靠性、高性能、面向列、可伸縮的分散式存儲系統,利用HBASE技術可在廉價PC Server上搭建起大規模結構化存儲集群。 HBASE的目標是存儲並處理大型的數據,更具體來說是僅需使用普通的硬體配置,就能夠處理由成千上萬的行和列所組 ...
  • 本文出處:http://www.cnblogs.com/wy123/p/7218316.html (保留出處並非什麼原創作品權利,本人拙作還遠遠達不到,僅僅是為了鏈接到原文,因為後續對可能存在的一些錯誤進行修正或補充,無他) 資料庫中的事物是具有原子性(Atomicity),一致性(Consiste ...
  • 在一個完整的大數據處理系統中,除了hdfs+mapreduce+hive組成分析系統的核心之外,還需要數據採集、結果數據導出、任務調度等不可或缺的輔助系統,而這些輔助工具在hadoop生態體系中都有便捷的開源框架。 1 日誌採集框架Flume Flume是一個分散式、可靠、和高可用的海量日誌採集、聚 ...
  • Hive Hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張資料庫表,並提供類SQL查詢功能。 1.1為什麼使用Hive 為什麼要使用Hive 操作介面採用類SQL語法,提供快速開發的能力。 避免了去寫MapReduce,減少開發人員的學習成本。擴展功能很方便。 1.2 ...
  • 協同過濾(Collaborative Filtering,CF)演算法是一種常用的推薦演算法,它的思想就是找出相似的用戶或產品,向用戶推薦相似的物品,或者把物品推薦給相似的用戶。怎樣評價用戶對商品的偏好?可以有很多方法,如用戶對商品的打分、購買、頁面停留時間、保存、轉發等等。得到了用戶對商品的偏好,就可 ...
  • 總結下mysql rpm安裝的方式,與一些錯誤 環境[root@host2 ~]# uname -aLinux host2 2.6.32-504.3.3.el6.x86_64 #1 SMP Wed Dec 17 01:55:02 UTC 2014 x86_64 x86_64 x86_64 GNU/L ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...