MapReduce的基礎知識

来源:https://www.cnblogs.com/huan1993/archive/2023/07/03/17522446.html
-Advertisement-
Play Games

# 1、什麼是MapReduce 1. Hadoop MapReduce 是一個 `分散式計算框架`,用於輕鬆編寫分散式應用程式,這些應用程式以可靠,容錯的方式並行處理大型硬體集群(數千個節點)上的大量數據(多TB數據集) 2. MapReduce 是一種`面向海量數據`處理的一種指導思想,也是一種 ...


1、什麼是MapReduce

  1. Hadoop MapReduce 是一個 分散式計算框架,用於輕鬆編寫分散式應用程式,這些應用程式以可靠,容錯的方式並行處理大型硬體集群(數千個節點)上的大量數據(多TB數據集)
  2. MapReduce 是一種面向海量數據處理的一種指導思想,也是一種用於對大規模數據進行分散式計算的編程模型。

2、Map Reduce的優缺點

2.1 優點

  • MapReduce易於編程: 它簡單的實現一些介面,就可以完成一個分散式程式
  • 良好的擴展性: 當你的計算資源不能得到滿足的時候,你可以通過簡單的增加機器來擴展它的計算能力。
  • 高容錯性: MapReduce設計的初衷就是使程式能夠部署在廉價的PC機器上,這就要求它具有很高的容錯性。比如其中一臺機器掛了,它可以把上面的計算任務轉移到另外一個節點上運行,不至於這個任務運行失敗,而且這個過程不需要人工參與,而完全是由Hadoop內部完成的。
  • 適合PB級以上海量數據的離線處理: 可以實現上千台伺服器集群併發工作,提供數據處理能力。

2.2 缺點

  • 實時計算性能差: MapReduce 主要應用於離線作業,無法做到秒級或者是亞秒級別的數據響應。
  • 不能進行流式計算: 流式計算的輸入數據是動態的,而MapReduce的輸入數據集是靜態的,不能動態變化。這是因為MapReduce自身的設計特點決定了數據源必須是靜態的。
  • 不擅長DAG(有向無環圖)計算
    多個應用程式存在依賴關係,後一個應用程式的輸入為前一個的輸出。在這種情況下,MapReduce並不是不能做,而是使用後,每個MapReduce作業的輸出結果都會寫入到磁碟,會造成大量的磁碟IO,導致性能非常的低下。

3、 MapReduce進程

一個完整的MapReduce程式在分散式運行時有三類實例進程:
(1)MrAppMaster:負責整個程式的過程調度及狀態協調。
(2)MapTask:負責Map階段的整個數據處理流程。
(3)ReduceTask:負責Reduce階段的整個數據處理流程。

4、MapReduce編程規範

  • 用戶編寫的程式代碼分成三個部分: Mapper、Reducer和Driver(客戶端提交作業驅動程式)
  • 用戶自定義的Mapper和Reducer都要繼承各自的父類。

Mapper階段

  1. 用戶自定義的Mapper要繼承自己的父類
  2. Mapper的輸入數據是KV對的形式(KV的類型可自定義)
  3. Mapper中的業務邏輯寫在map()方法中
  4. Mapper的輸出數據是KV對的形式(KV的類型可自定義)
  5. map()方法(MapTask進程)對每一個<K,V>調用一次

Reducer階段

  1. 用戶自定義的Reducer要繼承自己的父類
  2. Reducer的輸入數據類型對應Mapper的輸出數據類型,也是KV
  3. Reducer的業務邏輯寫在reduce()方法中
  4. ReduceTask進程對每一組相同k的<k,v>組調用一次reduce()方法

Driver: 描述的是提交Job對象需要的各種必要的信息。

MapReduce內置了很多預設屬性,比如: 排序(key的字典序)、分組(reduce階段key相同的為一組,一組調用一次reduce處理)等,這些都和數據的K有關,所以說kv的類型數據確定是及其重要的。

5、常用數據序列化類型

Java類型 Hadoop Writable類型
Boolean BooleanWritable
Byte ByteWritable
Int IntWritable
Float FloatWritable
Long LongWritable
Double DoubleWritable
String Text
Map MapWritable
Array ArrayWritable
Null NullWritable

本文來自博客園,作者:huan1993,轉載請註明原文鏈接:https://www.cnblogs.com/huan1993/p/17522446.html


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 前幾天在項目讀取resources目錄下的文件時碰到一個小坑,明明在本地是可以正常運行的,但是一發到測試環境就報錯了,說找不到文件,報錯信息是:class path resource [xxxx] cannot be resolved to absolute file path because it... ...
  • 哈嘍大家好,我是鹹魚 今天我們從幾個方面來比較一些現在流行的兩個 python web 框架——Flask 和 Django,突出它們的主要特性、優缺點和簡單案例 到最後,大家將更好地瞭解哪個框架更適合自己的特定需求 參考鏈接:https://djangocentral.com/flask-vs-d ...
  • GO 語言中 chan 的理解 ### chan 的底層實現是怎麼樣的? > chan 是 Go 語言中的一個關鍵字,用於實現併發通信。chan 可以用於在不同的 goroutine 之間傳遞數據,實現數據的同步和非同步傳輸。 在底層實現上,chan 是通過一個結構體來表示的,這個結構體包含了一個指向 ...
  • 序列化的目的是將對象變成位元組序列,這樣一來方便持久化存儲到磁碟,避免程式運行結束後對象就從記憶體里消失,另外位元組序列也更便於網路運輸和傳播 ...
  • 一、線程池的優點 1、線程池能夠復用已經創建了的線程來執行任務,從而降低了頻繁創建和銷毀線程所帶來的資源消耗; 2、任務創建完成時,不必等待線程的創建,能夠立即執行,提高了任務響應的速度。 二、創建線程池的七大核心參數 1、corePoorSize 核心線程數 線程池中長期存活的線程數量。一般情況下 ...
  • # rocketmq-console基本使用 作用:rocketmq-console是rocketmq的一款可視化工具,提供了mq的使用詳情等功能。 ## 一、安裝部署 > 下載rocketmq組件 **rocketmq**:[下載地址](https://rocketmq.apache.org/zh ...
  • ## 教程簡介 大數據分析是指對規模巨大的數據進行分析。大數據可以概括為5個V, 數據量大(Volume)、速度快(Velocity)、類型多(Variety)、價值(Value)、真實性(Veracity)。大數據作為時下最火熱的IT行業的辭彙,隨之而來的數據倉庫、數據安全、數據分析、數據挖掘等等 ...
  • ### 歡迎訪問我的GitHub > 這裡分類和彙總了欣宸的全部原創(含配套源碼):[https://github.com/zq2599/blog_demos](https://github.com/zq2599/blog_demos) ### 本篇概覽 - 本文是《JavaCV的攝像頭實戰》系列的 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...