MapReduce的基礎知識

-Advertisement-

# 1、什麼是MapReduce 1. Hadoop MapReduce 是一個 `分散式計算框架`，用於輕鬆編寫分散式應用程式，這些應用程式以可靠，容錯的方式並行處理大型硬體集群（數千個節點）上的大量數據（多TB數據集） 2. MapReduce 是一種`面向海量數據`處理的一種指導思想，也是一種 ...

1、什麼是MapReduce

Hadoop MapReduce 是一個 分散式計算框架，用於輕鬆編寫分散式應用程式，這些應用程式以可靠，容錯的方式並行處理大型硬體集群（數千個節點）上的大量數據（多TB數據集）
MapReduce 是一種面向海量數據處理的一種指導思想，也是一種用於對大規模數據進行分散式計算的編程模型。

2、Map Reduce的優缺點

2.1 優點

MapReduce易於編程： 它簡單的實現一些介面，就可以完成一個分散式程式
良好的擴展性： 當你的計算資源不能得到滿足的時候，你可以通過簡單的增加機器來擴展它的計算能力。
高容錯性： MapReduce設計的初衷就是使程式能夠部署在廉價的PC機器上，這就要求它具有很高的容錯性。比如其中一臺機器掛了，它可以把上面的計算任務轉移到另外一個節點上運行，不至於這個任務運行失敗，而且這個過程不需要人工參與，而完全是由Hadoop內部完成的。
適合PB級以上海量數據的離線處理： 可以實現上千台伺服器集群併發工作，提供數據處理能力。

2.2 缺點

實時計算性能差： MapReduce 主要應用於離線作業，無法做到秒級或者是亞秒級別的數據響應。
不能進行流式計算： 流式計算的輸入數據是動態的，而MapReduce的輸入數據集是靜態的，不能動態變化。這是因為MapReduce自身的設計特點決定了數據源必須是靜態的。
不擅長DAG（有向無環圖）計算
多個應用程式存在依賴關係，後一個應用程式的輸入為前一個的輸出。在這種情況下，MapReduce並不是不能做，而是使用後，每個MapReduce作業的輸出結果都會寫入到磁碟，會造成大量的磁碟IO，導致性能非常的低下。

3、 MapReduce進程

一個完整的MapReduce程式在分散式運行時有三類實例進程：
（1）MrAppMaster：負責整個程式的過程調度及狀態協調。
（2）MapTask：負責Map階段的整個數據處理流程。
（3）ReduceTask：負責Reduce階段的整個數據處理流程。

4、MapReduce編程規範

用戶編寫的程式代碼分成三個部分： Mapper、Reducer和Driver(客戶端提交作業驅動程式)
用戶自定義的Mapper和Reducer都要繼承各自的父類。

Mapper階段：

用戶自定義的Mapper要繼承自己的父類
Mapper的輸入數據是KV對的形式（KV的類型可自定義）
Mapper中的業務邏輯寫在map()方法中
Mapper的輸出數據是KV對的形式（KV的類型可自定義）
map()方法（MapTask進程）對每一個<K,V>調用一次

Reducer階段：

用戶自定義的Reducer要繼承自己的父類
Reducer的輸入數據類型對應Mapper的輸出數據類型，也是KV
Reducer的業務邏輯寫在reduce()方法中
ReduceTask進程對每一組相同k的<k,v>組調用一次reduce()方法

Driver：描述的是提交Job對象需要的各種必要的信息。

MapReduce內置了很多預設屬性，比如：排序（key的字典序）、分組(reduce階段key相同的為一組，一組調用一次reduce處理)等，這些都和數據的K有關，所以說kv的類型數據確定是及其重要的。

5、常用數據序列化類型

Java類型	Hadoop Writable類型
Boolean	BooleanWritable
Byte	ByteWritable
Int	IntWritable
Float	FloatWritable
Long	LongWritable
Double	DoubleWritable
String	Text
Map	MapWritable
Array	ArrayWritable
Null	NullWritable

本文來自博客園，作者：huan1993，轉載請註明原文鏈接：https://www.cnblogs.com/huan1993/p/17522446.html

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

解決Springboot項目打成jar包後獲取resources目錄下的文件報錯的問題

前幾天在項目讀取resources目錄下的文件時碰到一個小坑，明明在本地是可以正常運行的，但是一發到測試環境就報錯了，說找不到文件，報錯信息是：class path resource [xxxx] cannot be resolved to absolute file path because it... ...
Python web 框架對比：Flask vs Django

哈嘍大家好，我是鹹魚今天我們從幾個方面來比較一些現在流行的兩個 python web 框架——Flask 和 Django，突出它們的主要特性、優缺點和簡單案例到最後，大家將更好地瞭解哪個框架更適合自己的特定需求參考鏈接：https://djangocentral.com/flask-vs-d ...
GO 語言中 chan 的理解

GO 語言中 chan 的理解 ### chan 的底層實現是怎麼樣的？ > chan 是 Go 語言中的一個關鍵字，用於實現併發通信。chan 可以用於在不同的 goroutine 之間傳遞數據，實現數據的同步和非同步傳輸。在底層實現上，chan 是通過一個結構體來表示的，這個結構體包含了一個指向 ...
【序列化與反序列化】關於序列化與反序列化MessagePack的實踐

序列化的目的是將對象變成位元組序列，這樣一來方便持久化存儲到磁碟，避免程式運行結束後對象就從記憶體里消失，另外位元組序列也更便於網路運輸和傳播 ...
Java線程池基礎介紹

一、線程池的優點 1、線程池能夠復用已經創建了的線程來執行任務，從而降低了頻繁創建和銷毀線程所帶來的資源消耗； 2、任務創建完成時，不必等待線程的創建，能夠立即執行，提高了任務響應的速度。二、創建線程池的七大核心參數 1、corePoorSize 核心線程數線程池中長期存活的線程數量。一般情況下 ...
rocketmq-console基本使用

# rocketmq-console基本使用作用：rocketmq-console是rocketmq的一款可視化工具，提供了mq的使用詳情等功能。 ## 一、安裝部署 > 下載rocketmq組件 **rocketmq**：[下載地址](https://rocketmq.apache.org/zh ...
大數據分析教程_編程入門自學教程_菜鳥教程-免費教程分享

## 教程簡介大數據分析是指對規模巨大的數據進行分析。大數據可以概括為5個V，數據量大(Volume)、速度快(Velocity)、類型多(Variety)、價值（Value）、真實性（Veracity）。大數據作為時下最火熱的IT行業的辭彙，隨之而來的數據倉庫、數據安全、數據分析、數據挖掘等等 ...
JavaCV的攝像頭實戰之十三：年齡檢測

### 歡迎訪問我的GitHub > 這裡分類和彙總了欣宸的全部原創(含配套源碼)：[https://github.com/zq2599/blog_demos](https://github.com/zq2599/blog_demos) ### 本篇概覽 - 本文是《JavaCV的攝像頭實戰》系列的 ...