MapReduce Tutorial（劃重點）_ZenDei技術網路在線

MapReduce Tutorial（劃重點）

-Advertisement-

Mapper Mapper的maps階段將輸入鍵值對經過計算得到中間結果鍵值對，框架會將中間結果按照key進行分組，然後傳遞給reducer以決定最終的輸出。用戶可以通過Job.setGroupingComparatorClass(Class)來指定一個Comparator。 Mapper的輸出會被 ...

Mapper

Mapper的maps階段將輸入鍵值對經過計算得到中間結果鍵值對，框架會將中間結果按照key進行分組，然後傳遞給reducer以決定最終的輸出。用戶可以通過Job.setGroupingComparatorClass(Class)來指定一個Comparator。

Mapper的輸出會被排序，然後被分到不同的區，以供reducer處理。分區數與Reducer任務數相同。

如果指定了Combiner，那麼會對中間結果進行本地聚集操作，這樣可以減少從Mapper到Reducer傳輸的數量。

Reducer

Reducer減少中間結果的值，這些中間結果的值共用一個key

Reducer有三個主要階段：shuffle、sort、reduce

Shuffle：這個階段的輸入時Mapper的輸出，而且是被排過序的。這個階段會從所有Mapper的輸出中抓取相關分區。

Sort：這個階段會按照key分組。Shuffle和Sort階段是同時進行的，在抓取maps輸出的時候就已經進行了合併

Reduce：Reducer的輸出是沒有排序的

Partitioner

Partitioner控制Mapper中間結果的keys分區。預設的Partitioner是HashPartitioner。

1、預設的分區方式是哈希取模（HashPartitioner），它會用key的哈希值經過計算然後對reduce任務書取模，以決定中間結果在哪個分區。由於是先用key值取哈希，再進行模運算，那麼key值相同的會進入到同一個分區。

2、Reducer任務的數量是根據公式算出來的。大概是<no. of nodes> * <no. of maximum containers per node> 的0.95倍到1.75倍之間。也就是說Reducer任務數決定了會有多少個分區。

3、分區是框架做的，中間結果的排序可以自定義

4、如果指定了Combiner則可以對中間結構進行本地聚集操作

5、Shuffle階段是通過HTTP抓取相關的分區並且對分區中的key進行分組排序

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

HDFS High Availability Using the Quorum Journal Manager

http://hadoop.apache.org/docs/r2.9.0/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html 背景在Hadoop 2.0.0以前，在一個HDFS集群中NameNode存在單點故障。每個集群 ...
HDFS Federation

http://hadoop.apache.org/docs/r2.9.0/hadoop-project-dist/hadoop-hdfs/Federation.html Background HDFS有兩個主要的層： Namespace 由目錄、文件和塊組成它支持所有的文件系統命名空間操作，比如， ...
mysql下，保存時間時具體時間丟失，只保存了日期的問題

這邊將日誌信息記入資料庫時，發現資料庫日誌具體時間丟失，只保留了日期。我這邊環境是（SRPINGMVC+Mybatis，mysql版本5.6.28以上），java層使用類型為java.util.Date，數據欄位類型為date 參考了一些網上的說法，基本描述是說： date：只有日期，沒有時間，2 ...
mysql 查兩個表之間的數據差集

需要查兩個表之間的差集首先，想到的是主鍵直接not in 好吧！這個是可以，但是數據多了的話，想到這個查詢的邏輯有點受不住於是再改為下麵的這樣：利用了left join的，然後進行對比，並且利用where進行篩選。後面也在網上找了這條：概念上與第二條同理。好吧！回顧了一下left jo ...
redis詳解(持續更新)

Redis概述 Redis是一種key-value型資料庫，運行於記憶體中，與它相似的資料庫有memcached，現在基本被Redis替代。 Redis適用場景我們要與傳統的關係型資料庫進行對比才能更好的瞭解與使用Redis 1.高併發場景， redis是個單線程的程式對於純記憶體操作如hash查找可 ...
(Les15 Generating Reports by GroupingRelated Data)[20171226]

學習目標： -使用ROLLUP操作符產生小計值 -使用CUBE操作符產生交叉製表 -使用GROUPING函數來標識ROLLUP或CUBE運算符生成的結果集中的聚合級別 -使用GROUPING SETS生成一個相當於UNION ALL方法的結果集 ROLLUP操作符 SELECT [column,] ...
RDD介紹

（本人初次接觸spark可能有些地方理解的不夠到位，希望各位讀者多多指正，對於不恰當的地方也會進行改進） 1、RDD定義：是彈性分散式數據集，是分佈到各個節點的數據集合，具有自動容錯性、位置感知調度和可伸縮性等。 2、RDD的特性： 2.1 分區（partition）分區是RDD的基本組成單位（s ...
hadoop和spark的區別

hadoop是基於磁碟的，它的運算結果保存在磁碟當中；而spark的運算是基於記憶體的。因此spark的運算速度是 hadoop的100倍；即使在磁碟當中運算，spark也是hadoop的10倍左右，原因就是spark具有優秀的作業調度策略。故spark的速度快與hadoop的兩個原因：（1）sp ...