MapReduce的shuffle過程_ZenDei技術網路在線

MapReduce的shuffle過程

-Advertisement-

本文是學習時的自我總結，用於日後溫習。如有錯誤還望諒解，不吝賜教。此處附上一篇個人認為寫的比較好的博客，轉自枝葉飛揚的博文：http://blog.sina.com.cn/s/blog_605f5b4f010188lp.html### 將Map的輸出作為Reduce的輸入的過程就是Shuffle了 ...

本文是學習時的自我總結，用於日後溫習。如有錯誤還望諒解，不吝賜教。

此處附上一篇個人認為寫的比較好的博客，轉自枝葉飛揚的博文：http://blog.sina.com.cn/s/blog_605f5b4f010188lp.html###

將Map的輸出作為Reduce的輸入的過程就是Shuffle了，這個是MapReduce優化的重點地方

Shuffle 過程

① Map在記憶體中開啟一個預設大小100MB的環形記憶體緩衝區用於輸出

② 當緩衝區記憶體達到預設閾值 80% 時，Map 會啟動守護進程，把內容寫到磁碟上，這個過程叫做Spill。另外的20% 記憶體可繼續寫入數據，寫入磁碟和寫入記憶體互不幹擾

③ 如果緩存區被撐滿，Map 會阻塞寫入記憶體的操作，在寫入磁碟操作完成後再繼續寫入記憶體

④ 排序階段是在寫入磁碟的時候進行的，如果有Combiner，排序前會執行Combiner

⑤ 每次Spill寫入磁碟操作會產生溢出文件，當Map輸出全部完成後，Map會合併這些文件

此處的小文件合併，是對於不同分區進行小文件合併，即同一個Map輸出的所有小文件應該根據分區進行文件合併

⑥ Reduce階段中，一個Partition對應一個Reduce作業，Reduce會根據Partition找到對應的map輸出文件，進行複製操作，複製過程中Reduce會進行排序操作和合併文件操作

Shuffle 優化

① 分區：預設哈希演算法分區，滿足不了業務需求時需要按業務要求重寫

public int getPartition(K key, V value, int numReduceTasks) {

return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks; }

② 分組：預設相同的Key在一組，如果業務要求某些不同的Key按一組來調用一次reduce()，這時需要重寫

③ 排序：預設按字典排序，如果業務上要求不是這樣，比如要求降序或者按其它條件來排，需要重寫

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

學習Memcached:1基本配置與安裝

今天把剛剛學習的到memcached寫在博客里,以免以後自己遺忘。 1.首先下載Memcached資料庫服務文件,這是我下載好的這個memcached文件。 2.接下來就啟動這個exe。通常我需要講這個memacached.exe 註冊成一個服務,也可以雙擊執行這個exe,但是通過雙擊打開的命令視窗 ...
OS X Yosemite升級提示升級OS10.11或更高版本問題解決方法

如圖，樓主的pro久未升級，版本號已經很低。某天一時興起，想體驗最新版本的OS X。就很開心的進行軟體更新：依據iOS上的APP、系統升級經驗，這是一個非常自然、毫無難度的過程，哪知道，今天一直卡在如下提示：問題在於：目前最新版本的OS X已經到10.13，蘋果也沒有提供10.11的下載，這該如 ...
kubernetes 使用flannel網路模式錯誤分析

今天按照網上和書上的要求，將目前的kubernetes網路換成flannel。其實配置起來還是很簡單的，但是一旦出現了問題，將很難解決。配置方法我這邊不給出了。因為網上這樣的教程一大把，在說下去也無意義。但是錯誤還是遇見了幾個。我的環境：centos7（master+2個node ）+ etcd ...
keepalived實現服務高可用

第1章 keepalived服務說明 1.1 keepalived是什麼？ Keepalived軟體起初是專為LVS負載均衡軟體設計的，用來管理並監控LVS集群系統中各個服務節點的狀態，後來又加入了可以實現高可用的VRRP功能。因此，Keepalived除了能夠管理LVS軟體外，還可以作為其他服務（ ...
修改Linux SSH連接埠和禁用IP，安裝DDoS deflate

測試系統：centos7 修改連接埠修改配置文件去掉port 22的註釋，添加新的埠配置自定義埠選擇建議在萬位的埠（如：10000 65535之間) 不要直接刪除port 22，以免遺忘新SSH埠或者埠不能訪問，我們還能繼續訪問SSH,保存並退出重啟SSH配置重新連接VPS並刪 ...
Nginx的反向代理與負載均衡

1.1 集群是什麼簡單地說，集群就是指一組（若幹個）相互獨立的電腦，利用高速通信網路組成的一個較大的電腦服務系統，每個集群節點（即集群中的每台電腦）都是運行各自服務的獨立服器。這些伺服器之間可以彼此通信，協同向用戶提供應用程式、系統資源和數據，並以單一系統的模式加以管理。當用戶客戶機請求集群 ...
海量日誌採集系統flume架構與原理

1、Flume概念 flume是分散式日誌收集系統，將各個伺服器的數據收集起來併發送到指定地方。 Flume是Cloudera提供的一個高可用、高可靠、分散式的海量日誌採集、聚合和傳輸的系統。Flume支持在日誌系統中定製各類數據發送方，用於收集數據；同時，Flume提供對數據進行簡單處理，並寫到各 ...
Oracle 基礎——序列

一、什麼是序列序列是用於生成唯一、連續序號的對象。序列可以是升序的，也可以是降序的，Oracle用戶想創建序列必須有創建序列的角色許可權。二、創建序列的SQL語法創建序列：CREATE SEQUENCE SEQ_NAME START WITH n INCREMENT BY n2 MAXVALUE ...