MapReduce的shuffle過程詳解_ZenDei技術網路在線

MapReduce的shuffle過程詳解

-Advertisement-

[學習筆記] 結果分析：shuffle的英文是洗牌，混洗的意思，洗牌就是越亂越好的意思。當在集群的情況下是這樣的，假如有三個map節點和三個reduce節點，一號reduce節點的數據會來自於三個map節點，而不是就來自於一號map節點。所以說它們的數據會混合，路線會交叉， 3叉3。想象一下，像不像 ...

[學習筆記]

結果分析：
shuffle的英文是洗牌，混洗的意思，洗牌就是越亂越好的意思。當在集群的情況下是這樣的，假如有三個map節點和三個reduce節點，一號reduce節點的數據會來自於三個map節點，而不是就來自於一號map節點。所以說它們的數據會混合，路線會交叉， 3叉3。想象一下，像不像洗牌？馬克-to-win @ 馬克java社區：shuffle在MapReduce中是指map輸出後到reduce接收前，按下麵的官方shuffle圖：具體可以分為map端和reduce端兩個部分。在最開始，假設我們就提交一個大文件，MapReduce會對要處理的大文件數據進行分片（split）操作放到多台機器的集群里，（想象一個搬走大山的大活給一個師的人馬，是不是要把人，部署一圈，展開，一人乾一塊兒，現在是一樣的道理。現在你要擺弄一個1.5T的文件，需要先把它切開，分配到不同機器）為每一個分片分配一個MapTask任務，接下來會對每一個分片中的每一行數據進行處理，得到鍵值對（key,value），其中key為偏移量，value為一行的內容。準備給咱們的自己的map方法。執行完咱自己的map方法，便進入shuffle階段。馬克-to-win @ 馬克java社區：為提高效率，mapreduce會把我們的寫出的結果先存儲到map節點的“環形記憶體緩衝區”（不深入探討），當寫入的數據量達到預先設置的闕值後（預設80%）便會啟動溢出（spill）線程將緩衝區中的那部分數據溢出寫（spill）到磁碟的臨時文件中，可能會產生很多，併在寫入前根據key進行排序（sort）和合併（combine，本章不討論）。

文章轉載自原文： https://blog.csdn.net/qq_44594249/article/details/95864731

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

vue-i18n實現vue對語言切換，國際化。

1、安裝vue-i18n： npm install vue-i18n 如果npm長時間無反應，或安裝失敗，可以換成淘寶鏡像安裝： cnpm install vue-i18n 2、在main.js中引用： import VueI18n from 'vue-i18n' Vue.use(VueI18n) ...
CentOS7使用yum安裝PostgreSQL和PostGIS

1. 更新yum源 CentOS7預設yum源的PostgreSQL版本過低，不適合在本版本上使用。在上找到適合CentOS7的RPM源，複製其url地址，使用yum安裝。同時安裝epel（Extra Packages for Enterprise Linux 7），為了穩定性，CentOS7的默 ...
Linux中關於samba的幾個問題

一、用smbclient命令登錄成功但看不了文件原因：SELinux的阻擋解決：1、關閉SELinux ： setenforce 0 （臨時生效，重啟後失效）或vi /etc/sysconfig/selinux將SELINUX=enforcing改為SELINUX=disabled（永久生效） ...
LVS介紹及相關配置

一. LVS概述 LVS是一種工作在四層協議上的負載均衡解決方案，在1998年5月由章文嵩博士創建。目前廣泛使用的負載均衡模型主要有： 1）工作在四層協議（LVS）：主要用於四層協議上的負載均衡，性能相較於工作在七層的協議更好。但是協議棧是工作在傳輸層，對於傳輸層以上的高級特性支持不足。 2）工作在 ...
Hyper-V “SP2019SER”無法更改狀態。操作失敗，錯誤代碼為“32788”。

卸載Hyper-V，然後重裝，再重啟已有的Hyper-V伺服器，報錯如下：嘗試啟動選定的虛擬機時出錯。“SP2019SER”無法更改狀態。原因：卸載後導致虛擬網卡出現問題導致的。解決辦法：右擊目標虛擬機設置網路適配器，提示有配置錯誤，將其修正即可。 ...
mybatis+sqlServer 實現insertOrUpdate

這兩天遇到一個頭疼的問題，我們系統需要請求第三方數據，第三方收到請求後會生成相應的數據併入庫，我們通過定時任務將第三方數據同步到我們資料庫。當我們發送請求後第三方會立即返回一個值，我們會根據返回值去資料庫更新同步過來的表欄位，sql語句執行完了，沒有任何錯誤，在同步表中查看同步的數據都有且where ...
MySQL數據類型詳解

引言 MySQL中定義數據欄位的類型對你資料庫的優化是非常重要的。 MySQL支持多種類型，大致可以分為三類：數值、日期/時間和字元串(字元)類型，如下腦圖所示：數值類型其中：這些類型，是定長的，其容量是不會隨著後面的數字而變化的，比如int(11)和int(8)，都是一樣的占4位元組。tiny ...
利用MySQL系統資料庫做性能負載診斷

某大師曾說過，像瞭解自己的老婆一樣瞭解自己管理的資料庫，個人認為包含了兩個方面的瞭解： 1，在穩定性層面來說，更多的是關註高可用、讀寫分離、負載均衡，災備管理等等high level層面的措施（就好比要保證生活的穩定性） 2，在實例級別的來說，需要關註記憶體、IO、網路，熱點表，熱點索引，top s ...