Hadoop Mapreduce 中的FileInputFormat類的文件切分演算法和host選擇演算法

-Advertisement-

文件切分演算法文件切分演算法主要用於確定InputSplit的個數以及每個InputSplit對應的數據段。 FileInputFormat以文件為單位切分成InputSplit。對於每個文件，由以下三個屬性值確定其對應的InputSplit的個數。 goalSize：根據用戶期望的InputSpli ...

文件切分演算法

文件切分演算法主要用於確定InputSplit的個數以及每個InputSplit對應的數據段。 FileInputFormat以文件為單位切分成InputSplit。對於每個文件，由以下三個屬性值確定其對應的InputSplit的個數。

goalSize：根據用戶期望的InputSplit數據計算，即totalSize/numSplit。totalSize為文件總大小；numSplit為用戶設定的Map Task個數，預設情況下是1.
minSize：InputSplit的最小值，由配置參數mapred.min.split.size確定，預設是1.
blockSize:文件在HDFS中存儲的block大小，不同文件可能不同，預設是64MB.

這三個參數共同決定InputSplit的最終大小，計算方式：
splitSize = max{mainSize,min{goalSize,biockSize}}

一旦確定splitSize值後，FileInputFormat將文件依次切成大小為splitSize的InputSplit，最後剩下不足splitSize的數據塊單獨成為一個InputSplit。

host選擇演算法

InputSplit切分方案確定之後，需要確定每個InputSplit的元數據信息。元數據信息通常由四部分組成：<file,start,length,host>，分別表示InputSplit所在的文件、起始位置、長度以及所在的host（節點）列表。其中，前面三項容易確定，難點在於host列表的選擇方法。

Hadoop將數據本地性按照代價劃分為三個等級：node locality、rack locality和data center locality。在進行任務調度時，會依次考慮這三個節點的locality，即有限讓空閑資源處理本節點上的數據，如果節點上沒有任何可處理的數據，則處理同一個機架上的數據，最差的情況是處理其他機架上的數據，但是必須位於同一個數據中心。

FileInputFormat設計了一個簡單有效的啟髮式演算法：首先按照rack包含的數據量對rack進行排序，然後在rack內部按照每個node包含的數據量對node排序，最後取前N個node的host作為InputSplit的host列表，這裡的N為block的副本數。當任務調度器調度Task時，只要將Task調度給位於host列表中的節點，就認為該Task滿足本地性。

當使用基於FileInputFormat實現InputFormat時，為了提高Map Task的數據本地性，應儘量使InputSplit大小與bolck大小相同。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

（1）H5實現音樂播放器【正在播放-歌詞篇】

近期閑來無事，就想著複習一下前端的東西，然後正好跟朋友搞了一個公共開放的音樂api介面，就想著寫一個音樂播放器玩玩！話不多說，直接上圖，然後上代碼【播放器顯示正在播放】實現功能： 1：歌詞隨著歌單滾動！ 2：背景虛擬化，跟著歌曲封面圖改變！這個好多朋友問過我怎麼做到的，這裡可以共用出源碼。 ...
圖層Layers的介紹

圖層包含的要素可以是矢量形式的也可以是柵格形式的。這裡介紹其中一種：添加TileLayer.（載入Image類型的圖層）引用："esri/layers/TileLayer" 舉例：1.獲取圖層信息 var houseLayer = new TileLayer({ url:"https://til ...
覆蓋ng-zorro樣式（非style.scss）

之前發現在模板的樣式表裡寫樣式不起作用，然後想起vue里有個/deep/，angular會不會也有一個，果然，發現了一個::ng-deep可以在模板的樣式表裡覆蓋ng-zorro的樣式。記錄一下(●'◡'●) ...
行為型模式：中介者模式

LieBrother公眾號原文： "行為型模式：中介者模式" 十一大行為型模式之二：中介者模式。簡介姓名：中介者模式英文名：Mediator Pattern 價值觀：讓你體驗中介是無所不能的存在個人介紹： Define an object that encapsulates how ...
關於a[i]++和a[i++]說明

1、a[i]++:表示對當前數組元素值自增，此時可以把a[i]簡單看做一個變數x，操作後，x的值加1；結果： 2、a[i++]:表示指向下一個數組元素值；結果：註意：此處有i++和++i的陷阱，實際應用的時候註意。 ...
python 裝飾器（二）：加參數

接上篇python 閉包&裝飾器（一）一、功能函數加參數：實現一個可以接收任意數據的加法器源代碼如下： def show_time(f): def inner(*x, **y): # 形參 start = time.time() f(*x, **y) # 相當於add() end = time.... ...
Django環境配置

虛擬機創建項目 pycharm創建項目開啟項目一、虛擬機創建項目 1. 創建虛擬環境 workon 查看虛擬環境 mkvirtualenv -p /usr/bin/python3.5 envname 創建虛擬環境 workon envname 進入虛擬環境 deactivate 退出虛擬環境 r ...
python實現給定一個數和數組，求數組中兩數之和為給定的數

給定一個整數數組和一個目標值，找出數組中和為目標值的兩個數。你可以假設每個輸入只對應一種答案，且同樣的元素不能被重覆利用。示例: 給定 nums = [2, 7, 11, 15], target = 9 因為 nums[0] + nums[1] = 2 + 7 = 9 所以返回 [0, 1] 代碼 ...