hadoop —— Reducer全排序

来源:https://www.cnblogs.com/yiwanfan/archive/2018/05/28/9098366.html
-Advertisement-
Play Games

目錄 一、關於Reducer全排序 1.1、 什麼叫全排序 1.2、 分區的標準是什麼 二、全排序的三種方式 2.1、 一個Reducer 2.2、 自定義分區函數 2.3、 採樣 一、關於Reducer全排序 1.1、什麼叫全排序? 在所有的分區(Reducer)中,KEY都是有序的: 正確舉例: ...


目錄      

一、關於Reducer全排序

  1.1、  什麼叫全排序

  1.2、  分區的標準是什麼

二、全排序的三種方式

  2.1、  一個Reducer

  2.2、  自定義分區函數

  2.3、  採樣


 

 

 

  一、關於Reducer全排序  

1.1、什麼叫全排序?

在所有的分區(Reducer)中,KEY都是有序的:

  • 正確舉例:如Reducer分區1中的key是1、3、4,分區2中的key是5、8、9
  • 錯誤舉例:如Reducer分區1中的key是1、3、4,分區2中的key是2、7、9

 

1.2、數據分區的標準是什麼?

預設的分區方式是根據mapper後的key的hash值,除以Reducer的分區數量,取其餘數判定;例:

  • 某key的hash值是999,此時有3個分區(Reducer),則999 % 3 = 0;則該key和其對應value會分在第一個區(同理,當餘數為1,2時會分在對應的另外兩個區)。

註意:若key的類型是Text類(或IntWritable等)的,則計算的是Text類型的key的hash值,而非通過Text獲取到的String(或int等)類型的hash值。

 也可自定義分區的判定方式,見下2.2、自定義分區函數


 

  二、全排序的三種方式  

  • 一個Reduce
  • 自定義分區函數
  • 採樣

 

2.1、一個Reduce

只有一個Reduce分區,自然是全排序效果

 


2.2、自定義分區函數

  1. 創建一個繼承Partitioner的類,如:Partition
  2. 重寫其”getPartition“方法,作為判斷分區的依據
  3. 在main的job中將其加入:job.setPartitionerClass(Partition.class);

以隨機分區為例,偽代碼如下:

 1 public class Partition extends Partitioner <Text,IntWritable>{
 2 
 3     @Override
 4     public int getPartition(Text text, IntWritable intWritable, int numPartitions) {
 5         Random r = new Random();
 6         //根據分區的數量(numPartitions),獲取一個隨機值返回,返回的值作為Key判斷分區的依據
 7         int i = r.nextInt(numPartitions);
 8         return i;
 9     }
10 }
11 
12 public class RandomAPP {
13     public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
14         ......
15 
16         //放判斷放入分區的方式(隨機放入)
17         job.setPartitionerClass(Partition.class);
18         
19         ......
20 
21         //等待執行MapperReducer
22         job.waitForCompletion(true);
23     }
24 }

 

 


 

2.3、採樣:TotalOrderPartition

  • RandomSampler:隨機採樣 ,性能差,適合亂序數據
  • IntervalSampler:間隔採樣 ,性能較好,適合有序數據
  • SplitSampler:切片採樣 ,性能較好,適合有序數據

 

以隨機採樣為例,偽代碼如下:

註:以下需要放在App中設置配置文件的後面

 1         //在App中指定分區函數類
 2         job.setPartitionerClass(TotalOrderPartition.class);
 3 
 4         //設置文件的寫入路徑
 5         TotalOrderPartition.setPartitionFile(job.getConfiguration(),new Path("E:/par.dat"));
 6 
 7         /**
 8          * 初始化採樣器
 9          * RandomSampler    採用隨機採樣的方式
10          * freq             每個Key被選中的概率     freq x key > 分區數
11          * numSamples       需要的樣本數           numSamples  > 分區數
12          * maxSplitsSampled 文件最大切片數         maxSplitsSampled > 當前切片數
13          */
14         InputSampler.RandomSampler = new InputSampler.RandomSampler(freq, numsamples,maxsplitsSampled );
15 
16         //寫入採樣數據
17         InputSampler.writePartitionFile(job,sampler);

 


 

    Over    

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • grep 文本搜索工具,根據用戶指定的“模式”對目標文本逐行進行匹配檢查;列印匹配到的行 grep [OPTIONS] PATTERN [FILE…] –color=auto: 對匹配到的文本著色顯示 -v: 顯示不被pattern匹配到的行 -i: 忽略字元大小寫 -n: 顯示匹配的行號 -c: ...
  • vSphere 基礎物理架構中存儲是一個非常關鍵的部分,沒有好的存儲,虛擬化也就沒有存在的價值,並且它能夠決定其系統性能的高低和如vMotion等高級功能能否實現。所以本次重點介紹vSphere中的存儲和vMtion。 一、實驗拓撲圖: 二、實驗目標: 通過搭建共用存儲,實現虛擬機的遷移與管理。 三 ...
  • 用過gothub或者碼雲的同學都知道,不包含任何文件的空文件夾上傳提交時不被允許的。當然你可以在空文件下創建.keep文件(或.gitkeep文件),然後就可以上傳了。 但是如果空文件夾比較多,並且我們確實不需要這些空文件了,那本文就學習一種命令行刪除所有空文件夾的方法。並封裝成.bat批處理程式。 ...
  • Serial Downloader模式是一種串列下載模式,在這種模式下,BootROM通過指定的USB或者UART口來接收來自Host(恩智浦提供了上位機工具sdphost.exe或者mfgtool)的Flashloader數據,並將數據存儲在SRAM中執行,Flashloader程式可以用來將你的... ...
  • 命令語法如下: sudo apt-get install package=version 例如: sudo apt-get install samba=2:4.4.5+dfsg-2ubuntu6 ...
  • 終端清屏:clear,快捷鍵Ctrl+l ...
  • 問題描述:使用apt-get下載一個文件,由於下載的太慢,使用Ctrl+C強制結束。然後輸入sudo apt-get update,想繼續下載其他文件。結果出現如標題所示的錯誤,截圖如下:按照網上說的,對/var/cache/apt/下的操作,並沒有解決問題。 解決方法:參考地址首先在“系統設置”中 ...
  • nginx負載均衡及配置 1 負載均衡概述 2 負載均衡的常見平衡機制 1 輪詢(round robin) :以輪詢方式將請求分配到不同伺服器上,每個請求按時間順序逐一分配到不同的後端伺服器, 如果後端伺服器掛掉,自動剔除,保證正常的服務。 2 權重負載均衡(weight):如果沒有配置權重,每個服 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...