hadoop排序 -- 全排序

来源:https://www.cnblogs.com/yiwanfan/archive/2018/05/28/9098366.html
-Advertisement-
Play Games

目錄 一、關於Reducer全排序 1.1、 什麼叫全排序 1.2、 分區的標準是什麼 二、全排序的三種方式 2.1、 一個Reducer 2.2、 自定義分區函數 2.3、 採樣 一、關於Reducer全排序 1.1、什麼叫全排序? 在所有的分區(Reducer)中,KEY都是有序的: 正確舉例: ...


目錄      

一、關於Reducer全排序

  1.1、  什麼叫全排序

  1.2、  分區的標準是什麼

二、全排序的三種方式

  2.1、  一個Reducer

  2.2、  自定義分區函數

  2.3、  採樣


 

 

 

  一、關於Reducer全排序  

1.1、什麼叫全排序?

在所有的分區(Reducer)中,KEY都是有序的:

  • 正確舉例:如Reducer分區1中的key是1、3、4,分區2中的key是5、8、9
  • 錯誤舉例:如Reducer分區1中的key是1、3、4,分區2中的key是2、7、9

 

1.2、數據分區的標準是什麼?

預設的分區方式是根據mapper後的key的hash值,除以Reducer的分區數量,取其餘數判定;例:

  • 某key的hash值是999,此時有3個分區(Reducer),則999 % 3 = 0;則該key和其對應value會分在第一個區(同理,當餘數為1,2時會分在對應的另外兩個區)。

註意:若key的類型是Text類(或IntWritable等)的,則計算的是Text類型的key的hash值,而非通過Text獲取到的String(或int等)類型的hash值。

 也可自定義分區的判定方式,見下2.2、自定義分區函數


 

  二、全排序的三種方式  

  • 一個Reduce
  • 自定義分區函數
  • 採樣

 

2.1、一個Reduce

只有一個Reduce分區,自然是全排序效果

 


2.2、自定義分區函數

  1. 創建一個繼承Partitioner的類,如:Partition
  2. 重寫其”getPartition“方法,作為判斷分區的依據
  3. 在main的job中將其加入:job.setPartitionerClass(Partition.class);

以隨機分區為例,偽代碼如下:

 1 public class Partition extends Partitioner <Text,IntWritable>{
 2 
 3     @Override
 4     public int getPartition(Text text, IntWritable intWritable, int numPartitions) {
 5         Random r = new Random();
 6         //根據分區的數量(numPartitions),獲取一個隨機值返回,返回的值作為Key判斷分區的依據
 7         int i = r.nextInt(numPartitions);
 8         return i;
 9     }
10 }
11 
12 public class RandomAPP {
13     public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
14         ......
15 
16         //放判斷放入分區的方式(隨機放入)
17         job.setPartitionerClass(Partition.class);
18         
19         ......
20 
21         //等待執行MapperReducer
22         job.waitForCompletion(true);
23     }
24 }

 

 


 

2.3、採樣:TotalOrderPartition

  • RandomSampler:隨機採樣 ,性能差,適合亂序數據
  • IntervalSampler:間隔採樣 ,性能較好,適合有序數據
  • SplitSampler:切片採樣 ,性能較好,適合有序數據

 

以隨機採樣為例,偽代碼如下:

註:以下需要放在App中設置配置文件的後面

 1         //在App中指定分區函數類
 2         job.setPartitionerClass(TotalOrderPartition.class);
 3 
 4         //設置文件的寫入路徑
 5         TotalOrderPartition.setPartitionFile(job.getConfiguration(),new Path("E:/par.dat"));
 6 
 7         /**
 8          * 初始化採樣器
 9          * RandomSampler    採用隨機採樣的方式
10          * freq             每個Key被選中的概率     freq x key > 分區數
11          * numSamples       需要的樣本數           numSamples  > 分區數
12          * maxSplitsSampled 文件最大切片數         maxSplitsSampled > 當前切片數
13          */
14         InputSampler.RandomSampler = new InputSampler.RandomSampler(freq, numsamples,maxsplitsSampled );
15 
16         //寫入採樣數據
17         InputSampler.writePartitionFile(job,sampler);

 


 

    Over    

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 誤刪除了部分重要數據,已提交,需要恢復。首先嘗試flashback query閃回數據。資料庫運行在歸檔模式,首先確認資料庫的SCN的變化:SQL> col fscn for 999999999999999999999SQL> col nscn for 999999999999999999999SQ ...
  • url=jdbc:oracle:thin:@localhost:1521:orcldriver=oracle.jdbc.OracleDriverusrname=GJQ (PLSQL Developer 登錄時候的用戶名 即通過cmd命令創建的用戶)password=gjq (PLSQL Develo ...
  • 一、背景 在數據開發中,有時你需要合併兩個動態游標sys_refcursor。 開發一個存儲過程PROC_A,這個過程業務邏輯相當複雜,代碼篇幅較長。一段時間後要開發一個PROC_B,要用PROC_A同樣的邏輯,而且在這個過程中,還要迴圈調用PROC_A這個過程。擺在你面前的有兩個選擇。 打開PL/ ...
  • https://www.cnblogs.com/tuyile006/p/6382062.html https://www.cnblogs.com/chinesern/p/5581422.html ...
  • 為什麼函數影響性能 在SQL語句中,如果不合理的使用函數(Function)就會嚴重影響性能,其實這裡想說的是PL/SQL中的自定義函數,反而對於一些內置函數而言,影響性能的可能性較小。那麼為什麼SQL語句當中,不合理的使用函數會影響性能呢? 在SELECT語句中調用函數時,那麼查詢返回的結果集中的... ...
  • 一. 概述 我們知道在操作系統看來, sql server產品與其它應用程式一樣,沒有特別對待。但記憶體,硬碟,cpu又是資料庫系統最重要的核心資源,所以在sql server 2005及以後出現了SQLOS,這個組件是sqlserver和windows的中間層,用於CPU的任務調度,解決I/O的資源 ...
  • 環境:windwos 10(1511) 64bit、mysql 5.7.14 一、下載mysql 1. 在瀏覽器里打開mysql的官網http://www.mysql.com/ 2. 進入頁面頂部的"Downloads" 3. 打開頁面底部的“Community(GPL) Downloads” 4. ...
  • 這是mysql登錄時找不到套接字的問題。 首先需要明白的是,Linux端的mysql server啟動時會開啟一個socket,Linux上的MySQL的客戶端在不使用IP連接時mysql server時,預設也會通過套接字來鏈接mysql server。 1.mysql server的套接字文件。 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...