Hive的4種排序

-Advertisement-

1、全局排序（Order by）功能：全局排序，只有1個reducer（用1個Reduce Task完成全局排序，與設置的Reduce Task個數無關）參數：ASC：升序（預設） DESC：降序使用：order by放在select語句的結尾例如： --查詢員工信息按工資降序排列 sele ...

1、全局排序（Order by）

功能：全局排序，只有1個reducer（用1個Reduce Task完成全局排序，與設置的Reduce Task個數無關）

參數：ASC：升序（預設）　　DESC：降序

使用：order by放在select語句的結尾

例如：

　　--查詢員工信息按工資降序排列

　　select * from emp order by sal DESC；

2、每個MapReduce內部排序（Sort by）

功能：很多情況下不需要全局排序，此時可以使用sort by。sort by為每個reducer產生一個排序文件，每個reducer內部進行排序，不對全局結果集進行排序

參數：設置reduce個數：set mapreduce.job.reduces=3;

例如：　　

　　--根據部門編號降序查看員工信息

　　select * from emp sort by deptno desc;

3、分區排序（Distribute by）

功能：類似mr中的自定義分區

使用：結合sort by使用，寫在sort by語句之前

分區規則：根據分區欄位的Hash碼與reduce的個數進行模除後，餘數相同的分到一個區

例如：

　　--先按照部門編號分區，再按照員工編號降序排序。

　　select * from emp distribute by deptno sort by empno desc;

4、Cluster by

功能：當distribute by和sorts by欄位相同時，可以使用cluster by方式

使用：cluster by除了具有distribute by的功能外還兼具sort by的功能。但是排序只能是升序排序，不能指定排序規則為ASC或者DESC

例如：

　　--以下兩種寫法等價

　　select * from emp cluster by deptno;

　　select * from emp distribute by deptno sort by deptno;

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

記錄用C#寫折半查找演算法實現

折半查找演算法前言最近要考試了，重新回顧一下之前學的演算法，今天是折半查找，它的平均比較次數是Log2 n 思想給定一個有序數組A[0..n-1],和查找值K，返回K在A中的下標。折半查找需要指定3個指針，left、right、mid，分別是左指針指向下標0，右指針指向元素末尾，mid中間值指向 ...
【Avalonia】【跨平臺】關於Prism項目模塊化在Linux下路徑問題

背景當我們在用Avalonia開發項目的時候會涉及到路徑的問題，在Linux下麵路徑的寫法和Window路徑的寫法有區別問題描述用Avalonia開發項目發現我們之前的路徑寫法在Linux下麵運行報錯，尤其是在結合Prism開發寫項目進行模塊化掃描的方式載入我們的模塊程式就會出現報錯解決方案 ...
C#/VB.NET 如何在 Word 文檔中添加頁眉和頁腳

頁眉位於文檔中每個頁面的頂部區域，常用於顯示文檔的附加信息，可以插入時間、圖形、公司微標、文檔標題、文件名或作者姓名等；頁腳位於文檔中每個頁面的底部的區域，常用於顯示文檔的附加信息，可以在頁腳中插入文本或圖形。今天這篇文章就將為大家展示如何以編程的方式在在 Word 文檔中添加頁眉和頁腳。下麵是我整 ...
CentOS7部署NFS

實現背景最近需要把大數據測試環境的虛擬機遷移到另一臺物理機上，其中資料庫文件過大，一般的上傳文件有大小限制不能超過4GB，可以通過NFS共用目錄解決文件上傳問題。 NFS介紹 NFS介紹NFS 即網路文件系統（Network File-System），可以通過網路讓不同機器、不同系統之間可以實現文 ...
# Shell 是什麼？

原文：What is a Shell? 註意：本文是對原文的一個翻譯！ Shell是一個巨集處理器，用於執行命令。巨集處理器意味著，將文本和符號展開，創建一個更大的表達式。 Unix shell 既是一個命令解釋器，也是一門編程語言。作為一個命令解釋器，它提供了豐富的GUN工具集可以與用戶進行交互。作為 ...
輕鬆玩轉Makefile | 企業項目級Makefile實例

前言本文展示了一個比較完整的企業項目級別的Makefile文件，包括了：文件調用，源文件、頭文件、庫文件指定，軟體版本號、巨集定義，編譯時間，自動目錄等內容。 1、目錄架構本文中所採用的目錄架構，在企業項目開發中十分常見：源文件都放在src目錄中，頭文件都放在inc目錄中，並且這兩個目錄都可以有對 ...
普冉PY32系列(六) 通過I2C介面驅動PCF8574擴展的1602LCD

1602LCD 是工業上常用的模塊, 在工廠交通運輸設備上經常能見到. 驅動晶元為 HD44780, 1602LCD 的字元顯示為兩行, 每行16個字元, 字元基於5×8的像素矩陣 ...
Hive中行列轉換具體實現及應用

1、工作應用場景統計得到每個小時的UV、PV、IP的個數，構建如下表結構：但是表中數據的存儲格式不利於直接查詢展示，需要進行調整：（以時間分區，去重、聚合等……對結果進行行列轉換） 2、行轉列（1）多行轉多列 case when函數功能：用於實現對數據的判斷，根據條件，不同的情況返回不同的結 ...