Hive SQL count（distinct）效率問題及優化

-Advertisement-

上周拿到了我的第一個工作任務，統計一個按天分區每天都有百億條數據條的hive表中account欄位的非重用戶數（大概兩千萬）。後來又更改為按id欄位分別統計每個id的用戶數。按照我資料庫老師的教導，我很輕易的跳出來了count（distinct account）這個句子。然後寫上了一行查詢，等待了 ...

上周拿到了我的第一個工作任務，統計一個按天分區每天都有百億條數據條的hive表中account欄位的非重用戶數（大概兩千萬）。後來又更改為按id欄位分別統計每個id的用戶數。

按照我資料庫老師的教導，我很輕易的跳出來了count（distinct account）這個句子。然後寫上了一行查詢，等待了四個小時，然後map反著跑

就知道沒這麼容易的任務。。

然後想起來Hive SQL 基於的mapreduce是並行計算，百億的數據可不是平時測試時的mysql里的幾百條數據。

這麼想來應該是map和reduce的記憶體不夠，

set mapreduce.map.memory.mb=48192;
set mapreduce.reduce.memory.mb=48192;

執行語句

select count（distinct account） from...where...

繼續mapreduce，三個小時後報錯error in shuffle in fetcher#3. shuffle過程又出問題了。

找呀找，reducer只有1？那還怎麼並行？果斷

set mapred.reduce.tasks=1000；

又進行查詢，發現reducer 還是1。只能求助於萬能的Internet了。

原來因為加入distinct，map階段不能用combine消重，數據輸出為（key，value）形式然後在reduce階段進行消重。

重點是，Hive在處理COUNT這種“全聚合(full aggregates)”計算時，它會忽略用戶指定的Reduce Task數，而強制使用1。

示意圖如下

解決辦法：轉換為子查詢，轉化為兩個mapreduce任務先select distinct的欄位，然後在count（），這樣去重就會分發到不同的reduce塊，count依舊是一個reduce但是只需要計數即可。

select count（*） from （select distinct account form tablename where...）t;

這樣大概半小時可以得到結果。

後來需求改變為對這個表按account的類型（欄位名為id）統計每個類型的account非重覆數。

如果按照上述方法，在查詢條件添加 where id=..，這樣每個查詢都需要半小時，效率很低。

優化方法：利用gourp by 按id，account分組，存入一個臨時表只需要對臨時表進行統計即可

insert overwrite table temp select id，account，count(1) as num from tablename group by id，account；

這樣temp表裡的數據直接就是非重數據，並且按id升序排序，按id篩選 count(*)即可。 sum(num)也可統計總數。

參考：http://blog.csdn.net/xiewenbo/article/details/29559075

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

iOS網易雲音樂首頁源碼、動畫引擎源碼等

iOS精選源碼自己維護的框架, 超級多功能圖片選擇SDK：支持多選，相冊選擇，預覽，網路圖預覽一款可以簡單實現長按拖拽重排的 UICellCollectionView Cell框... 動畫引擎 FXAnimationEngine MJCIOS/MJCSegmentInterface(分段界面 ...
【代碼筆記】iOS-長條藍色button

一，效果圖。二，代碼。 ViewController.m ...
MySql 查看表大小

當遇到資料庫占用空間很大的情況下，可以用以下語句查找大數據量的表運行結果 ...
索引分析

索引分析單表創建表並插入數據查詢語句(查詢category_id為1 且comments大於1的情況下view最多的author_id) sql分析結果：type為All（變數全表)即最壞的情況，Extra里還出現了using filesor(文件排序)即使用一個外部的索引排序情況也是最壞所 ...
常用SQL筆記總結

DDL(data definition language)創建和管理表 1.創建表 1.直接創建 2.通過子查詢的方式創建 2.修改表 1.增加新的列 2.修改現有的列 3.重命名現有的列 4.刪除現有的列 3.清空表中的數據 4.重命名錶 5.刪除表 DML(data manipulation l ...
Sql Server中的事務與事務隔離級別

事務是資料庫進行併發控制非常重要的機制，通過本文來系統的瞭解一下事務到底是怎麼回事。 1、什麼是事務？事務是作為單個邏輯工作單元執行的一系列操作，它由一條或者一組語句組成，它們麽全部成功，要麼全部失敗。舉個例子，比如在12306訂火車票，要麼你訂票成功，餘票顯示就減少一張；要麼你訂票失敗，餘票顯 ...
redis資料庫操作的C++簡單封裝

用c++簡單封裝了redis的基本操作（hiredis）介面包括：①鏈接和斷開連接、②設置鍵值對(set)、③查詢鍵值對(get)、④刪除鍵值對(del)、⑤將所有鍵顯示出來若任何一處發生錯誤，返回對應的錯誤狀態碼，同時可以調用getErrorMsg()查看錯誤信息所有碼包括： M_REDIS ...
MySQL主從資料庫同步延遲問題解決

最近在做MySQL主從資料庫同步測試，發現了一些問題，其中主從同步延遲問題是其中之一，下麵內容是從網上找到的一些講解，記錄下來以便自己學習； MySQL的主從同步是一個很成熟的架構，優點為：①在從伺服器可以執行查詢工作(即我們常說的讀功能)，降低主伺服器壓力;②在從主伺服器進行備份，避免備份期間影響 ...