Hive中的去重 :distinct,group by與ROW_Number()視窗函數

来源:https://www.cnblogs.com/sonia0087/archive/2018/11/21/9996366.html
-Advertisement-
Play Games

一、distinct,group by與ROW_Number()視窗函數使用方法 1. Distinct用法:對select 後面所有欄位去重,並不能只對一列去重。 (1)當distinct應用到多個欄位的時候,distinct必須放在開頭,其應用的範圍是其後面的所有欄位,而不只是緊挨著它的一個欄位 ...


一、distinct,group by與ROW_Number()視窗函數使用方法

1. Distinct用法:對select 後面所有欄位去重,並不能只對一列去重。

(1)當distinct應用到多個欄位的時候,distinct必須放在開頭,其應用的範圍是其後面的所有欄位,而不只是緊挨著它的一個欄位,而且distinct只能放到所有欄位的前面

(2)distinct對NULL是不進行過濾的,即返回的結果中是包含NULL值的

(3)聚合函數中的DISTINCT,如 COUNT( ) 會過濾掉為NULL 的項

2.group by用法:對group by 後面所有欄位去重,並不能只對一列去重。

3. ROW_Number() over()視窗函數

註意:ROW_Number() over (partition by id order by time DESC) 給每個id加一列按時間倒敘的rank值,取rank=1

select m.id,m.gender,m.age,m.rank

from (select id,gender,age,ROW_Number() over(partition by id order by id) rank

      from temp.control_201804to201806

      where id!='NA' and gender!='' or age!=''

           ) m

where m.rank=1

二、案例:

1.表中有兩列:id ,superid,按照superid倒序排序選出前100條不同的id,如下:

 

1.方案一:

子查詢中對id,superid同時去重,可能存在一個id對應的superid不同,id這一列有重覆的id,但 是結果只需要一列不同的id,如果時不限制數量,則可以選擇這種方法

%jdbc(hive) create table temp.match_relation_3M_active_v5 as select a.id from (select distinct id,superid       from temp.match_relation_3M_activ       order by superid desc       limit 100      ) a group by a.id 註意,對id去重時可以用gruop by 或者distinct id,兩者去重後的id排序時一致的,但是加了distinct(group by)後,distinct欄位自帶排序功能,會先按照distinct後面的欄位進行排序,即已經改變了子查詢的中order by的排序,但是結果與正確結果中的id是一樣的,只是排序不同罷了。  

 

 

 方案二:

因為要求按照superid倒序排序選出,而一個id對應的superid不同,必有大有小,選出最大的那一個,即可。 同理若是按照superid正序排列,可以選出最小的一列

        %jdbc(hive) create table temp.match_relation_3M_active_v7 as select a.id from (select id,max(superid) as superid          from temp.match_relation_3M_active          group by id          order by superid desc          limit 100       ) a

 

 

方案三:

首先利用視窗函數ROW_Number() over()視窗函數對id這一列去重,不能用distinct或者group by對id,superid同時去重

%jdbc(hive) create table temp.match_relation_3M_active_v11 as select n.id from (select m.id,superid           from (select id,superid,ROW_Number() over(partition by id order by id) rank                     from temp.match_relation_3M_active                    ) m             where m.rank=1           order by  superid desc           limit 100         )n 註意,以下代碼中,視窗函數ROW_Number() over()的執行順序晚於 order by  superid desc,最終的結果並非 superid的倒敘排列的結果 %jdbc(hive) create table temp.match_relation_3M_active_v9 as select m.id from (select id, superid,ROW_Number() over(partition by id order by id) rank          from temp.match_relation_3M          order by  superid desc         ) m where m.rank=1 group by m.id limit 100  

 

   
您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 使用控制台執行MySQL命令時,出現1366錯誤的原因與解決方案出現上述問題的原因是:你在安裝MySQL資料庫的時候,選擇的編碼格式為utf8,而控制台終端的編碼格式是GBK格式的,所以在執行輸入漢字的時候會出現【ERROR 1366】的錯誤。解決方式:第一種解決方式:在控制台終端輸入可以採用相對應 ...
  • 首先我們應該做的 是在控制面板將MySQL 卸載。再進行以下的操作: 1.在開始菜單下,點擊運行,輸入regedit,進入註冊表編輯器目錄下 2.在註冊表編輯器里system下找到controlset001,controlset002,currentcontrolset下麵的services文件下, ...
  • 1.需求 後臺管理頁面,查詢頻道列表,需要批量修改頻道的狀態,批量上線和下線 2.MyBatis配置 這是mysql的配置,註意需要加上&allowMultiQueries=true配置 jdbc_url=jdbc:mysql://localhost:3306/go?useUnicode=true& ...
  • redis事務與監控 Author:SimpleWu 在redis中它的事務與批處理非常相似 Redis中的事務(transaction)是一組命令的集合。事務同命令一樣都是Redis的最小執行單位,一個事務中的命令要麼都執行,要麼都不執行。事務的應用非常普遍,如銀行轉賬過程中A給B匯款,首先系統從 ...
  • CREATE MATERIALIZED VIEW 霧化視圖名稱 REFRESH FAST START WITH SYSDATE NEST SYSDATE+1/48 AS SELECT * FROM 數據源名稱@dblink名稱 首先目的資料庫中需要創建鏈接源資料庫的dblink dblink的作用是 ...
  • 本文主要講elasticsearch-2.2.1的安裝過程。 準備工作: ...
  • 一. 概述 對於前面的五章中,已清楚了數據對象的類型以及命令實現,其實還有一種數據對象為HyperLogLog,以後需要用到再瞭解。下麵再瞭解類型檢查,記憶體回收,對象共用,對象的空轉時長。 1.1 類型檢查與命令多態 redis中用於操作鍵的命令基本上可以分為兩種類型,一種是可以對任何的鍵執行,如: ...
  • 應公司業務要求,需要對數據進行分組彙總做輔助列進行查詢 所以使用到了sum(col1) over(partition by col2 order by col3)函數,為了學習與提高在此進行記錄。 1、準備數據源 2、插入數據 3、進行查詢 查詢結果如下圖: 這裡對DEP_NO進行分組,根據NAME ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...