sql針對某一欄位去重,並且保留其他欄位

来源:https://www.cnblogs.com/baiyb/archive/2018/01/16/8291493.html
-Advertisement-
Play Games

今天客戶提了一個小需求,希望我能提供一條sql語句,幫助他對數據中 _field 這個欄位的值去重,並且保留其他欄位的數據。第一反應是select distinct,但這種語句在對某個欄位去重時,無法保留其他欄位,所以select distinct不成立。因為用戶對去重沒有要求,欄位值重覆時保留任意 ...


今天客戶提了一個小需求,希望我能提供一條sql語句,幫助他對數據中 _field 這個欄位的值去重,並且保留其他欄位的數據。第一反應是select distinct,但這種語句在對某個欄位去重時,無法保留其他欄位,所以select distinct不成立。因為用戶對去重沒有要求,欄位值重覆時保留任意一行就行,所以我想到當欄位值重覆時,選出對應主鍵最大的那條數據作為保留數據,這樣可以實現用戶的去重需求。但是用戶的表中又沒有主鍵,沒辦法,我們只好先使用視窗函數創建主鍵了。

 

因為平時喜歡用hive on spark寫sql,所以sql語句使用中間表的形式來寫,_field為去重欄位,other_fields為原表table中_field外的其他欄位

1.創建主鍵(存在主鍵則無需創建,視窗函數需要遍歷所有行數據,數據量大時會很慢)

TEMP table1 = select row_number() over (order by _field)  as id,  _field, other_fields from table

2.選出每個_field對應的最大主鍵

TEMP table2 = select max(id) as max_id from table1 group by _field

3.找出選中的主鍵對應的原表數據

TEMP table3 = select _field, other_fields from table2 left join table on table2.max_id = table1.id

OUTPUT  table3

 

中間表寫法看起來可能有些亂,對於mysql這種支持嵌套查詢的資料庫來說,寫起來更好理解

id為主鍵,_field為去重欄位,other_fields為原表table中_field外的其他欄位

select * from table where id in (select max(id) from table group by _field);

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • ``虛擬機安裝Linux環境常需添加空間,預設分區模式根分區較小(20G),home目錄沒有單獨掛載。採用VMware自動安裝方式時,使用一段時間需要對目標虛擬機硬碟空間進行擴展,使用Expand可以擴展磁碟大小,但分區大小並未改變(某些發行版重啟即完成擴容,但至少CentOS中沒發現有,可能和分區 ...
  • 題記 對於top命令來說,基本是都是linux命令入門中,第一個使用的命令,在windows中電腦如果卡頓,回去任務欄中查看cpu和記憶體的使用情況。top命令實現的就是這個重要的功能。 在系統維護的過程中,隨時可能有需要查看 CPU 使用率,並根據相應信息分析系統狀況的需要。在 CentOS 中,可 ...
  • 1.兩個字典:a={'a':1,'b':2,'c':3} b= {'aa':11,'bb':22,'cc':33} 合併1:dict(a, b) 操作如下: a={'a':1,'b':2,'c':3} b= {'aa':11,'bb':22,'cc':33} dict(a, b) {'a': 1, ...
  • 埠名稱 埠號/協議 別名 ftp 21/tcp Telnet 23/tcp smtp 25/tcp mail nicename 43/tcp whois domain 53/tcp nameserver domain 53/udp nameserver finger 79/tcp http 80 ...
  • awk是一個強大的文本分析工具,相對於grep的查找,sed的編輯,awk在其對數據分析並生成報告時,顯得尤為強大。簡單來說awk就是把文件逐行的讀入,以空格為預設分隔符將每行切片,切開的部分再進行各種分析處理。 awk有3個不同版本: awk、nawk和gawk,未作特別說明,一般指gawk,ga ...
  • 1、思科設備和微軟系統整合的背景: 公司內部有一定數量的客戶端,為了實現統一化,在管理內部部署了域架構,這樣可以通過組策略對客戶端進行批量化管理,提高了管理的效率。 同樣公司內部有一定數量的網路設備(交換機,路由器,防火牆等),在遠程管理的時候是通過Telnet方式。 在本案例中,希望用戶遠程管理網 ...
  • [譯註]翻譯這篇文章,主要是覺得老外在思考問題時,勇於打破固有的技術棧積累,嘗試不同的選擇,從而找到最合適自己的技術方案、得到真正的實惠。 Synergy SKY提供多種軟體解決方案,本文想討論的是關於一套用於視頻相關的呼叫記錄(CDR)分析解決方案。 為客戶提供方案時有兩種選擇,一是讓客戶避免所有 ...
  • 處理MySQL的ibdata1文件過大問題 本人遇到一次在安裝zabbix監控的時候,yum安裝的MySQL資料庫,後面用了一段時間發現data目錄下的ibdata1的空間特別大,反而我的zabbix資料庫的空間很小,這樣的情況在後面備份zabbix資料庫的時候會很不方便,所以想著要怎麼解決下。 i ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...