sql針對某一欄位去重，並且保留其他欄位

-Advertisement-

今天客戶提了一個小需求，希望我能提供一條sql語句，幫助他對數據中 _field 這個欄位的值去重，並且保留其他欄位的數據。第一反應是select distinct，但這種語句在對某個欄位去重時，無法保留其他欄位，所以select distinct不成立。因為用戶對去重沒有要求，欄位值重覆時保留任意 ...

今天客戶提了一個小需求，希望我能提供一條sql語句，幫助他對數據中 _field 這個欄位的值去重，並且保留其他欄位的數據。第一反應是select distinct，但這種語句在對某個欄位去重時，無法保留其他欄位，所以select distinct不成立。因為用戶對去重沒有要求，欄位值重覆時保留任意一行就行，所以我想到當欄位值重覆時，選出對應主鍵最大的那條數據作為保留數據，這樣可以實現用戶的去重需求。但是用戶的表中又沒有主鍵，沒辦法，我們只好先使用視窗函數創建主鍵了。

因為平時喜歡用hive on spark寫sql，所以sql語句使用中間表的形式來寫，_field為去重欄位，other_fields為原表table中_field外的其他欄位

1.創建主鍵（存在主鍵則無需創建，視窗函數需要遍歷所有行數據，數據量大時會很慢）

TEMP table1 = select row_number() over (order by _field) as id, _field, other_fields from table

2.選出每個_field對應的最大主鍵

TEMP table2 = select max(id) as max_id from table1 group by _field

3.找出選中的主鍵對應的原表數據

TEMP table3 = select _field, other_fields from table2 left join table on table2.max_id = table1.id

OUTPUT table3

中間表寫法看起來可能有些亂，對於mysql這種支持嵌套查詢的資料庫來說，寫起來更好理解

id為主鍵，_field為去重欄位，other_fields為原表table中_field外的其他欄位

select * from table where id in (select max(id) from table group by _field);

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

LVM - Logical Volume Manager

``虛擬機安裝Linux環境常需添加空間，預設分區模式根分區較小（20G），home目錄沒有單獨掛載。採用VMware自動安裝方式時，使用一段時間需要對目標虛擬機硬碟空間進行擴展，使用Expand可以擴展磁碟大小，但分區大小並未改變（某些發行版重啟即完成擴容，但至少CentOS中沒發現有，可能和分區 ...
linux查看埠號占用命令-top

題記對於top命令來說，基本是都是linux命令入門中，第一個使用的命令，在windows中電腦如果卡頓，回去任務欄中查看cpu和記憶體的使用情況。top命令實現的就是這個重要的功能。在系統維護的過程中，隨時可能有需要查看 CPU 使用率，並根據相應信息分析系統狀況的需要。在 CentOS 中，可 ...
python兩個字典合併，兩個list合併

1.兩個字典：a={'a':1,'b':2,'c':3} b= {'aa':11,'bb':22,'cc':33} 合併1：dict(a, b) 操作如下： a={'a':1,'b':2,'c':3} b= {'aa':11,'bb':22,'cc':33} dict(a, b) {'a': 1, ...
常用服務的名稱和埠號

埠名稱埠號/協議別名 ftp 21/tcp Telnet 23/tcp smtp 25/tcp mail nicename 43/tcp whois domain 53/tcp nameserver domain 53/udp nameserver finger 79/tcp http 80 ...
awk使用和詳解

awk是一個強大的文本分析工具，相對於grep的查找，sed的編輯，awk在其對數據分析並生成報告時，顯得尤為強大。簡單來說awk就是把文件逐行的讀入，以空格為預設分隔符將每行切片，切開的部分再進行各種分析處理。 awk有3個不同版本: awk、nawk和gawk，未作特別說明，一般指gawk，ga ...
使用域賬號統一管理cisco網路設備

1、思科設備和微軟系統整合的背景：公司內部有一定數量的客戶端，為了實現統一化，在管理內部部署了域架構，這樣可以通過組策略對客戶端進行批量化管理，提高了管理的效率。同樣公司內部有一定數量的網路設備（交換機，路由器，防火牆等），在遠程管理的時候是通過Telnet方式。在本案例中，希望用戶遠程管理網 ...
[譯]我們為何基於FreeBSD打造解決方案？

[譯註]翻譯這篇文章，主要是覺得老外在思考問題時，勇於打破固有的技術棧積累，嘗試不同的選擇，從而找到最合適自己的技術方案、得到真正的實惠。 Synergy SKY提供多種軟體解決方案，本文想討論的是關於一套用於視頻相關的呼叫記錄(CDR)分析解決方案。為客戶提供方案時有兩種選擇，一是讓客戶避免所有 ...
MySQL的ibdata1文件占用過大

處理MySQL的ibdata1文件過大問題本人遇到一次在安裝zabbix監控的時候，yum安裝的MySQL資料庫，後面用了一段時間發現data目錄下的ibdata1的空間特別大，反而我的zabbix資料庫的空間很小，這樣的情況在後面備份zabbix資料庫的時候會很不方便，所以想著要怎麼解決下。 i ...