面試官:MySQL 如何查找刪除重覆行?我竟然寫不出來。。

来源:https://www.cnblogs.com/javastack/archive/2022/05/31/16330074.html
-Advertisement-
Play Games

本文講述如何查找資料庫里重覆的行。這是初學者十分普遍遇到的問題。方法也很簡單。這個問題還可以有其他演變,例如,如何查找“兩欄位重覆的行”(#mysql IRC 頻道問到的問題) 如何查找重覆行 第一步是定義什麼樣的行才是重覆行。多數情況下很簡單:它們某一列具有相同的值。本文采用這一定義,或許你對“重 ...


本文講述如何查找資料庫里重覆的行。這是初學者十分普遍遇到的問題。方法也很簡單。這個問題還可以有其他演變,例如,如何查找“兩欄位重覆的行”(#mysql IRC 頻道問到的問題)

如何查找重覆行

第一步是定義什麼樣的行才是重覆行。多數情況下很簡單:它們某一列具有相同的值。本文采用這一定義,或許你對“重覆”的定義比這複雜,你需要對sql做些修改。本文要用到的數據樣本:

create table test(id int not primary key, day date not null);  insert into test(id, day) values(1, '2006-10-08');  insert into test(id, day) values(2, '2006-10-08');  insert into test(id, day) values(3, '2006-10-09');  select * from test;  +----+------------+  | id | day     |  +----+------------+  |  1 | 2006-10-08 |  |  2 | 2006-10-08 |  |  3 | 2006-10-09 |  +----+------------+

前面兩行在day欄位具有相同的值,因此如何我將他們當做重覆行,這裡有一查詢語句可以查找。查詢語句使用GROUP BY子句把具有相同欄位值的行歸為一組,然後計算組的大小。

select day, count(*) from test GROUP BY day;  +------------+----------+  | day     | count(*) |  +------------+----------+  | 2006-10-08 |     2 | | 2006-10-09 |     1 |  +------------+----------+

重覆行的組大小大於1。如何希望只顯示重覆行,必須使用HAVING子句,比如

select day, count(*) from test group by day HAVING count(*) > 1;  +------------+----------+  | day     | count(*) |  +------------+----------+  | 2006-10-08 |     2 |  +------------+----------+

這是基本的技巧:根據具有相同值的欄位分組,然後知顯示大小大於1的組。

為什麼不能使用WHERE子句?因為WHERE子句過濾的是分組之前的行,HAVING子句過濾的是分組之後的行。

如何刪除重覆行

一個相關的問題是如何刪除重覆行。一個常見的任務是,重覆行只保留一行,其他刪除,然後你可以創建適當的索引,防止以後再有重覆的行寫入資料庫。

同樣,首先是弄清楚重覆行的定義。你要保留的是哪一行呢?第一行,或者某個欄位具有最大值的行?本文中,假設要保留的是第一行——id欄位具有最小值的行,意味著你要刪除其他的行。

也許最簡單的方法是通過臨時表。尤其對於MYSQL,有些限制是不能在一個查詢語句中select的同時update一個表。簡單起見,這裡只用到了臨時表的方法。

我們的任務是:刪除所有重覆行,除了分組中id欄位具有最小值的行。因此,需要找出大小大於1的分組,以及希望保留的行。你可以使用MIN()函數。這裡的語句是創建臨時表,以及查找需要用DELETE刪除的行。

create temporary table to_delete (day date not null, min_id int not null);  insert into to_delete(day, min_id)   select day, MIN(id) from test group by day having count(*) > 1;  select * from to_delete;  +------------+--------+  | day     | min_id |  +------------+--------+  | 2006-10-08 |    1 |  +------------+--------+

有了這些數據,你可以開始刪除“臟數據”行了。可以有幾種方法,各有優劣(詳見我的文章many-to-one problems in SQL),但這裡不做詳細比較,只是說明在支持查詢子句的關係資料庫中,使用的標準方法。

delete from test  where exists(     select * from to_delete     where to_delete.day = test.day and to_delete.min_id <> test.id   )

如何查找多列上的重覆行

有人最近問到這樣的問題:我的一個表上有兩個欄位b和c,分別關聯到其他兩個表的b和c欄位。我想要找出在b欄位或者c欄位上具有重覆值的行。

咋看很難明白,通過對話後我理解了:他想要對b和c分別創建unique索引。如上所述,查找在某一欄位上具有重覆值的行很簡單,只要用group分組,然後計算組的大小。並且查找全部欄位重覆的行也很簡單,只要把所有欄位放到group子句。但如果是判斷b欄位重覆或者c欄位重覆,問題困難得多。這裡提問者用到的樣本數據

create table a_b_c(   a int not null primary key auto_increment,   b int,   c int );  insert into a_b_c(b,c) values (1, 1);  insert into a_b_c(b,c) values (1, 2);  insert into a_b_c(b,c) values (1, 3);  insert into a_b_c(b,c) values (2, 1);  insert into a_b_c(b,c) values (2, 2);  insert into a_b_c(b,c) values (2, 3);  insert into a_b_c(b,c) values (3, 1);  insert into a_b_c(b,c) values (3, 2);  insert into a_b_c(b,c) values (3, 3);

現在,你可以輕易看到表裡面有一些重覆的行,但找不到兩行具有相同的二元組{b, c}。這就是為什麼問題會變得困難了。

錯誤的查詢語句

如果把兩列放在一起分組,你會得到不同的結果,具體看如何分組和計算大小。提問者恰恰是困在了這裡。有時候查詢語句找到一些重覆行卻漏了其他的。這是他用到了查詢

select b, c, count(*) from a_b_c  group by b, c  having count(distinct b > 1)   or count(distinct c > 1);

結果返回所有的行,因為CONT(*)總是1.為什麼?因為 >1 寫在COUNT()裡面。這個錯誤很容易被忽略,事實上等效於

select b, c, count(*) from a_b_c  group by b, c  having count(1)   or count(1);

為什麼?因為(b > 1)是一個布爾值,根本不是你想要的結果。你要的是

select b, c, count(*) from a_b_c  group by b, c  having count(distinct b) > 1  or count(distinct c) > 1;

返回空結果。很顯然,因為沒有重覆的{b,c}。這人試了很多其他的OR和AND的組合,用來分組的是一個欄位,計算大小的是另一個欄位,像這樣

select b, count(*) from a_b_c group by b having count(distinct c) > 1;  +------+----------+  | b   | count(*) |  +------+----------+  |   1 |     3 | |   2 |     3 |  |   3 |     3 | +------+----------+

沒有一個能夠找出全部的重覆行。而且最令人沮喪的是,對於某些情況,這種語句是有效的,如果錯誤地以為就是這麼寫法,然而對於另外的情況,很可能得到錯誤結果。

事實上,單純用GROUP BY 是不可行的。為什麼?因為當你對某一欄位使用group by時,就會把另一欄位的值分散到不同的分組裡。對這些欄位排序可以看到這些效果,正如分組做的那樣。首先,對b欄位排序,看看它是如何分組的

當你對b欄位排序(分組),相同值的c被分到不同的組,因此不能用COUNT(DISTINCT c)來計算大小。COUNT()之類的內部函數只作用於同一個分組,對於不同分組的行就無能為力了。類似,如果排序的是c欄位,相同值的b也會分到不同的組,無論如何是不能達到我們的目的的。

幾種正確的方法

也許最簡單的方法是分別對某個欄位查找重覆行,然後用UNION拼在一起,像這樣:

select b as value, count(*) as cnt, 'b' as what_col  from a_b_c group by b having count(*) > 1 union select c as value, count(*) as cnt, 'c' as what_col  from a_b_c group by c having count(*) > 1;  +-------+-----+----------+  | value | cnt | what_col |  +-------+-----+----------+  |   1 |  3 | b     |  |   2 |  3 | b     |  |   3 |  3 | b     |  |   1 |  3 | c     |  |   2 |  3 | c     |  |   3 |  3 | c     |  +-------+-----+----------+

輸出what_col欄位為了提示重覆的是哪個欄位。另一個辦法是使用嵌套查詢:

select a, b, c from a_b_c  where b in (select b from a_b_c group by b having count(*) > 1)    or c in (select c from a_b_c group by c having count(*) > 1);  +----+------+------+  | a  | b   | c   | +----+------+------+  |  7 |   1 |   1 | |  8 |   1 |   2 | |  9 |   1 |   3 | | 10 |   2 |   1 | | 11 |   2 |   2 | | 12 |   2 |   3 | | 13 |   3 |   1 | | 14 |   3 |   2 | | 15 |   3 |   3 | +----+------+------+

這種方法的效率要比使用UNION低許多,並且顯示每一重覆的行,而不是重覆的欄位值。還有一種方法,將自己跟group的嵌套查詢結果聯表查詢。寫法比較複雜,但對於複雜的數據或者對效率有較高要求的情況,是很有必要的。

select a, a_b_c.b, a_b_c.c  from a_b_c   left outer join (     select b from a_b_c group by b having count(*) > 1  ) as b on a_b_c.b = b.b   left outer join (     select c from a_b_c group by c having count(*) > 1  ) as c on a_b_c.c = c.c  where b.b is not null or c.c is not null

以上方法可行,我敢肯定還有其他的方法。如果UNION能用,我想會是最簡單不過的了。

作者:憤怒的韭菜
來源:https://blog.csdn.net/zhengzhb/article/details/8590390
原文:http://www.xaprb.com/blog/2006/10/09/how-to-find-duplicate-rows-with-sql/

近期熱文推薦:

1.1,000+ 道 Java面試題及答案整理(2022最新版)

2.勁爆!Java 協程要來了。。。

3.Spring Boot 2.x 教程,太全了!

4.別再寫滿屏的爆爆爆炸類了,試試裝飾器模式,這才是優雅的方式!!

5.《Java開發手冊(嵩山版)》最新發佈,速速下載!

覺得不錯,別忘了隨手點贊+轉發哦!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 緊急通知!更新中.... (一)FastJson反序列化漏洞。據國家網路與信息安全信息通報中心監測發現,阿裡巴巴公司開源Java開發組件FastJson存在反序列化漏洞。FastJson被眾多java軟體作為組件集成,廣泛存在於java應用的服務端代碼中。攻擊者可利用上述漏洞實施任意文件寫入、服務端 ...
  • 摘要:NumPy中包含大量的函數,這些函數的設計初衷是能更方便地使用,掌握解這些函數,可以提升自己的工作效率。這些函數包括數組元素的選取和多項式運算等。下麵通過實例進行詳細瞭解。 前述通過對某公司股票的收盤價的分析,瞭解了某些Numpy的一些函數。通常實際中,某公司的股價被另外一家公司的股價緊緊跟隨 ...
  • 背景 框架之前完成了多數據源的動態切換及事務的處理,想更近一步提供一個簡單的跨庫事務處理功能,經過網上的搜索調研,大致有XA事務/SEGA事務/TCC事務等方案,因為業務主要涉及政府及企業且併發量不大,所以採用XA事務,雖然性能有所損失,但是可以保證數據的強一致性 方案設計 針對註冊的數據源拷貝一份 ...
  • 首先請記住一點,在電腦中所有的二進位都是以補碼的形式存儲的,所以你最後取反之後只是這個數的補碼,你還需要轉換成源碼,才是我們最終的十進位數字 下麵是計算過程: 正數取反(123,結果是-124): (1)先將此數變為二進位數,全部位取反(0變1,1變0); (2)由於這個數是補碼,所以要進行再一次 ...
  • Spring Ioc源碼分析系列--Bean實例化過程(二) 前言 上篇文章Spring Ioc源碼分析系列--Bean實例化過程(一)簡單分析了getBean()方法,還記得分析了什麼嗎?不記得了才是正常的,記住了才是怪人,忘記了可以回去翻翻,翻不翻都沒事, 反正最後都會忘了。 這篇文章是給上篇填 ...
  • 等頻離散法 根據數據的頻率分佈進行排序,然後按照頻率進行離散,好處是數據變為均勻分佈,但是會更改原有的數據結構。區間的邊界值要經過選擇,使得每個區間包含大致相等的實例數量。比如說 N=10 , 每個區間應該包含大約 10% 的實例。 Python 實現方式 等頻法是將相同數量的記錄放在每個區間,保證 ...
  • Linux(CentOs)安裝Redis教程 一,下載Redis(兩種方式) 1,找到redis官網(https://redis.io/download) **如果想下載指定版本就去這個網址(https://download.redis.io/releases/)**本次安裝選擇的Redis版本:6 ...
  • 目錄 一.簡介 二.效果演示 三.源碼下載 四.猜你喜歡 零基礎 OpenGL (ES) 學習路線推薦 : OpenGL (ES) 學習目錄 >> OpenGL ES 基礎 零基礎 OpenGL (ES) 學習路線推薦 : OpenGL (ES) 學習目錄 >> OpenGL ES 轉場 零基礎 O ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...