這樣delete居然不走索引

来源:https://www.cnblogs.com/jtea/archive/2023/12/26/17927541.html
-Advertisement-
Play Games

背景 由於業務變遷,合規要求,我們需要刪除大量非本公司的數據,涉及到上百張表,幾個T的數據清洗。我們的做法是先從基礎數據出發,將要刪除的數據id收集到一張表,然後再由上往下刪除子表,多線程併發處理。 我們使用的是阿裡的polardb,完全相容mysql協議,5.7版本,RC隔離級別。刪除過程一直很順 ...


背景

由於業務變遷,合規要求,我們需要刪除大量非本公司的數據,涉及到上百張表,幾個T的數據清洗。我們的做法是先從基礎數據出發,將要刪除的數據id收集到一張表,然後再由上往下刪除子表,多線程併發處理。
我們使用的是阿裡的polardb,完全相容mysql協議,5.7版本,RC隔離級別。刪除過程一直很順利,突然有一天報了大量:“Lock wait timeout exceeded; try restarting transaction”。從日誌上看是獲取鎖失敗了,馬上想到出現死鎖了,但我們使用RC,這個隔離級別下會出現不可重覆讀和幻讀,但沒有間隙鎖等,併發效率比較高,在我們實際應用過程中,也很少遇到加鎖失敗的問題。

單從日誌看我們確實先入為主了,以為是死鎖問題,但sql比較簡單,表數據量在千萬級別,其中task_id和uid均有索引,如下:

delete from t_table_1 where task_id in (select id from t_table_2 where uid = #{uid})

拿到報錯的參數,查詢要刪除的數據也不多,聯繫dba同學確認沒有死鎖日誌,但出現大量慢sql,那為什麼這條sql會是慢sql呢?

問題復現

表結構簡化如下:

CREATE TABLE `t_table_1` (
  `id` bigint(20) NOT NULL AUTO_INCREMENT,
  `task_id` bigint(20) NOT NULL,
  PRIMARY KEY (`id`),
  KEY `idx_task_id` (`task_id`)
) ENGINE=InnoDB;

CREATE TABLE `t_table_2` (
  `id` bigint(20) NOT NULL AUTO_INCREMENT,
  `uid` bigint(20) NOT NULL,
  PRIMARY KEY (`id`),
  KEY `idx_uid` (`uid`)
) ENGINE=InnoDB;

開始我們拿sql到資料庫查詢平臺查庫執行計劃,無奈這個平臺有bug,delete語句無法查看,所以我們改成select,“應該”是一樣。這個“應該”加了雙引號,導致我們走了一點彎路。

EXPLAIN SELECT * from t_table_1 where task_id in (select id from t_table_2 where uid = 1)

explain後可以看到是走了索引的

到這裡可以總結:
1.沒有死鎖,這點比較肯定,因為沒有日誌,也符合我們的理解。
2.有慢sql,這點比較奇怪,通過explain select語句是走索引的,但資料庫慢日誌記錄到,全表掃描,不會錯。

那是select和delete的執行計劃不同嗎?正常來說應該是一樣的,delete無非就是先查,加鎖,再刪。
拿到本地環境執行再次查看執行計劃,發現確實不同,select的是一樣的,但delete的變成全表掃描了。

首先這就符合問題現象了,雖然沒有死鎖,但每個delete語句都全表掃描,相當於全表加鎖,後面的請求就只能等待釋放鎖,等到超時就出現“Lock wait timeout exceeded”。
那為什麼delete會不走索引呢,接下來我們分析一下。

分析

select * from t_table_1 where task_id in (select id from t_table_2 where uid = #{uid})

回到這條簡單sql,包含子查詢,按照我們的理解,mysql應該是先執行子查詢:select id from t_table_2 where uid = #{uid},然後再執行外部查詢:select * from t_table_1 where task_id in(),但這不一定,例如我關了這個參數:

set optimizer_switch='semijoin=off';

這裡我們先不用管這個參數的作用,下麵會說到。
關閉後上面的sql就變成先掃描外部的t_table_1,然後再逐行去匹配子查詢了,假設t_table_1的數據量非常大,那全表掃描時間就會很長,我們可以通過optimizer_trace證明一下。
optimizer_trace是mysql一個跟蹤功能,可以跟蹤優化器做的各種決策,包括sql改寫,成本計算,索引選擇詳細過程,並將跟蹤結果記錄到INFORMATION_SCHEMA.OPTIMIZER_TRACE表中。

set session optimizer_trace="enabled=on";
set OPTIMIZER_TRACE_MAX_MEM_SIZE=10000000; -- 防止內容過多被截斷   
SELECT * from t_table_1 where task_id in (select id from t_table_2 where uid = 1)
SELECT * FROM INFORMATION_SCHEMA.OPTIMIZER_TRACE;

輸出結果比較長,這裡我只挑選主要信息

"steps": [
    {
        "expanded_query": "/* select#2 */ select `t_table_2`.`id` from `t_table_2` where (`t_table_2`.`uid` = 1)"
    },
    {
        "transformation": {
            "select#": 2,
            "from": "IN (SELECT)",
            "to": "semijoin",
            "chosen": false
        }
    },
    {
        "transformation": {
            "select#": 2,
            "from": "IN (SELECT)",
            "to": "EXISTS (CORRELATED SELECT)",
            "chosen": true,
            "evaluating_constant_where_conditions": [
            ]
        }
    }
]

"expanded_query": "/* select#1 */ select `t_table_1`.`id` AS `id`,`t_table_1`.`task_id` AS `task_id` from `t_table_1` where <in_optimizer>(`t_table_1`.`task_id`,<exists>(/* select#2 */ select `t_table_2`.`id` from `t_table_2` where ((`t_table_2`.`uid` = 1) and (<cache>(`t_table_1`.`task_id`) = `t_table_2`.`id`)))) limit 0,1000"

sql簡寫一下就是

select * from t_table_1 t1 where exists (select t2.id from t_table_2 t2 where t2.uid = 1 and t1.task_id = t2.id)

可以看到in可以改成semijoin或exists,最終優化器選擇了exists,因為我們關閉了semijoin開關。
按照這條sql邏輯查詢,將會遍歷t_table_1表的每一行,然後代入子查詢看是否匹配,當t_table_1表的行數很多時,耗時將會很長。
通過explain觀察執行計劃可以看到t_table_1進行了全表掃描。
備註:想查看優化器改下後生成的sql,也可以通過show extended + show warnings:

explain extended SELECT * from t_table_1 where task_id in (select id from t_table_2 where uid = 1);
show warnings;

接著我們打開上面的參數開關,再次optimizer_trace跟蹤一下

set optimizer_switch='semijoin=on';

得到如下:

"steps": [
    {
        "expanded_query": "/* select#2 */ select `t_table_2`.`id` from `t_table_2` where (`t_table_2`.`uid` = 1)"
    },
    {
        "transformation": {
            "select#": 2,
            "from": "IN (SELECT)",
            "to": "semijoin",
            "chosen": true
        }
    }
]

"expanded_query": "/* select#1 */ select `t_table_1`.`id` AS `id`,`t_table_1`.`task_id` AS `task_id` from `t_table_1` semi join (`t_table_2`) where (1 and (`t_table_2`.`uid` = 1) and (`t_table_1`.`task_id` = `t_table_2`.`id`)) limit 0,1000"

sql簡寫一下就是

select * from t_table_1 semi join t_table_2 where (`t_table_2`.`uid` = 1 and `t_table_1`.`task_id` = `t_table_2`.`id`)"

可以看到優化器這次選擇將in轉換成semijoin了,觀察執行計劃可以看到走了索引。

那如果換成delete呢?同樣保持開關打開,跟蹤如下:

"steps": [
    {
        "expanded_query": "/* select#2 */ select `t_table_2`.`id` from `t_table_2` where (`t_table_2`.`uid` = 1)"
    },
    {
        "transformation": {
            "select#": 2,
            "from": "IN (SELECT)",
            "to": "semijoin",
            "chosen": false
        }
    },
    {
        "transformation": {
            "select#": 2,
            "from": "IN (SELECT)",
            "to": "EXISTS (CORRELATED SELECT)",
            "chosen": true,
            "evaluating_constant_where_conditions": [
            ]
        }
    }
]

可以看到和關閉semijoin一樣,對於delete優化器也是選擇了exists,我們表是千萬級別,全表掃描加鎖,其它操作語句自然都會超時獲取不到鎖而失敗。

semijoin

semijoin翻譯過來是半連接,是mysql針對in/exists子查詢進行優化的一種技術,參見文檔
可以使用SHOW VARIABLES LIKE 'optimizer_switch';查看semijoin是否開啟。
上面使用IN-TO-EXISTS改寫後,外層表變成驅動表,效率很差,那如果使用inner join呢,使用條件過濾後,用小表驅動大表,但join查詢結果是會重覆的,和子查詢語義不一定相同。如:

SELECT class.class_num, class.class_name
    FROM class
    INNER JOIN roster
    WHERE class.class_num = roster.class_num;

這樣會查詢出多條相同class_num的記錄,如果子查詢,那麼查詢出來的class_num是不一樣的,也就是去重。當然也可以加上distinct,但這樣效率比較低。

SELECT class_num, class_name
    FROM class
    WHERE class_num IN
        (SELECT class_num FROM roster);

semijoin有以下幾種策略,以下是官方的解釋:

Duplicate Weedout: Run the semijoin as if it was a join and remove duplicate records using a temporary table.

FirstMatch: When scanning the inner tables for row combinations and there are multiple instances of a given value group, choose one rather than returning them all. This "shortcuts" scanning and eliminates production of unnecessary rows.

LooseScan: Scan a subquery table using an index that enables a single value to be chosen from each subquery's value group.

Materialize the subquery into an indexed temporary table that is used to perform a join, where the index is used to remove duplicates. The index might also be used later for lookups when joining the temporary table with the outer tables; if not, the table is scanned. For more information about materialization, see Section 8.2.2.2, “Optimizing Subqueries with Materialization”.

以Duplicate Weedout為例,mysql會先將roster的記錄以class_num為主鍵添加到一張臨時表,達到去重的目的。接著掃描臨時表,每行去匹配外層表,滿足條件則放到結果集,最終返回。
具體使用哪種策略是優化器根據具體情況分析得出的,可以從explain的extra欄位看到。

那麼為什麼delete沒有使用semijoin優化呢?
這其實是mysql的一個bug,bug地址,描述場景和我們的一樣。
文中還提到這個問題在mysql 8.0.21被修複,地址

大致就是解釋了一下之前版本沒有支持的原因,提到主要是因為單表沒有可以JOIN的對象,沒法進行一系列的優化,所以單表的UPDATE/DELETE是無法用semijoin優化的。
這個優化還有一些限制,例如不能使用order by和limit,我們還是應該儘量避免使用子查詢。
在我們的場景通過將子查詢改寫為join即可走索引,現在也明白為什麼老司機們都說儘量用join代替了子查詢了吧。

更多分享,歡迎關註我的github:https://github.com/jmilktea/jtea


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 什麼是鍵控服務依賴註入? 在之前的依賴註入中,服務是根據其類型進行註冊和解析的。如果出現同一介面有多個實現怎麼辦呢?這時候就可以使用.NET 8的新功能“鍵控服務依賴註入”。它允許您註冊介面的多個實現,每個實現都與一個唯一鍵相關聯,然後基於該鍵解析所需的實現。 在.NET 8 中的實現 接下來介紹如 ...
  • 一:背景 1. 講故事 為什麼要提 宇宙射線, 太陽耀斑 導致的程式崩潰呢?主要是昨天在知乎上看了這篇文章:莫非我遇到了傳說中的bug? ,由於 rip 中的0x41變成了0x61出現了bit位翻轉導致程式崩潰,截圖如下: 下麵的評論大多是說由於 宇宙射線,這個太玄乎了,說實話看到這個 傳說bug ...
  • 在.NET Core中,UseStaticFiles、UseDefaultFiles、UseDirectoryBrowser和UseFileServer中間件用於處理靜態文件和目錄瀏覽。下麵我將為你提供一個簡單的例子,演示它們的用法。 首先,確保你的項目已經安裝了Microsoft.AspNetCo ...
  • 路是腳踏出來的,歷史是人寫出來的。人的每一步行動都在書寫自己的歷史。 Linux 基礎命令 open:打開文件操作,如環境配置文件。 open ~/.zshrc vi:vi (visual interface), linux 中最經典的文本編輯器 vim(vi improved)是 vi 發展出來的 ...
  • 在運行程式時有時候會需要查看資源占用,以方便部署在其他伺服器上時進行參考。以下是總結了我在linux上查找程式進程資源的兩種方法(cpu和gpu都有)。 ...
  • 在 Apache Flink 中實現高效的 Top N 數據處理,尤其是涉及時間視窗和多條件排序時,需要精細地控制數據流和狀態管理。 普通計算TopN: 1. 定義數據源(Source) 首先,我們需要定義數據源。這可能是 Kafka 流、文件、資料庫或任何其他支持的數據源。 val stream: ...
  • 在回答這個問題之前,首先我們看看 MySQL 中有哪些常用的 JDBC 連接池: c3p0 DBCP Druid Tomcat JDBC Pool HikariCP 這些連接池中,c3p0 是一個老牌的連接池,很多流行框架,在其老版本中,都將 c3p0 作為預設的連接池。 DBCP 和 Tomcat ...
  • 出現分散式死鎖現象後,如果沒有外部干預,通常是一方等待鎖超時報錯後,事務回滾清理持有鎖資源,另一方可繼續執行。 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...