MySQL 快速刪除大量數據(千萬級別)的幾種實踐方案——附源碼

来源:https://www.cnblogs.com/NaughtyCat/archive/2020/07/07/one-fast-way-to-delete-huge-data-in-mysql.html
-Advertisement-
Play Games

筆者最近工作中遇見一個性能瓶頸問題,MySQL表,每天大概新增776萬條記錄,存儲周期為7天,超過7天的數據需要在新增記錄前老化。連續運行9天以後,刪除一天的數據大概需要3個半小時(環境:128G, 32核,4T硬碟),而這是不能接受的。當然如果要整個表刪除,毋庸置疑用 TRUNCATE TABLE ...


 

 筆者最近工作中遇見一個性能瓶頸問題,MySQL表,每天大概新增776萬條記錄,存儲周期為7天,超過7天的數據需要在新增記錄前老化。連續運行9天以後,刪除一天的數據大概需要3個半小時(環境:128G, 32核,4T硬碟),而這是不能接受的。當然如果要整個表刪除,毋庸置疑用

TRUNCATE TABLE就好。

最初的方案(因為未預料到刪除會如此慢),代碼如下(最簡單和朴素的方法):

delete from table_name where cnt_date <= target_date

 

 後經過研究,最終實現了飛一般(1秒左右)的速度刪除770多萬條數據,單張表總數據量在4600萬上下,優化過程的方案層層遞進,詳細記錄如下:

  • 批量刪除(每次限定一定數量),然後迴圈刪除直到全部數據刪除完畢;同時key_buffer_size 由預設的8M提高到512M

 運行效果:刪除時間大概從3個半小時提高到了3小時

(1)通過limit(具體size 請酌情設置)限制一次刪除的數據量,然後判斷數據是否刪除完,附源碼如下(Python實現):

def delete_expired_data(mysqlconn, day):
    mysqlcur = mysqlconn.cursor()
    delete_sql = "DELETE from table_name where cnt_date<='%s' limit 50000" % day
    query_sql = "select srcip from table_name  where cnt_date <= '%s' limit 1" % day
    try: 
        df = pd.read_sql(query_sql, mysqlconn)
        while True:
            if df is None or df.empty:
                break
            mysqlcur.execute(delete_sql)
            mysqlconn.commit()

            df = pd.read_sql(query_sql, mysqlconn)
    except:
       mysqlconn.rollback()

 

(2)增加key_buffer_size

mysqlcur.execute("SET GLOBAL key_buffer_size = 536870912")

key_buffer_size是global變數,詳情參見Mysql官方文檔: https://dev.mysql.com/doc/refman/5.7/en/server-configuration.html

  • DELETE QUICK + OPTIMIZE TABLE

 適用場景:MyISAM Tables

 Why: MyISAM刪除的數據維護在一個鏈表中,這些空間和行的位置接下來會被Insert的數據復用。 直接的delete後,mysql會合併索引塊,涉及大量記憶體的拷貝移動;而OPTIMIZE TABLE直接重建索引,即直接把數據塊情況,再重新搞一份(聯想JVM垃圾回收演算法)。

運行效果:刪除時間大3個半小時提高到了1小時40分

具體代碼如下:

def delete_expired_data(mysqlconn, day):
    mysqlcur = mysqlconn.cursor()
    delete_sql = "DELETE QUICK from table_name where cnt_date<='%s' limit 50000" % day
    query_sql = "select srcip from table_name where cnt_date <= '%s' limit 1" % day
    optimize_sql = "OPTIMIZE TABLE g_visit_relation_asset"
    try: 
        df = pd.read_sql(query_sql, mysqlconn)
        while True:
            if df is None or df.empty:
                break
            mysqlcur.execute(delete_sql)
            mysqlconn.commit()

            df = pd.read_sql(query_sql, mysqlconn)
        mysqlcur.execute(optimize_sql)
        mysqlconn.commit()
    except:
       mysqlconn.rollback()
  • 表分區,直接刪除過期日期所在的分區(最終方案—秒殺)

 MySQL表分區有幾種方式,包括RANGE、KEY、LIST、HASH,具體參見官方文檔。因為這裡的應用場景日期在變化,所以不適合用RANGE設置固定的分區名稱,HASH分區更適應此處場景

(1)分區表定義,SQL語句如下:

ALTER TABLE table_name PARTITION BY HASH(TO_DAYS(cnt_date)) PARTITIONS 7;

TO_DAYS將日期(必須為日期類型,否則會報錯:Constant, random or timezone-dependent expressions in (sub)partitioning function are not allowed)轉換為天數(按一年的天數計算),然後HASH;分區建立7個。實際上,就是 days MOD 7 。


(2)查詢出需要老化的日期所在的分區,SQL語句如下:

"explain partitions select * from g_visit_relation_asset where cnt_date = '%s'" % expired_day

執行結果如下(partitions列即為所在分區):

+----+-------------+------------------+------------+------+----------------+------+---------+------+---------+----------+-------------+
| id | select_type | table            | partitions | type | possible_keys  | key  | key_len | ref  | rows    | filtered | Extra       |
+----+-------------+------------------+------------+------+----------------+------+---------+------+---------+----------+-------------+
|  1 | SIMPLE      | table_name       | p1         | ALL  | cnt_date_index | NULL | NULL    | NULL | 1325238 |   100.00 | Using where |
+----+-------------+------------------+------------+------+----------------+------+---------+------+---------+----------+-------------+
1 row in set, 2 warnings (0.00 sec)

(3)OPTIMIZE or REBUILD partition,SQL語句如下:

"ALTER TABLE g_visit_relation_asset OPTIMIZE PARTITION '%s'" % partition

完整代碼如下【Python實現】,迴圈刪除小於指定日期的數據:

def clear_partition_data(mysqlconn, day):
    mysqlcur = mysqlconn.cursor()
    expired_day = day
    query_partition_sql = "explain partitions select * from table_name where cnt_date = '%s'" % expired_day
    # OPTIMIZE or REBUILD after truncate partition
    try: 
        while True:
            df = pd.read_sql(query_partition_sql, mysqlconn)
            if df is None or df.empty:
                break
            partition = df.loc[0, 'partitions']
            if partition is not None:
                clear_partition_sql = "alter table table_name TRUNCATE PARTITION %s" % partition
                mysqlcur.execute(clear_partition_sql)
                mysqlconn.commit()

                optimize_partition_sql = "ALTER TABLE table_name OPTIMIZE PARTITION %s" % partition
                mysqlcur.execute(optimize_partition_sql)
                mysqlconn.commit()
            
            expired_day = (expired_day - timedelta(days = 1)).strftime("%Y-%m-%d")
            df = pd.read_sql(query_partition_sql, mysqlconn)
    except:
       mysqlconn.rollback()

 

  •  其它

 如果刪除的數據超過表數據的百分之50,建議拷貝所需數據到臨時表,然後刪除原表,再重命名臨時表為原表,附MySQL如下:

   INSERT INTO New
      SELECT * FROM Main
         WHERE ...;  -- just the rows you want to keep
   RENAME TABLE main TO Old, New TO Main;
   DROP TABLE Old;   -- Space freed up here

參考:

1)https://dev.mysql.com/doc/refman/5.7/en/alter-table-partition-operations.html 具體分區說明

2)http://mysql.rjweb.org/doc.php/deletebig#solutions   刪除大數據的解決方案

  本文版權歸作者和博客園共有,歡迎轉載,但未經作者同意必須保留此段聲明,且在文章頁面明顯位置給出原文連接,否則保留追究法律責任的權利。

************************************************************************

精力有限,想法太多,專註做好一件事就行

  • 我只是一個程式猿。5年內把代碼寫好,技術博客字字推敲,堅持零拷貝和原創
  • 寫博客的意義在於打磨文筆,訓練邏輯條理性,加深對知識的系統性理解;如果恰好又對別人有點幫助,那真是一件令人開心的事

************************************************************************


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 低功耗藍牙的體繫結構比較簡單,從下到上分別為控制器、主機和應用層。 控制器主要包含物理層、直接測試模式、鏈路層和主機控制介面(HCI)的下半部分,能夠收發無線電信號,並將這些無線電信號翻譯成帶信息的數據包。 主機通常為協議棧,管理設備間如何通信以及如何提供服務。包含主機控制機介面的上半部分、邏輯鏈路 ...
  • PV(Physical Volume)- 物理捲 物理捲在邏輯捲管理中處於最底層,它可以是實際物理硬碟上的分區,也可以是整個物理硬碟,也可以是raid設備。 VG(Volumne Group)- 捲組 捲組建立在物理捲之上,一個捲組中至少要包括一個物理捲,在捲組建立之後可動態添加物理捲到捲組中。一個 ...
  • 嵌入式靜態隨機存取存儲器(SRAM)是現代SoC中的重要組成部分;伴隨著工藝前進的腳步,對於SRAM的研究也從未終止過。其中雙埠SRAM可以為系統提供更高的通信效率和並行性,隨著系統吞吐率的提升應用也越來越廣泛。 從用途來看SRAM可以分為獨立式SRAM和嵌入式SRAM(e-SRAM),其中獨立式 ...
  • 問題說明: 通常在非 Mac App Store下載的軟體都會提示“xxx已損壞,打不開。您應將它移到廢紙簍”或者“打不開 xxx,因為它來自身份不明的開發者”。 原因: Mac電腦啟用了安全機制,預設只信任Mac App Store下載的軟體以及擁有開發者 ID 簽名的軟體,但是同時也阻止了沒有開 ...
  • 1、下載Mojave https://apps.apple.com/cn/app/macos-mojave/id1398502828?ls=1&mt=12 2、更改U盤格式和名稱 3、製作U盤啟動盤 sudo /Applications/Install\ macOS\ Mojave.app/Cont ...
  • 1、Command + s #進入單用戶 - 重啟電腦按住組合鍵 2、Mount -uaw #掛載讀寫 3、Passwd wantitadmin #如果可以的話直接修改密碼,不行進入下一步 4、Rm /var/db/.applesetupdone #刪除文件後會重新建立管理員賬號 5、Reboot ...
  • Linux的工具包 JDK 版本:14 百度網盤:鏈接: https://pan.baidu.com/s/1hWqGVmsElOCBufMuscPXzw 密碼:st3y 安裝步驟: 1、使用SSH軟體,把tar.gz文件上傳到Linux 2、解壓文件,tar -zxvf jdk-14.0.1_lin ...
  • kmalloc、vmalloc和malloc這三個常用的API函數具有相當的分量,三者看上去很相似,但在實現上大有講究。kmalloc基於slab分配器,slab緩衝區建立在一個連續的物理地址的大塊記憶體之上,所以緩衝對象也是物理地址連續的。如果在內核中不需要連續的物理地址,而僅僅需要內核空間里連續的 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...