MySQL 筆記整理(14) --count(*)這麼慢,我該怎麼辦?

来源:https://www.cnblogs.com/dogtwo0214/archive/2019/04/01/10621434.html
-Advertisement-
Play Games

筆記記錄自林曉斌(丁奇)老師的《MySQL實戰45講》 (本篇內圖片均來自丁奇老師的講解,如有侵權,請聯繫我刪除) 14) --count(*)這麼慢,我該怎麼辦? 有時你會發現,隨著系統中記錄數越來越多,select count(*) from t執行得也越來越慢。那麼今天,我們就來聊聊count ...


筆記記錄自林曉斌(丁奇)老師的《MySQL實戰45講》

(本篇內圖片均來自丁奇老師的講解,如有侵權,請聯繫我刪除)

14) --count(*)這麼慢,我該怎麼辦?

  有時你會發現,隨著系統中記錄數越來越多,select count(*) from t執行得也越來越慢。那麼今天,我們就來聊聊count(*)語句到底是怎樣實現的,以及MySQL為什麼會這麼實現。

count(*)的實現方式:

  前面我們提到過,MySQL的引擎是插件式的,這裡要明確一點,在不同的MySQL引擎中,count(*)有不同的實現方式。

  • MyISAM引擎把一個表的總行數存在了磁碟上,因此執行count(*)的時候會直接返回這個數,效率很高;
  • InnoDB引擎就麻煩了,它執行count(*)的時候,需要把數據一行一行地從引擎裡面讀出來,然後累計計數。

  這裡要說明的是,我們這裡的count(*),是沒有加任何where的過濾條件的,如果添加了過濾條件,MyISAM引擎也是不能返回這麼快的。之前的文章我們分享了為什麼要使用InnoDB引擎,因為不論是在事務支持,併發能力還是數據安全方面,InnoDB都優於MyISAM。那麼,為什麼InnoDB不跟MyISAM一樣,也把數字存下來呢?

  這是因為即使是在同一個時刻的多個查詢,優於MVCC(多版本併發控制)的原因,InnoDB表“應該返回多少行”也是不確定的。這裡,我用一個算count(*)的例子來解釋:假設表t中現在有10000條記錄,我們設計了三個用戶並行的會話。

  

      圖1 會話A,B,C的執行流程

  • 會話A先啟動事務並查詢一次表的總行數;
  • 會話B啟動事務,插入一行記錄後,查詢表的總行數;
  • 會話C先啟動一個單獨的語句,插入一行記錄後,查詢表的總行數。

  我們假設從上到下是按照時間順序執行的,同一行語句是在同一時刻執行的。你會看到,三個會話A,B,C會同時查詢表t的總行數,但拿到的結果卻不同。這和InnoDB的事務設計有關係,可重覆讀是它預設的隔離級別,在代碼上是通過MVCC,也就是多版本併發控制來實現的。每一行記錄都要判斷自己是否對這個會話可見,因此對於count(*)請求來說,InnoDB只好把數據一行一行地讀出依次判斷,可見的行才能夠用於計算“基於這個查詢”的表的總行數。

  當然,MySQL在執行count(*)過程時還是做了優化的。InnoDB是索引組織表,主鍵索引的葉子節點是數據,而普通索引的葉子節點是主鍵值。所以,普通索引樹比主鍵索引樹小很多。對於count(*)這樣的操作,遍歷哪個索引樹得到的結果邏輯上都是一樣的。因此,MySQL優化器會找到最小的那棵樹來遍歷。在保證邏輯正確的前提下,儘量減少掃描的數據量,是資料庫系統設計的通用法則之一。

  另外,如果你用過show table status命令的話,就會發現這個命令的輸出結果裡面也有一個TABLE_ROWS用於顯示這個表當前有多少行,這個命令執行挺快的,那這個欄位能代替count(*)嗎?實際上是不能的,我們之前提到過,索引統計的值是通過採樣來估算的。實際上,這個欄位正是通過採樣估算二來的,因此它也很不准。官方文檔說這個欄位的誤差可能達到40%~50%.

  現在我們回到文章開頭的問題,如果你現在有一個頁面要經常顯示交易操作記錄的總數,到底應該怎麼辦呢?答案是,我們只能自己計數。基本思路是我們自己找一個地方,把操作記錄表的行數存起來。

用緩存系統保存計數:

  你可能會很自然的想到使用Redis這樣的服務來保存這個表的總行數。這個表每次插入一行Redis記錄就加1.每次刪除一行,Redis記錄就減1。但你再想一下,這會有什麼問題嘛?沒錯,緩存系統有可能會丟失更新。如Redis異常重啟,這時redis中保存的記錄都不會有了。當然,這個問題還是有解決辦法的,比如每次Redis重啟之後我們都去DB中單獨執行一次count(*)來求得記錄,畢竟redis並不會常常重啟,這個成本也不會很高。但實際上,即使你使用這種方式,Redis的記錄還是有可能是不精確的。我們來舉兩個例子:

  1. 如果我們先插入記錄,再更新Redis時可能會存在這一情況。T1時刻表t插入數據R。T2時刻讀取redis記錄數,並且從DB中查詢最近的100條記錄。T3時刻,更新redis記錄,計數加1。這種情況下,T2時刻讀取最近100條記錄是包括數據R的,而同時Redis的記錄數是不包含R的。
  2. 反過來,如果我們先更新Redis記錄,再插入數據呢?T1時刻我們更新Redis計數加1。T2時刻,讀取Redis記錄,從DB中查詢最近的100條記錄。T3時刻,向表t插入數據R。這種情況下,T2時刻讀取最近100條記錄是不包括R的,而Redis的記錄中卻是包含R這個記錄的。

在資料庫保存計數:

  使用緩存可能會有記錄不精確的問題,如果我們把這個計數直接放到資料庫里單獨的一張計數表C中,又會怎麼樣呢?首先是異常重啟的問題,資料庫崩潰了,異常重啟。MySQL是支持崩潰恢復的,所以這其實不是個問題。我們再來看看剛剛在緩存系統中出現的記錄不精確的問題:

  相信你已經發行,記錄不精確的問題的關鍵在於,讀取記錄和記錄總數時數據還沒有完整的更新完。即Redis與DB中記錄並不完全一致。換句話說,比如上面兩個例子,如果我們在T4時刻再去執行T2中的操作就不會出現這類問題了。

  

  圖2,會話A,B的執行時序圖

  如圖2所示,由於MySQL預設的隔離級別是可重覆讀,所以在會話B中,T3時刻並不會讀到T2時刻改變的數據。因為T3時刻,會話A的改動還未提交,它對會話B來說是不可見的。這樣,就保證了數據的精確結果。

不同Count的用法:

  你可能看到過各種寫法來求總行數,如count(*), count(1),count(主鍵id)等等。這裡我們首先要弄清楚count()語義。count()是一個聚合函數,對於返回的結果集,一行行地判斷,如果count函數的參數是NULL,累計值就加1,否則就不加。最後返回累計值。

  所以count(*), count(1),count(主鍵id)返回的就是滿足條件的結果集的總行數;而count(欄位),返回的就是滿足條件的數據里,參數“欄位”不為Null的總個數。MySQL有這麼幾個原則:

  1. server層要什麼就給什麼
  2. InnoDB只給必要的值
  3. 現在優化器只優化了count(*)的語義為“取行數”,其他“顯而易見”的優化並沒有做。

  因此,對於count(主鍵id),InnoDB先是會遍歷整張表,把每一行的id都取出來,返回給server層。server層拿到id後,判斷是不可能為空的,就按行累計。對於count(1),InnoDB先是會遍歷整張表,server層對返回的每一行,放一個“1”進去,判斷不為空,按行累計。由於少了返回id,解析數據行等操作,count(1)會更快一些。對於count(欄位),不僅要判斷數據行,還要判斷是否為null。而對於count(*),由於做了優化,直接按行累計。所以結論是,按效率排序的話 count(欄位)<count(主鍵id)<count(1)約等於count(*)。

上期問題:

  如果有一個情況是這樣的:想要收縮表空間,結果適得其反,看上去是:

  1. 一個表t文件大小為1TB;
  2. 對這個表執行alter table t engine = InnoDB;
  3. 執行完成後,空間不僅沒有變小,還稍微大了一點,變為了1.01TB

  請問這是什麼原因導致的呢?

  答:在DDL期間,如果剛好有外部的DML在執行,這期間可能會引入一些新的空洞。另外,還有一個更深層的機制在文章中沒有提到。在重建表的時候,InnoDB不會把整張表占滿,每個頁會留下1/16的空間給後續的更新用。也就是說,其實重建後的表不是“最”緊湊的。所以導致上述情況的可能是這麼一個流程:

  1. 將表t重建一次。
  2. 插入一部分數據,但是插入的這些數據,用掉了一部分預留空間。
  3. 再重建一次表t,就可能會出現上面的情況了。

問題:

  在上面關於count計數的討論中,我們用了事務來確保數據的精確性。由於事務可以保證中間結果不被別的事務讀到,因此修改計數值和插入新的記錄的順序是不影響邏輯結果的。但是,從併發系統性能的角度考慮,你覺得在這個事務序列里,應該先插入操作記錄,還是先更新計數表呢?


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1.索引如果沒有特別指明類型,一般是說b樹索引,b樹索引使用b樹數據結構存儲數據,實際上很多存儲引擎使用的是b+樹,每一個葉子節點都包含指向下一個葉子節點的指針,從而方便葉子節點的範圍遍歷 2.底層的存儲引擎也可能使用不同的存儲結構,比如NDB集群存儲引擎使用了T樹,InnoDB使用的是B+樹 3. ...
  • 資料庫什麼是資料庫就是存儲數據的倉庫(容器)存儲數據的方式1.變數 無法永久存儲2.文件處理 ,可以永久存儲文件處理存在的弊端: 1.文件處理速度慢 2.文件只能在自己的電腦上讀寫 無法被共用(區域網除外)單台電腦的性能終歸是有限的1.升級你的硬體設備 提升幅度有限 垂直擴展2.伺服器集群 分佈 ...
  • 在筆記本和PC上面使用Mysql8.0.11免安裝版本,均遇到此問題,記性不太好,現做下筆記。 1.cmd下,先關掉已啟動的mysql服務,使用命令:net stop mysql 2.步驟1的cmd視窗a不關閉,重新開1個cmd視窗b,輸入:mysqld --console --skip-grant ...
  • 資料庫的基本操作 1. 創建資料庫 database_name為要創建的資料庫的名稱 2. 刪除資料庫 database_name為要刪除的資料庫的名稱 3. 資料庫存儲引擎 資料庫存儲引擎是資料庫底層軟體組成,資料庫管理系統(DBMS)使用數據引擎進行創建、查詢、更新和刪除數據操作。 MySQL的 ...
  • [20190401]那個更快的疑問.txt--//前一陣子,做了11g於10g下,單表單條記錄唯一索引掃描的測試,摘要如下:--//參考鏈接:http://blog.itpub.net/267265/viewspace-2636321/http://blog.itpub.net/267265/vie ...
  • 下圖展示了 LEFT JOIN、RIGHT JOIN、INNER JOIN、OUTER JOIN 相關的 7 種用法。 具體分解如下: 1、INNER JOIN(內連接) 2、LEFT JOIN(左連接) 3、RIGHT JOIN(右連接) 4、OUTER JOIN(外連接) 5、LEFT JOIN ...
  • 1.我們使用緩存時的業務流程大概為: 當我們查詢一條數據時,先去查詢緩存,如果緩存有就直接返回,如果沒有就去查詢資料庫,然後返回。這種情況下就可能出現下麵的一些現象。 2.緩存穿透 2.1什麼是緩存穿透 緩存穿透是指查詢一個一定不存在的數據,由於緩存是不命中時被動寫的,並且出於容錯考慮,如果從存儲層 ...
  • 最近做ogg數據同步,然後觸發器加工數據放入另外一張表,由於數據量很大,一分鐘幾萬條數據,由於一些條件欄位類型不匹配,引起ogg阻塞,比較頭大。最後分析發現性能問題。請看下圖: phmxxh是varchar2類型,note_id是integer類型,用to_char轉換以後,性能提高60倍以後註意避 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...