SQL優化之SQL 進階技巧(下)

来源:https://www.cnblogs.com/star8521/archive/2020/05/25/12954950.html
-Advertisement-
Play Games

上文( SQL優化之SQL 進階技巧(上) )我們簡述了 SQL 的一些進階技巧,一些朋友覺得不過癮,我們繼續來下篇,再送你 10 個技巧 一、 使用延遲查詢優化 limit [offset], [rows] 經常出現類似以下的 SQL 語句: SELECT FROM film LIMIT 1000 ...


上文SQL優化之SQL 進階技巧(上) )我們簡述了 SQL 的一些進階技巧,一些朋友覺得不過癮,我們繼續來下篇,再送你 10 個技巧

一、 使用延遲查詢優化 limit [offset], [rows]

經常出現類似以下的 SQL 語句:


SELECT * FROM film LIMIT 100000, 10

offset 特別大!

這是我司出現很多慢 SQL 的主要原因之一,尤其是在跑任務需要分頁執行時,經常跑著跑著 offset 就跑到幾十萬了,導致任務越跑越慢。

LIMIT 能很好地解決分頁問題,但如果 offset 過大的話,會造成嚴重的性能問題,原因主要是因為 MySQL 每次會把一整行都掃描出來,掃描 offset 遍,找到 offset 之後會拋棄 offset 之前的數據,再從 offset 開始讀取 10 條數據,顯然,這樣的讀取方式問題。

可以通過延遲查詢的方式來優化

假設有以下 SQL,有組合索引(sex, rating)


SELECT <cols> FROM profiles where sex='M' order by rating limit 100000, 10;

則上述寫法可以改成如下寫法


SELECT <cols> 
  FROM profiles 
inner join
(SELECT id form FROM profiles where x.sex='M' order by rating limit 100000, 10)
as x using(id);

這裡利用了覆蓋索引的特性,先從覆蓋索引中獲取 100010 個 id,再丟充掉前 100000 條 id,保留最後 10 個 id 即可,丟掉 100000 條 id 不是什麼大的開銷,所以這樣可以顯著提升性能

二、 利用 LIMIT 1 取得唯一行

資料庫引擎只要發現滿足條件的一行數據則立即停止掃描,,這種情況適用於只需查找一條滿足條件的數據的情況

三、 註意組合索引,要符合最左匹配原則才能生效

假設存在這樣順序的一個聯合索引“col_1, col_2, col_3”。這時,指定條件的順序就很重要。


○ SELECT * FROM SomeTable WHERE col_1 = 10 AND col_2 = 100 AND col_3 = 500;
○ SELECT * FROM SomeTable WHERE col_1 = 10 AND col_2 = 100 ;
× SELECT * FROM SomeTable WHERE col_2 = 100 AND col_3 = 500 ;

前面兩條會命中索引,第三條由於沒有先匹配 col_1,導致無法命中索引, 另外如果無法保證查詢條件里列的順序與索引一致,可以考慮將聯合索引 拆分為多個索引。

四、使用 LIKE 謂詞時,只有前方一致的匹配才能用到索引(最左匹配原則)


× SELECT * FROM SomeTable WHERE col_1 LIKE '%a';
× SELECT * FROM SomeTable WHERE col_1 LIKE '%a%';
○ SELECT * FROM SomeTable WHERE col_1 LIKE 'a%';

上例中,只有第三條會命中索引,前面兩條進行後方一致或中間一致的匹配無法命中索引

五、 簡單字元串表達式

模型字元串可以使用 _ 時, 儘可能避免使用 %, 假設某一列上為 char(5)

不推薦


SELECT 
    first_name, 
    last_name,
    homeroom_nbr
  FROM Students
 WHERE homeroom_nbr LIKE 'A-1%';

推薦

SELECT first_name, last_name
homeroom_nbr
  FROM Students
 WHERE homeroom_nbr LIKE 'A-1__'; --模式字元串中包含了兩個下劃線

六、儘量使用自增 id 作為主鍵

比如現在有一個用戶表,有人說身份證是唯一的,也可以用作主鍵,理論上確實可以,不過用身份證作主鍵的話,一是占用空間相對於自增主鍵大了很多,二是很容易引起頻繁的頁分裂,造成性能問題(什麼是頁分裂,請參考這篇文章

主鍵選擇的幾個原則:自增,儘量小,不要對主鍵進行修改

七、如何優化 count(*)

使用以下 sql 會導致慢查詢


SELECT COUNT(*) FROM SomeTable
SELECT COUNT(1) FROM SomeTable

原因是會造成全表掃描,有人說 COUNT(*) 不是會利用主鍵索引去查找嗎,怎麼還會慢,這就要談到 MySQL 中的聚簇索引和非聚簇索引了,聚簇索引葉子節點上存有主鍵值+整行數據,非聚簇索葉子節點上則存有輔助索引的列值 + 主鍵值,如下

SQL 進階技巧(下)

所以就算對 COUNT(*) 使用主鍵查找,由於每次取出主鍵索引的葉子節點時,取的是一整行的數據,效率必然不高,但是非聚簇索引葉子節點只存儲了「列值 + 主鍵值」,這也啟發我們可以用非聚簇索引來優化,假設表有一列叫 status, 為其加上索引後,可以用以下語句優化:

SELECT COUNT(status) FROM SomeTable

有人曾經測過(見文末參考鏈接),假設有 100 萬行數據,使用聚簇索引來查找行數的,比使用 COUNT(*) 查找速度快 10 幾倍。不過需要註意的是通過這種方式無法計算出  status 值為 null 的那些行

如果主鍵是連續的,可以利用 MAX(id) 來查找,MAX 也利用到了索引,只需要定位到最大 id 即可,性能極好,如下,秒現結果

SELECT MAX(id) FROM SomeTable

說句題句話,有人說用 MyISAM 引擎調用 COUNT(*) 非常快,那是因為它提前把行數存在磁碟中了,直接拿,當然很快,不過如果有 WHERE 的限制,用 COUNT(*) 還是很慢!

八、避免使用 SELECT * ,儘量利用覆蓋索引來優化性能

SELECT * 會提取出一整行的數據,如果查詢條件中用的是組合索引進行查找,還會導致回表(先根據組合索引找到葉子節點,再根據葉子節點上的主鍵回表查詢一整行),降低性能,而如果我們所要的數據就在組合索引里,只需讀取組合索引列,這樣網路帶寬將大大減少,假設有組合索引列 (col_1, col_2)

推薦用

SELECT col_1, col_2 
  FROM SomeTable 
 WHERE col_1 = xxx AND col_2 = xxx

不推薦用

SELECT *
  FROM SomeTable 
 WHERE col_1 = xxx AND  col_2 = xxx

九、 如有必要,使用 force index() 強制走某個索引

業務團隊曾經出現類似以下的慢 SQL 查詢

SELECT *
  FROM  SomeTable
 WHERE `status` = 0
   AND `gmt_create` > 1490025600
   AND `gmt_create` < 1490630400
   AND `id` > 0
   AND `post_id` IN ('67778', '67811', '67833', '67834', '67839', '67852', '67861', '67868', '67870', '67878', '67909', '67948', '67951', '67963', '67977', '67983', '67985', '67991', '68032', '68038'/*... omitted 480 items ...*/)
order by id asc limit 200;

post_id 也加了索引,理論上走 post_id 索引會很快查詢出來,但實際通過 EXPLAIN 發現走的卻是 id 的索引(這裡隱含了一個常見考點,在多個索引的情況下, MySQL 會如何選擇索引),而 id > 0 這個查詢條件沒啥用,直接導致了全表掃描, 所以在有多個索引的情況下一定要慎用,可以使用 force index 來強制走某個索引,以這個例子為例,可以強制走 post_id 索引,效果立桿見影。

這種由於表中有多個索引導致 MySQL 誤選索引造成慢查詢的情況在業務中也是非常常見,一方面是表索引太多,另一方面也是由於 SQL 語句本身太過複雜導致, 針對本例這種複雜的 SQL 查詢,其實用 ElasticSearch 搜索引擎來查找更合適,有機會到時出一篇文章說說。

十、 使用 EXPLAIN 來查看 SQL 執行計劃

上個點說了,可以使用 EXPLAIN 來分析 SQL 的執行情況,如怎麼發現上文中的最左匹配原則不生效呢,執行 「EXPLAIN + SQL 語句」可以發現 key 為 None ,說明確實沒有命中索引

SQL 進階技巧(下)

我司在提供 SQL 查詢的同時,也貼心地加了一個 EXPLAIN 功能及 sql 的優化建議,建議各大公司效仿 ^_^,如圖示

SQL 進階技巧(下)

十一、 批量插入,速度更快

當需要插入數據時,批量插入比逐條插入性能更高

推薦用

-- 批量插入
INSERT INTO TABLE (id, user_id, title) VALUES (1, 2, 'a'),(2,3,'b');

不推薦用

INSERT INTO TABLE (id, user_id, title) VALUES (1, 2, 'a');
INSERT INTO TABLE (id, user_id, title) VALUES (2,3,'b');

批量插入 SQL 執行效率高的主要原因是合併後日誌量 MySQL 的 binlog 和 innodb 的事務讓日誌減少了,降低日誌刷盤的數據量和頻率,從而提高了效率

十二、 慢日誌 SQL 定位

前面我們多次說了 SQL 的慢查詢,那麼該怎麼定位這些慢查詢 SQL 呢,主要用到了以下幾個參數

SQL 進階技巧(下)

這幾個參數一定要配好,再根據每條慢查詢對症下藥,像我司每天都會把這些慢查詢提取出來通過郵件給形式發送給各個業務團隊,以幫忙定位解決

總結

業務生產中可能還有很多 CASE 導致了慢查詢,其實細細品一下,都會發現這些都和 MySQL 索引的底層數據 B+ 樹 有莫大的關係,強烈建議大家看一下我的另一篇介紹 B+ 樹的文章,好評如潮!相信大家看了之後,以上出現的問題會有一個更深層次的理解,掌握底層,以不變應萬變!

相關文章

SQL優化之SQL 進階技巧(上)

SQL優化之SELECT COUNT(*)


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1 準備工作 1.1 修改主機名 vim /etc/hosts # 添加對應主機 192.168.28.128 mha1 192.168.28.131 mha2 192.168.28.132 mha3 1.2 關閉防火牆及修改selinux # 關閉防火牆 systemctl stop firewa ...
  • 事務 資料庫併發控制的對象 事務是資料庫的邏輯工作單位 序列中的操作要麼全做,要麼全不做 特性; 原子性 一個事務中的所有操作是不可分割的,要麼全部執行,要麼 全部不執行,這就是事務的原子性。 一致性 一個被成功執行的事務,必須能使DB從一個一致性 狀態變為另一個一致性狀態。 隔離性 是指資料庫中一 ...
  • 操作異常 修改異常、插入異常、刪除異常 數據依賴 數據間的聯繫 函數依賴FD 屬性撿的聯繫,最基本的數據依賴 若確定X,則可以唯一的確定Y,則稱Y依賴於X記X->Y 若X->Y,且Y是X的子集則稱為平凡的函數依賴:平凡的FD 若X->Y且對於任何並且對於X的任何一 個真子集X′,都有X′ Y,則稱Y ...
  • 前提:建立了一個employee表,同時建立了一個組合索引lastName,gender 。 1.最常說的like匹配 例1 explain select * from employee where lastName like '%lucy'; 例2 explain select * from em ...
  • 一、什麼是Kafka? 數據工程中最具挑戰性的部分之一是如何從不同點收集和傳輸大量數據到分散式系統進行處理和分析。需要通過消息隊列正確地分離大量數據,因為如果一部分數據無法傳送,則可以在系統恢復時傳輸和分析其他數據。有兩種消息排隊,對於上述目的,它們都是可靠的和非同步的。點對點(Point to po ...
  • 一、數據安全性 1.用戶表示和鑒別 2.存取控制 3.定義視圖 4.審計 5.數據加密 二、伺服器級安全: 登入名(windows賬號登入、賬號密碼登入) 預設登入賬號:1.BUILTIN\Administrators 2.sa(管理員賬號,預設禁用,需啟用) 創建SQLsever登入賬號 crea ...
  • 前言 SQL優化之SQL 進階技巧(上) SQL優化之SQL 進階技巧(下)中提到使用以下 sql 會導致慢查詢 SELECT COUNT( ) FROM SomeTable SELECT COUNT(1) FROM SomeTable 原因是會造成全表掃描,有位讀者說這種說法是有問題的,實際上針對 ...
  • ​ ​ 在《 "什麼的是用戶畫像" 》一文中,我們已經知道用戶畫像對於企業的巨大意義,當然也有著非常大實時難度。那麼在用戶畫像的系統架構中都有哪些難度和重點要考慮的問題呢? 挑戰 大數據 隨著互聯網的崛起和智能手機的興起,以及物聯網帶來的各種可穿戴設備,我們能獲取的每一個用戶的數據量是非常巨大的,而 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...