mysql資料庫索引優化與實踐（一）

-Advertisement-

前言 mysql資料庫是現在應用最廣泛的資料庫系統。與資料庫打交道是每個Java程式員日常工作之一，索引優化是必備的技能之一。為什麼要瞭解索引真實案例案例一：大學有段時間學習爬蟲，爬取了知乎300w用戶答題數據，存儲到mysql數據中。那時不瞭解索引，一條簡單的“根據用戶名搜索全部回答的sql ...

前言

mysql資料庫是現在應用最廣泛的資料庫系統。與資料庫打交道是每個Java程式員日常工作之一，索引優化是必備的技能之一。

為什麼要瞭解索引

真實案例

案例一：大學有段時間學習爬蟲，爬取了知乎300w用戶答題數據，存儲到mysql數據中。那時不瞭解索引，一條簡單的“根據用戶名搜索全部回答的sql“需要執行半分鐘左右，完全滿足不了正常的使用。

案例二：最近線上應用的資料庫頻頻出現多條慢sql風險提示，而工作以來，對資料庫優化方面所知甚少。例如一個用戶數據頁面需要執行很多次資料庫查詢，性能很慢，通過增加超時時間勉強可以訪問，但是性能上需要優化。

索引的優點

合適的索引，可以大大減小mysql伺服器掃描的數據量，避免記憶體排序和臨時表，提高應用程式的查詢性能。

索引的類型

mysql數據中有多種索引類型，primary key，unique，normal，但底層存儲的數據結構都是BTREE；有些存儲引擎還提供hash索引，全文索引。

BTREE是最常見的優化要面對的索引結構，都是基於BTREE的討論。

B-TREE

查詢數據最簡單暴力的方式是遍歷所有記錄；如果數據不重覆，就可以通過組織成一顆排序二叉樹，通過二分查找演算法來查詢，大大提高查詢性能。而BTREE是一種更強大的排序樹，支持多個分支，高度更低，數據的插入、刪除、更新更快。

現代資料庫的索引文件和文件系統的文件塊都被組織成BTREE。

btree的每個節點都包含有key，data和只想子節點指針。

btree有度的概念d>=1。假設btree的度為d，則每個內部節點可以有n=[d+1，2d+1）個key，n+1個子節點指針。樹的最大高度為h=Logb[(N+1)/2]。

索引和文件系統中，B-TREE的節點常設計成接近一個記憶體頁大小（也是磁碟扇區大小），且樹的度非常大。這樣磁碟I/O的次數，就等於樹的高度h。假設b=100，一百萬個節點的樹，h將只有3層。即，只有3次磁碟I/O就可以查找完畢，性能非常高。

索引查詢

建立索引後，合適的查詢語句才能最大發揮索引的優勢。

另外，由於查詢優化器可以解析客戶端的sql語句，會調整sql的查詢語句的條件順序去匹配最合適的索引。

-- 表創建語句
CREATE TABLE people (
    last_name VARCHAR(20) NOT NULL,
    first_name VARCHAR(20) NOT NULL,
    gender CHAR(1) NOT NULL,
　　 birth date NOT NULL,
    KEY last_first_name_gender_key(last_name, first_name, gener)
);

一，全值匹配

查詢語句where條件和索引中的所有列進行匹配。

1 SELECT * FROM people WHERE last_name='zhang' AND first_name='yin' AND gender='m';

二，最左首碼匹配

查詢條件可以匹配索引的最左若幹列。註意關鍵詞”最左首碼“。

-- 可以使用部分索引"last_name"
SELECT * FROM people WHERE last_name='zhang' AND gender='m';

-- 無法使用索引
SELECT * FROM people WHERE first_name='zhang' AND gender='m';

三，列首碼匹配

查詢中的like條件，在有些場景下也可以使用索引。如 last_name like 'zh%'可以使用索引，而last_name like '%ing'則無法使用索引。

-- 可以使用索引，因為BTREE的節點比較key值時是從key值得最左側開始匹配
SELECT * FROM people WHERE last_name like 'zhang%' AND gender='m' ;

四，範圍查詢

索引的列也支持範圍查詢。

SELECT * FROM people WHERE last_name > 'zhang' AND last_name <'wang'

五，排序

ORDER BY語句在特定情況下也支持用索引來排序來提高性能。

EXPLAIN SELECT * FROM people WHERE last_name = 'zhang' ORDER BY first_name ASC

六，限制

1，查詢列不能參與表達式運算，否則無法使用索引。

--表設計中沒有age列，以示參考
--假設age是索引中一部分，這樣的查詢將無法使用到索引
SELECT * FROM people WHERE last_name='zhang' AND age+3>28;

--這樣寫就可以使用索引
SELECT * FROM people WHERE last_name='zhang' AND age>25;

2，如果不是從索引的最左列開始，則無法使用索引。如，根據first_name、gender或者查找的查詢無法使用索引。

-- 不是從last_name開始匹配，所以無法使用索引
SELECT * FROM people WHERE first_name='zhang' AND gender='m'

3，不能跳過索引中的列。

-- 不能跳過first_name查詢，否則只有last_name列用到了索引
SELECT * FROM people WHERE last_name='zhang' AND gender='m'

4，如果查詢中某個列是範圍查詢（like，between，>，<等），則其右邊所有的列都無法使用索引。

-- 由於first_name用了like查詢，所以gender列無法使用索引了
SELECT * FROM people WHERE last_name='zhang' AND first_name LIKE '%in' AND gender='m';

高效索引策略

前面講到了各種可以使用索引的查詢情況，下麵講如何建立高效的索引。

1，建立多列索引

　建立多列的索引，而不是每一列都建立單獨的。因為在mysql伺服器在查詢分析後，最終只能根據查詢匹配到一個索引（或者沒有）並使用。所以，假設多列上分別都建立了單獨索引，即使組合查詢用到了多列，最終也只有一列用到了索引。

所以，假設你最常見的查詢是根據last_name、first_name和gender來查詢，應該建立包含三列的索引。

ALTER TABLE people ADD INDEX idx_name_gender(last_name, first_name , gender);

2，索引列的順序

在多列B-TREE索引中，意味著索引是按照最左列開始，從左往右進行排序的。一個設計經驗法則，將”選擇性高“的列放在索引最左列。這樣有助於索引經過最少的比較找到目標元組。

索引列選擇性：不重覆的索引值與表的全部記錄總數的比值，0<T<=1。唯一索引列的選擇性是1。索引的選擇性越高則查詢效率越高，可以”更早地”過濾掉不匹配地記錄。

假設要建立 last_name, first_name , gender 三列的索引。

T（last_name）= select count(distinct last_name) / count(*) ;

T（first_name）= select count(distinct first_name) / count(*) ;

T（gender）= select count(distinct gender) / count(*) ;

很顯然，last_name和first_name應該放到索引的前面（以實際情況為主）

結尾

瞭解到了常見的索引策略和查詢技巧，但是怎麼在實際項目中應用併排查現存資料庫中sql的性能缺陷？下一篇將介紹mysql資料庫的explain關鍵字，總結和分析慢sql常見技巧。

參考

1，《高性能mysql》

2，《MySQL索引背後的數據結構及演算法原理》https://www.kancloud.cn/kancloud/theory-of-mysql-index/41844

3，https://zh.wikipedia.org/wiki/B%E6%A0%91

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Shell腳本中的if、case、for、while、until

if條件測試語句 if-then-fi if條件測試語句中會運行if後面的那個命令（判斷式）。如果該命令的退出狀態碼是0，位於then部分的命令才會被執行。如果該命令的退出狀態碼是其他值，then部分的命令就不會被執行（if後面的命令仍被執行）。雙括弧(())：除了test命令使用的標準數學運... ...
Linux centos 7 安裝NFS服務

NFS服務簡介：NFS是Network File System的縮寫，即網路文件系統。客戶端通過掛載的方式將NFS伺服器端共用的數據目錄掛載到本地目錄下。主要功能指的是共用文件為什麼要安裝NFS服務：當伺服器訪問流量過大時，需要多台服務區進行分流，而這多台伺服器可以使用NFS服務進行共用。（NF ...
Shell腳本入門

Shell script（Shell腳本）的工作方式有兩種： ①互動式（Interactive）：用戶每輸入一條命令，然後Shell立即執行一次； ②批處理（Batch）：由用戶實現編寫好一個完整的Shell腳本，Shell會一次性執行腳本中諸多的命令。查看系統可用的shell（/etc/shel ...
樹莓派--更換中國大陸地區軟體源

需要修改的地方有兩處: 配置完成後: 1.修改/etc/apt/sources.list或者直接修改原文件，把原有的配置全部註釋掉（使用#註釋）。 2.修改/etc/apt/sources.list.d/raspi.list 目前最新的樹莓派中國大陸地區的軟體源: 中國科學技術大學Raspbian ...
輸入輸出重定向、雙向重定向tee

簡單一句話概括："使用輸入重定向能把文件導入到命令中，而輸出重定向則是能夠把原本要輸出到屏幕的數據信息寫入到指定文件中" 重定向詳解：<https://www.cnblogs.com/chengmo/archive/2010/10/20/1855805.html> Linux啟動後，會預設打開3 ...
印表機驅動衝突和埠異常：win10更新部分補丁後，印表機本地連接（連接印表機的主機）可以列印，其他共用網路中的電腦可以連接到印表機，但不能列印——解決方案

一、問題描述： 1.A（WIN10系統）表示連接印表機的電腦，P表示印表機（型號：惠普127M），B（WIN7系統）表示區域網中的電腦 2.A升級後部分補丁後，A可以使用印表機P列印文件，B顯示可以連接到印表機，也可以推送文件到印表機，但是印表機並不工作二、處理過程中遇到的問題及解決方案： 1.B ...
.NET MVC 後臺接受base64的上傳圖片

1 #region 配合前端的多張圖片上傳 2 #region 上傳圖片方法 3 /// 4 /// 介面方法 5 /// 6 /// 帶 data:image/jpeg;base64,的base64的圖片 7 /// 圖片路徑 8 [HttpP... ...
深入學習Redis（1）：Redis記憶體模型

前言 Redis是目前最火爆的記憶體資料庫之一，通過在記憶體中讀寫數據，大大提高了讀寫速度，可以說Redis是實現網站高併發不可或缺的一部分。我們使用Redis時，會接觸Redis的5種對象類型（字元串、哈希、列表、集合、有序集合），豐富的類型是Redis相對於Memcached等的一大優勢。在瞭解R ...