MySQL分頁優化中的“INNER JOIN方式優化分頁演算法”到底在什麼情況下會生效?

来源:http://www.cnblogs.com/wy123/archive/2017/06/13/7003157.html
-Advertisement-
Play Games

本文出處:http://www.cnblogs.com/wy123/p/7003157.html 最近無意間看到一個MySQL分頁優化的測試案例,並沒有非常具體地說明測試場景的情況下,給出了一種經典的方案,因為現實中很多情況都不是固定不變的,能總結出來通用性的做法或者說是規律,是要考慮非常多的場景的 ...


 

本文出處:http://www.cnblogs.com/wy123/p/7003157.html 

 

最近無意間看到一個MySQL分頁優化的測試案例,並沒有非常具體地說明測試場景的情況下,給出了一種經典的方案,
因為現實中很多情況都不是固定不變的,能總結出來通用性的做法或者說是規律,是要考慮非常多的場景的,
同時,面對能夠達到優化的方式要追究其原因,同樣的做法,換了個場景,達不到優化效果的,還要追究其原因。
個人對此場景在不用情況表示懷疑,然後自己測試了一把,果然發現一些問題,同時也證實了一些預期的想法。
本文就MySQL分頁優化,從最最簡單的情況出發,來做一個簡單的分析。

另:本文測試環境是最最低配置的雲伺服器,相對來說伺服器硬體環境有限,不過對於不同的語句(寫法)應該是“平等的”

 

MySQL經典的分頁“優化”做法

MySQL分頁優化中,有一種經典的問題,在查詢越“靠後”的數據越慢(取決於表上的索引類型,對於B樹結構的索引,SQL Server中也一樣)
select * from t order by id limit m,n。
也即隨著M的增大,查詢同樣多的數據,會越來越慢
面對這一問題,於是就產生了一種經典的做法,類似於(或者變種)如下的寫法
就是先把分頁範圍內的id單獨找出來,然後再跟基表做關聯,最後查詢出來所需要的數據
select * from t
inner join (select id from t order by id limit m,n)t1 on t1.id = t.id

這種做法是不是總是生效的,或者說是在什麼情況下後者才能到達到優化的目的?有沒有做了改寫之後無效甚至變慢的情況?

 

 

與此同時,絕大多數查詢都是有篩選條件的,
如果有篩選條件的情況,
sql語句就變成了select * from t where *** order by id limit m,n
如果如法炮製,改寫成類似
select * from t
inner join (select id from t where *** order by id limit m,n )t1 on t1.id = t.id
在這種情況下,改寫後的sql語句還能達到優化的目的嗎?

 

 

測試環境搭建

  測試數據比較簡單,通過存儲過程迴圈寫入測試數據,測試表的InnoDB引擎表。

  

  這裡要註意的是日誌寫入模式一定要修改成sync_binlog = 0,否則預設情況下,500w數據,估計一天都寫不完,這個與日誌寫入模式有關,就不多說了,

 

 

分頁查詢優化的緣由

  首先還是先看一下這個經典的問題,分頁的時候,越“靠後”查詢相應越慢的情況

  測試一:查詢第1-20行的數據,0.01秒

  

  同樣是查詢20行數據,查詢相對“靠後”的數據,比如這裡的從4900001-4900020行數據的情況,用時1.97秒。

  

  從中可以看到,查詢條件不變的情況下,越往後查詢,查詢效率越低,可以簡單理解成:同樣搜索20行數據,越是靠後的數據,查詢代價越大。
  至於為什麼後一種效率較低,後面會慢慢分析。

  測試環境是centos 7 ,mysql 5.7,測試表的數據是500W

  

 

 

重現經典分頁“優化”,當沒有篩選條件,排序列為聚集索引的時候,並不會有所改善

這裡來日下兩種寫法在聚集索引列作為排序條件時候的性能
select * from t order by id limit m,n。
select * from t
inner join (select id from t order by id limit m,n)t1 on t1.id = t.id

 

  第一種寫法:

  select * from test_table1 order by id asc limit 4900000,20;測試結果見截圖,執行時間為8.31秒

第二種改寫後的寫法:

select t1.* from test_table1 t1
inner join (select id from test_table1 order by id limit 4900000,20)t2 on t1.id = t2.id;執行時間為8.43秒

這裡很清楚,通過經典的改寫方法改寫之後,性能能毫無提升,甚至還有一點點變慢了,
實際測試上表現為兩者在性能上並沒有明顯的線性差異,這兩者樓主是做了多次測試的。

我個人看到類似結論非要測一下不可的,這個東西不能靠蒙,或者靠運氣什麼的,能提高效率是為什麼,不能提高又是為什麼。

那麼為什麼改寫之後的寫法沒有像傳說中的那種提升性能?
是什麼導致當前這個改寫沒有到達提升性能的目的?
後者能夠提升性能的原理是什麼?

  首先看一下測試表的表結構,排序列上是有索引,這一點是沒有問題的,關鍵是這個排序列上的索引是主鍵(聚集索引)。

  

  為什麼排序列上是聚集索引的時候,相對“優化”改寫之後的sql並不能達到“優化”的目的?

在排序列為聚集索引列的情況下,兩者都是順序掃描表來實現查詢符合條件的數據的
後者雖然是先驅動一個子查詢,然後再用子查詢的結果驅動主表,
但是子查詢並沒有改變“順序掃描表來實現查詢符合條件的數據的”做法,但前情況下,甚至改寫後的做法顯得畫蛇添足

參考如下兩者執行計劃,第一個截圖的執行計劃的一行,與改寫後的sql的執行計劃的第三行(id =2 的那一行),基本上一樣。

  

  

 

當沒有篩選條件,排序列為聚集索引時候的分頁查詢,所謂的分頁查詢優化只不過是畫蛇添足

  目前來看,查詢上述數據,兩種方式都非常慢,那如果要查詢上述的數據,該如何做?
  還是要看為什麼慢,首先要理解B數的平衡性結構,在我自己粗略的理解來看,如下圖,
  當查詢的數據“靠後”的時候,實際上是偏離在B樹索引的一個方向,如下兩個截圖所示的目標數據
  其實平衡樹上的數據,沒有所謂的“考前”與“靠後”,“考前”與“靠後”都是相對於對方來說的,或者說是從掃描的方向上來看的
  從一個方向上看“靠後的”數據,從一個方向看就是“靠前的”,前後不是絕對的。

 

  如下兩個截圖是B樹索引結構的粗略表現形式,假如目標數據的位置固定的情況下,所謂的“靠後”是相對與從左向右來說的;

如果從右向左看,之前所謂靠後的數據實際上是“靠前”的。

  只要數據是靠前的,要高效低找到這部分數據,還是可以的。mysql中應該也有類似於sqlserver中的正向(forwarded)和反向掃描(backward)的做法。


  如果對於靠後的數據,採用反向掃描,應該就可以很快找到這個部分數據,然後對找到的數據在再次排序(asc),結果應該是一樣的,
  首先來看效果:結果跟上面的查詢一模一樣,這裡僅耗時0.07秒,之前的兩種寫法均超過了8秒,效率有上百倍的差距。

  

  至於這個是為什麼,我想根據上面的闡述,自己應該能夠體會的到,這裡附上這個sql。
  如果經常查詢所謂的靠後的數據,比如說Id較大的數據,或者說是時間維度上較新的數據,可以採用倒敘掃描索引的方式來實現高效分頁查詢

select* from
(
    select * from test_table1 order by id desc limit 99980,20
    
) t order by id;

 

 

 當沒有篩選條件,排序列為非聚集索引的時候,會有所改善

  這裡對測試表test_table1做出如下改變
  1,增加一個id_2列,
  2,該欄位上創建一個唯一索引,
  3,該欄位用對應的主鍵Id填充

  

  上面的測試是按照主鍵索引(聚集索引)來排序的,現在來按照非聚集索引排序,也即新增的這個列id_2來排序,測試一開始提到的兩種分頁方法。

  首先來看第一種寫法

  select * from test_table1 order by id_2 asc limit 4900000,20;執行時間為1分鐘多一點,暫且認其為60秒

  

  第二種寫法

select t1.* from test_table1 t1
inner join (select id from test_table1 order by id_2 limit 4900000,20)t2 on t1.id = t2.id;執行時間1.67秒

  

  從這種情況來看,也就是說排序列為非聚集索引列的時候,後一種寫法確實能大幅度地提升效率。差不多有40倍的提升。
  那麼原因在何呢?
  首先來看第一種寫法的執行計劃,可以簡單理解為這個sql的執行時做全表掃描之後,然後重新按照id_2排序,最後取最前20條數據。
  首先全表掃描就是一個非常耗時的過程,排序也是一個非常大的代價,因此表現為性能非常的低下。

   

  再來看後者的執行計劃,他是首先子子查詢中,按照id_2上的索引順序掃描,然後用符合條件的主鍵Id去表中查詢數據
  這樣的話,避免了查詢出來大量的數據然後重新排序(Using filesort)
  如果瞭解sqlserver執行計劃的情況下,後者與前者相比,應該還有避免了頻繁的回表(sqlserver中叫做key lookup或者書簽查找的過程
  可以認為是子查詢驅動外層表查詢符合條件的20條的數據的過程是一個批量的,一次性的。

  

  其實,只有在當前情況下,也就是說排序列為非聚集索引列的時候,改寫後的sql才能提升分頁查詢的效率。
  即便如此,此方式“優化”過的分頁語句,還是與如下寫法的分頁效率有比較大的差別的
  上面也看到了,返回同樣的數據,如下的查詢是0.07秒,比這裡的1.67秒還是高2個數量級的

select* from
(
    select * from test_table1 order by id desc limit 99980,20
    
) t order by id;

  另外一個,想提到的問題就是,如果經常性分頁查詢,還要按照某種順序,那麼為什麼不在這個列上建立一個聚集索引。
  比如語句自增Id的,或者時間+其他欄位確保唯一性的,mysql會在主鍵上自動創建聚集索引。
  然後有了聚集索引,“靠前”與“靠後”僅僅是一個相對的邏輯上的概念了,如果多數時候是想得到“靠後”或者較新的數據,就可以採用上述寫法,

 

當存在篩選條件的情況下,分頁查詢的優化

  這一部分想了想,情況太複雜了,很難概括出來一種非常具有代表性的案例,因此就不過多地做測試了。
  select * from t where *** order by id limit m,n
  1,比如刷選條件本身就很高效,一過濾出來僅剩下很少一部分數據,那麼改不改寫sql意義也不大,因為篩選條件本身就可以做到很高效的篩選
  2,比如刷選條件本身作用不大(過濾後數據量依然巨大),這種情況其實又回到了不存在篩選條件的情況,還有取決於如何排序,正序還是倒敘等等
  3,比如篩選條件本身作用不大(過濾後數據量依然巨大),要考慮的一個很實際的問題是數據分佈,
    數據的分佈也會影響的sql的執行效率(sqlserver中的經歷,mysql應該差別不大)
  4,本身查詢比較複雜的情況下,很難說用某種方式就可以達到高效的目的

  情況越複雜,越是難以總結出來一種通用性的規律或者說是方法,一切都要以具體情況來看待,很難下一個定論。
  這裡對於查詢加上篩選條件的情況,就不做一一分析了,不過可以肯定的是,脫離了實際場景,肯定沒有一個固化的方案。

 

  另外,對於查詢當前頁數據時候,利用上一頁查詢的最大值做篩選條件,也可以很快滴找到當前頁的數據,這樣當然沒有問題,但這屬於另外一個做法,不在本文討論之列。

 

總結

分頁查詢,越靠後越慢的情況,實則對於B樹索引來說,靠前與靠後是一個邏輯上相對的概念,性能上的差異,是基於B樹索引結構以及掃描方式有關的.
如果加上篩選條件,情況將變得更加複雜,這個問題在SQL Server中的原理也是一樣的,本來也在SQL Server中做了測試的,這裡就不重覆了。
當前這種情況,排序列不一定,查詢條件不一定,數據分佈不一定,就很難用一種特定的方法來實現“優化”,弄不好還起到畫蛇添足的副作用。
因此在做分頁優化的時候,一定要根據具體的場景來做分析,方法也不一定只有一種,脫離實際場景的結論,都是扯犢子。
唯有弄清楚這個問題的來龍去脈,才能游刃有餘。
因此個人對於數據“優化”的結論,一定是具體問題具體分析,是很忌諱總結出來一套規則(規則1,2,3,4,5)給人“套用”,鑒於本人也很菜,就更不敢總結出來一些教條了。

  

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • //獲得當前時間並且轉為字元串 //獲取當前時間轉為時間戳 //13位時間戳1469193006001(毫秒)轉 系統時間2016-08-11 08:55:36 如果只獲取當前的年月日,用NSDate 直接截取是不對的,以下方法提供了獲取當前的年月日等等 ...
  • 一般在使用RecyclerView的時候不免要修改RecyclerView的數據,使用notifyDataSetChanged()來刷新界面,但是當數據比較多,而只是修改了一點的數據,或者刷新比較頻繁,這樣就會導致界面的卡頓問題,用戶交互特別不好。 這個時候就需要只是修改需要修改的數據,不要將數據全 ...
  • 首先看一個API:setMaskFilter(MaskFilter maskfilter): 設置MaskFilter,可以用不同的MaskFilter實現濾鏡的效果,如濾化,立體等。 以下有兩個MaskFilter的子類可供選擇: BlurMaskFilter:指定了一個模糊的樣式和半徑來處理Pa ...
  • 微信小程式中不能直接操作window對象,document文檔,跟html的樹結構不相同。 實現類似導航的隱藏顯示,如圖效果: 點擊網路顯示或隱藏網路中包含的內容。其他類似。 如果是jquery很方便實現,能直接操作document。在微信小程式中實現思路是:在邏輯層定義變數,通過setData賦值 ...
  • 1、創建通知,最好在viewDidLoad的方法中創建 2、發送通知 3、移除通知,由那個控制器創建由那個控制器移除,誰創建誰移除,最好在dealloc方法中移除,如果通知不能及時的移除掉,當下次進入該控制器時會重覆創建NSNotificationCenter,在對應方法中發送通知給上一次創建的通知 ...
  • 多線程是程式開發中非常基礎的一個概念,大家在開發過程中應該或多或少用過相關的東西。同時這恰恰又是一個比較棘手的概念,一切跟多線程掛鉤的東西都會變得複雜。如果使用過程中對多線程不夠熟悉,很可能會埋下一些難以預料的坑。 iOS中的多線程技術主要有NSThread, GCD和NSOperation。他們的 ...
  • 今天博客中,我們就來實現一下一些常用資訊類App中常用的分類選擇的控制項的封裝。本篇博客中沒有使用到什麼新的技術點,如果非得說用到了什麼新的技術點的話,那麼勉強的說,用到了一些iOS9以後UICollectionView添加的一些新的特性。本篇博客所涉及的技術點主要有UICollectionView的 ...
  • 一、官網關於SQL SERVER Browser服務的解釋(谷歌翻譯後稍作修改的): https://docs.microsoft.com/en-us/sql/tools/configuration-manager/sql-server-browser-service 背景: 在SQL Server ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...