千萬級別的表分頁查詢非常慢,怎麼辦?

来源:https://www.cnblogs.com/dxflqm/archive/2022/08/02/16544552.html
-Advertisement-
Play Games

一、問題復現 在實際的軟體系統開發過程中,隨著使用的用戶群體越來越多,表數據也會隨著時間的推移,單表的數據量會越來越大。 以訂單表為例,假如每天的訂單量在 4 萬左右,那麼一個月的訂單量就是 120 多萬,一年就是 1400 多萬,隨著年數的增加和單日下單量的增加,訂單表的數據量會越來越龐大,訂單數 ...


一、問題復現

在實際的軟體系統開發過程中,隨著使用的用戶群體越來越多,表數據也會隨著時間的推移,單表的數據量會越來越大。

以訂單表為例,假如每天的訂單量在 4 萬左右,那麼一個月的訂單量就是 120 多萬,一年就是 1400 多萬,隨著年數的增加和單日下單量的增加,訂單表的數據量會越來越龐大,訂單數據的查詢不會像最初那樣簡單快速,如果查詢關鍵欄位沒有走索引,會直接影響到用戶體驗,甚至會影響到服務是否能正常運行

下麵我以某個電商系統的客戶表為例,資料庫是 Mysql,數據體量在 100 萬以上,詳細介紹分頁查詢下,不同階段的查詢效率情況(訂單表的情況也是類似的,只不過它的數據體量比客戶表更大)。

下麵我們一起來測試一下,每次查詢客戶表時最多返回 100 條數據,不同的起始下,資料庫查詢性能的差異。

  • 當起點位置在 0 的時候,僅耗時:18 ms

  • 當起點位置在 1000 的時候,僅耗時:23 ms

  • 當起點位置在 10000 的時候,僅耗時:54 ms

  • 當起點位置在 100000 的時候,僅耗時:268 ms

  • 當起點位置在 500000 的時候,僅耗時:1.16 s

  • 當起點位置在 1000000 的時候,僅耗時:2.35 s

可以非常清晰的看出,隨著起點位置越大,分頁查詢效率成倍的下降,當起點位置在 1000000 以上的時候,對於百萬級數據體量的單表,查詢耗時基本上以秒為單位。

而事實上,一般查詢耗時超過 1 秒的 SQL 都被稱為慢 SQL,有的公司運維組要求的可能更加嚴格,比如小編我所在的公司,如果 SQL 的執行耗時超過 0.2s,也被稱為慢 SQL,必須在限定的時間內儘快優化,不然可能會影響服務的正常運行和用戶體驗

對於千萬級的單表數據查詢,小編我剛剛也使用了一下分頁查詢,起點位置在 10000000,也截圖給大家看看,查詢耗時結果:39 秒

沒有接觸過這麼大數據體量的同學,可能多少對這種查詢結果會感到吃驚,事實上,這還只是資料庫層面的耗時,還沒有算後端服務的處理鏈路時間,以及返回給前端的數據渲染時間,以百萬級的單表查詢為例,如果資料庫查詢耗時 1 秒,再經過後端的數據封裝處理,前端的數據渲染處理,以及網路傳輸時間,沒有異常的情況下,差不多在 3~4 秒之間,可能有些同學對這個請求時長數值還不太敏感。

據互聯網軟體用戶體驗報告,當平均請求耗時在1秒之內,用戶體驗是最佳的,此時的軟體也是用戶留存度最高的;2 秒之內,還勉強過的去,用戶能接受;當超過 3 秒,體驗會稍差;超過 5 秒,基本上會卸載當前軟體。

有的公司為了提升用戶體驗,會嚴格控制請求時長,當請求時長超過 3 秒,自動放棄請求,從而倒逼技術優化調整 SQL 語句查詢邏輯,甚至調整後端整體架構,比如引入緩存中間件 redis,搜索引擎 elasticSearch 等等。

繼續回到我們本文所需要探討的問題,當單表數據量到達百萬級的時候,查詢效率急劇下降,如何優化提升呢

二、解決方案

下麵我們一起來看看具體的解決辦法。

2.1、方案一:查詢的時候,只返回主鍵 ID

我們繼續回到上文給大家介紹的客戶表查詢,將select *改成select id,簡化返回的欄位,我們再來觀察一下查詢耗時。

  • 當起點位置在 100000 的時候,僅耗時:73 ms

  • 當起點位置在 500000 的時候,僅耗時:274 ms

  • 當起點位置在 1000000 的時候,僅耗時:471 ms

可以很清晰的看到,通過簡化返回的欄位,可以很顯著的成倍提升查詢效率

實際的操作思路就是先通過分頁查詢滿足條件的主鍵 ID,然後通過主鍵 ID 查詢部分數據,可以顯著提升查詢效果。

-- 先分頁查詢滿足條件的主鍵ID
select id from bizuser order by id limit 100000,10;

-- 再通過分頁查詢返回的ID,批量查詢數據
select * from bizuser where id in (1,2,3,4,.....);

2.2、方案二:查詢的時候,通過主鍵 ID 過濾

這種方案有一個要求就是主鍵ID,必須是數字類型,實踐的思路就是取上一次查詢結果的 ID 最大值,作為過濾條件,而且排序欄位必須是主鍵 ID,不然分頁排序順序會錯亂

  • 查詢 100000~1000100 區間段的數據,僅耗時:18 ms

  • 查詢 500000~5000100 區間段的數據,僅耗時:18 ms

  • 查詢 1000000~1000100 區間段的數據,僅耗時:18 ms

可以很清晰的看到,帶上主鍵 ID 作為過濾條件,查詢性能非常的穩定,基本上在20 ms內可以返回。

這種方案還是非常可行的,如果當前業務對排序要求不多,可以採用這種方案,性能也非常杠

但是如果當前業務對排序有要求,比如通過客戶最後修改時間、客戶最後下單時間、客戶最後下單金額等欄位來排序,那麼上面介紹的【方案一】,比【方案二】查詢效率更高

2.3、方案三:採用 elasticSearch 作為搜索引擎

當數據量越來越大的時候,尤其是出現分庫分表的資料庫,以上通過主鍵 ID 進行過濾查詢,效果可能會不盡人意,例如訂單數據的查詢,這個時候比較好的解決辦法就是將訂單數據存儲到 elasticSearch 中,通過 elasticSearch 實現快速分頁和搜索,效果提升也是非常明顯。

關於 elasticSearch 的玩法,之前有給大家介紹過具體的實踐,這裡不在過多撰書。

三、小結

不知道大家有沒有發現,上文中介紹的表主鍵 ID 都是數值類型的,之所以採用數字類型作為主鍵,是因為數字類型的欄位能很好的進行排序

但如果當前表的主鍵 ID 是字元串類型,比如 uuid 這種,就沒辦法實現這種排序特性,而且搜索性能也非常差,因此不建議大家採用 uuid 作為主鍵ID,具體的數值類型主鍵 ID 的生成方案有很多種,比如自增、雪花演算法等等,都能很好的滿足我們的需求。

本文主要圍繞大表分頁查詢性能問題,以及對應的解決方案做了簡單的介紹,如果有異議的地方,歡迎網友留言,一起討論學習!

如果想獲取更多的大資料庫相關的資料,可以關註下方二維碼,後臺回覆 【cccc】有我準備的一線程式必備電腦書籍、大廠面試資料和免費電子書,希望可以幫助大家提升技術和能力。


作者:程式員志哥
出處:www.pzblog.cn
資源:微信搜【Java極客技術】關註我,回覆 【cccc】有我準備的一線程式必備電腦書籍、大廠面試資料和免費電子書。 希望可以幫助大家提升技術和能力。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 蒼穹之邊,浩瀚之摯,眰恦之美; 悟心悟性,善始善終,惟善惟道! —— 朝槿《朝槿兮年說》 寫在開頭 我們都知道,經過多年的發展和無數Java開發者的不懈努力,Java已經由一門單純的電腦編程語言,逐漸演變成一套強大的以及仍在可持續發展中的技術體系平臺。 雖然,Java設計者們根據不同的技術規範,把 ...
  • 1. 登錄用戶數據獲取 登錄成功之後,在後續的業務邏輯中,開發者可能還需要獲取登錄成功的用戶對象,如果不使用任何安全管理框架,那麼可以將用戶信息保存在HttpSession中,以後需要的時候直接從HttpSession中獲取數據。在Spring Security中,用戶登錄信息本質上還是保存在 Ht ...
  • 24 類型標註 24.1 Python中的數據類型 在Python中有很多數據類型,比較常見如下所示: |整型 | 浮點型|字元串 | 列表|元組|字典|集合|布爾| | | | | | | | | | |int| float|str|list|tuple|dict|set|bool| 因Pytho ...
  • 目錄 一.簡介 二.效果演示 三.源碼下載 四.猜你喜歡 零基礎 OpenGL (ES) 學習路線推薦 : OpenGL (ES) 學習目錄 >> OpenGL ES 基礎 零基礎 OpenGL (ES) 學習路線推薦 : OpenGL (ES) 學習目錄 >> OpenGL ES 轉場 零基礎 O ...
  • 大家好,我是“良工說技術”。 今天給大家帶來的是springboot中的@ConditionalOnClass註解的用法。上次的@ConditionalOnBean註解還記得嗎? 一、@ConditionalOnClass註解初始 看下@CodidtionalOnClass註解的定義, 需要註意的有 ...
  • 一、緩存機制的原理 一個系統在面向用戶使用的時候,當用戶的數量不斷增多,那麼請求次數也會不斷增多,當請求次數增多的時候,就會造成請求壓力,而我們當前的所有數據查詢都是從資料庫MySQL中直接查詢的,那麼就可能會產生如下問題 ==頻繁訪問資料庫,資料庫訪問壓力大,系統性能下降,用戶體驗差== 解決問題 ...
  • 今天我們來講解leetcode案例分析,如何動態規劃的解題套路,態規劃的核心思想,以前經常會遇到動態規劃類型題目。 ...
  • SpringBoot 2.7.2 學習系列,本節內容快速體驗Spring Boot,帶大家瞭解它的基本使用、運行和打包。 Spring Boot 基於 Spring 框架,底層離不開 IoC、AoP 等核心思想。Spring 4.0 提供了基於 Java Config 的開發方式,Spring Bo ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...