GaussDB(for MySQL)剪枝功能,讓查詢性能提升70倍!

来源:https://www.cnblogs.com/huaweiyun/p/17994396
-Advertisement-
Play Games

作者,祝青平,華為雲資料庫內核高級工程師。擅長資料庫優化器內核研發,9年資料庫內核研發經驗,參與多個TP以及AP資料庫的研發工作。 近日,華為雲資料庫社區下麵有這樣一條用戶提問留言:請問,如何通過MySQL提升DISTINCT,尤其是多表連接下DISTINCT的查詢效率? 在回答這個問題之前,我們先 ...


作者,祝青平,華為雲資料庫內核高級工程師。擅長資料庫優化器內核研發,9年資料庫內核研發經驗,參與多個TP以及AP資料庫的研發工作。

近日,華為雲資料庫社區下麵有這樣一條用戶提問留言:請問,如何通過MySQL提升DISTINCT,尤其是多表連接下DISTINCT的查詢效率?

在回答這個問題之前,我們先瞭解一下DISTINCT。

在SQL語句中,DISTINCT關鍵詞用於返回唯一不同的值,使用場景多,應用頻繁。它可以用於做單列數據去重,例如,對公司雇員按照”first_name”去重後,得到1275條記錄。

cke_138.png

也可以做多列去重,即只有所有指定列的信息都相同時,才會被認為是重覆的信息,例如,對公司雇員按照”first_name”和”gender”兩列去重後得到2550條記錄。

cke_139.png

對於“多表連接+DISTINCT”場景,MySQL 8.0需要掃描表連接後的結果。當表連接數量多或基表數據量大時,掃描的數據量也會很大,會導致執行效率很低。如下示例,對7個表連接後的結果做DISTINCT,使用MySQL 8.0.30社區版本,執行耗時186秒,通過查看慢日誌信息,發現掃描了約4400萬行數據。

cke_140.png

cke_141.png

為了提升DISTINCT,尤其多表連接下DISTINCT的查詢效率,GaussDB(for MySQL)在執行優化器中加入了剪枝功能,可以去除不必要的掃描分支,節省查詢耗時。

GaussDB(for MySQL)剪枝方案

以下麵的SQL執行為例,表t1有4行數據1,2,5,6。執行如下多表連接+DISTINCT:

cke_142.png

表連接執行邏輯如下:

cke_143.png

上述例子中,在MySQL 8.0.30社區版本執行器需要掃描60行數據才能獲得結果集。找到滿足條件的唯一結果{i=1,j=2,k=5}後,不會停止本輪掃描,而是繼續掃描{i=1,j=5,k=1}及後續無用的數據,導致執行時間長。詳細的執行流程參見下圖:

cke_144.png

針對如上的多表連接+DISTINCT執行效率慢的問題,GaussDB(for MySQL)在火山模型的執行器上實現了提前減枝優化,當找到滿足的條件的DISTINCT值之後,通過全局變數判斷是否可以提前結束本輪迭代,並層層退出,大幅減少了掃描工作量。

以上述SQL為例,在掃描{1,1,1},{1,1,2},{1,1,5},{1,1,8},{1,2,1},{1,2,2},{1,2,5} 7組數據後,找到滿足DISTINCT 條件值 tt1.a "1",立即結束本輪迭代,並停止上一層迭代。該例子中只需要掃描28行數據就可獲得最終結果集,相比MySQL 8.0社區版本掃描60行,GaussDB(for MySQL)性能顯著提升。

cke_145.png

GaussDB(for MySQL)剪枝特性使用方法

打開特性開關:SET rds_nlj_distinct_optimize=ON;

通過”EXPLAIN FORMAT=TREE”查看特性是否生效,執行計劃中出現” join with distinct optimization”關鍵字說明特性生效,查詢過程中可進行減枝優化,提升多表JOIN+DISTINCT執行效率。

cke_146.png

cke_147.png

GaussDB(for MySQL)剪枝典型場景測試對比

前面提到的測試樣例中,GaussDB(for MySQL)執行耗時2.7秒完成,只需要掃描數據量約61萬行;相比MySQL 8.0 社區版本執行耗時約186秒,掃描數據量4400萬,執行耗時和掃描數據量減少近70倍,實現了執行效率飛躍式提升。如下圖所示:

cke_148.png

cke_149.png

因此,針對“多表連接+DISTINCT”的場景,GaussDB(for MySQL)在執行過程中動態剪枝,裁剪掉大量無用數據,減少執行過程中掃描數據量,是提升查詢效率的秘密武器。

總結:

以上通過對GaussDB(for MySQL)剪枝方案、剪枝特性使用方法、典型場景測試對比結果的詳細呈現,剖析了“多表連接+DISTINCT”場景中,GaussDB(for MySQL)大幅提升查詢效率的原因。如果對華為雲GaussDB(for MySQL)更多功能感興趣的話,可以查看官方產品文檔,瞭解更多:https://support.huaweicloud.com/gaussdbformysql/index.html

 

點擊關註,第一時間瞭解華為雲新鮮技術~


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • MySQL Shell 8.0.32 for GreatSQL編譯二進位包 構建MySQL Shell 8.0.32 for GreatSQL 0. 寫在前面 之前已經寫過一篇前傳 MySQL Shell 8.0.32 for GreatSQL編譯安裝,最近再次編譯MySQL Shell二進位包時, ...
  • 北京時間2024年2月20日,中國領先的開源技術公司,白鯨開源科技有限公司(以下簡稱"白鯨開源")榮幸宣佈,該公司獲得了第六屆 "年度金猿季大型主題策劃活動" 頒發的 "2023大數據產業年度最具投資價值" 獎項。這一殊榮是對白鯨開源在大數據領域取得的卓越成就和突出貢獻的認可。 金猿季推動產業升級 ...
  • 本文深度解析MySQL的COUNT(1), COUNT(*),COUNT(列)計數方式,強調COUNT(*)的廣泛應用與InnoDB存儲引擎的優化。通過性能比較,揭示COUNT(id)在索引下的性能,通過技術細節揭示MySQL查詢優化器的工作原理,最終總結適用場景,為讀者提供計數方式選擇的指導。 ...
  • 目錄MongoDB創建一張表用法示例資料分享系列文章clickhouse系列文章 MongoDB MongoDB 引擎是只讀表引擎,允許從遠程 MongoDB 集合中讀取數據(SELECT查詢)。引擎只支持非嵌套的數據類型。不支持 INSERT 查詢。 創建一張表 CREATE TABLE [IF ...
  • 工商銀行和華為雲牽頭,並聯合7家金融機構共同編製的《金融行業開放平臺資料庫轉型白皮書》榮獲2023年度十佳課題。 ...
  • 優秀的程式應該儘可能地規避問題。因此,以後在服務商系統里,當定義包含漢字的欄位時,使用 nvarchar2,而非 varchar2。 因此,在服務商系統作為我司系統的小眾系統的背景下,Oracle的技術特性我們不一一曉知是可以理解和接受的。而如何在不一一曉知這些技術特性的情況下,能夠規避這些技術特性... ...
  • 環境 MySQL 5.7 非GTID模式多線程複製。 現象 某MySQL資料庫從節點因故障宕機(因故障直接宕機,非正常關閉),重啟之後發現複製狀態異常,show slave的結果中Slave_SQL_Running為No,錯誤代碼為1062 error code,從系統表performance_sc ...
  • 一、為什麼要做診斷引擎 毓數平臺是奇富科技公司自主研發的一站式大數據管理、開發、分析平臺,覆蓋大數據資產管理、數據開發及任務調度、自助分析及可視化、統一指標管理等多個數據生命周期流程,讓用戶使用數據的同時,挖掘數據最大的價值。而毓數平臺的大數據任務調度底層是基於Apache DolphinSched ...
一周排行
    -Advertisement-
    Play Games
  • 1、預覽地址:http://139.155.137.144:9012 2、qq群:801913255 一、前言 隨著網路的發展,企業對於信息系統數據的保密工作愈發重視,不同身份、角色對於數據的訪問許可權都應該大相徑庭。 列如 1、不同登錄人員對一個數據列表的可見度是不一樣的,如數據列、數據行、數據按鈕 ...
  • 前言 上一篇文章寫瞭如何使用RabbitMQ做個簡單的發送郵件項目,然後評論也是比較多,也是準備去學習一下如何確保RabbitMQ的消息可靠性,但是由於時間原因,先來說說設計模式中的簡單工廠模式吧! 在瞭解簡單工廠模式之前,我們要知道C#是一款面向對象的高級程式語言。它有3大特性,封裝、繼承、多態。 ...
  • Nodify學習 一:介紹與使用 - 可樂_加冰 - 博客園 (cnblogs.com) Nodify學習 二:添加節點 - 可樂_加冰 - 博客園 (cnblogs.com) 介紹 Nodify是一個WPF基於節點的編輯器控制項,其中包含一系列節點、連接和連接器組件,旨在簡化構建基於節點的工具的過程 ...
  • 創建一個webapi項目做測試使用。 創建新控制器,搭建一個基礎框架,包括獲取當天日期、wiki的請求地址等 創建一個Http請求幫助類以及方法,用於獲取指定URL的信息 使用http請求訪問指定url,先運行一下,看看返回的內容。內容如圖右邊所示,實際上是一個Json數據。我們主要解析 大事記 部 ...
  • 最近在不少自媒體上看到有關.NET與C#的資訊與評價,感覺大家對.NET與C#還是不太瞭解,尤其是對2016年6月發佈的跨平臺.NET Core 1.0,更是知之甚少。在考慮一番之後,還是決定寫點東西總結一下,也回顧一下.NET的發展歷史。 首先,你沒看錯,.NET是跨平臺的,可以在Windows、 ...
  • Nodify學習 一:介紹與使用 - 可樂_加冰 - 博客園 (cnblogs.com) Nodify學習 二:添加節點 - 可樂_加冰 - 博客園 (cnblogs.com) 添加節點(nodes) 通過上一篇我們已經創建好了編輯器實例現在我們為編輯器添加一個節點 添加model和viewmode ...
  • 前言 資料庫併發,數據審計和軟刪除一直是數據持久化方面的經典問題。早些時候,這些工作需要手寫複雜的SQL或者通過存儲過程和觸發器實現。手寫複雜SQL對軟體可維護性構成了相當大的挑戰,隨著SQL字數的變多,用到的嵌套和複雜語法增加,可讀性和可維護性的難度是幾何級暴漲。因此如何在實現功能的同時控制這些S ...
  • 類型檢查和轉換:當你需要檢查對象是否為特定類型,並且希望在同一時間內將其轉換為那個類型時,模式匹配提供了一種更簡潔的方式來完成這一任務,避免了使用傳統的as和is操作符後還需要進行額外的null檢查。 複雜條件邏輯:在處理複雜的條件邏輯時,特別是涉及到多個條件和類型的情況下,使用模式匹配可以使代碼更 ...
  • 在日常開發中,我們經常需要和文件打交道,特別是桌面開發,有時候就會需要載入大批量的文件,而且可能還會存在部分文件缺失的情況,那麼如何才能快速的判斷文件是否存在呢?如果處理不當的,且文件數量比較多的時候,可能會造成卡頓等情況,進而影響程式的使用體驗。今天就以一個簡單的小例子,簡述兩種不同的判斷文件是否... ...
  • 前言 資料庫併發,數據審計和軟刪除一直是數據持久化方面的經典問題。早些時候,這些工作需要手寫複雜的SQL或者通過存儲過程和觸發器實現。手寫複雜SQL對軟體可維護性構成了相當大的挑戰,隨著SQL字數的變多,用到的嵌套和複雜語法增加,可讀性和可維護性的難度是幾何級暴漲。因此如何在實現功能的同時控制這些S ...