GaussDB(for MySQL)剪枝功能，讓查詢性能提升70倍！

-Advertisement-

作者，祝青平，華為雲資料庫內核高級工程師。擅長資料庫優化器內核研發，9年資料庫內核研發經驗，參與多個TP以及AP資料庫的研發工作。近日，華為雲資料庫社區下麵有這樣一條用戶提問留言：請問，如何通過MySQL提升DISTINCT，尤其是多表連接下DISTINCT的查詢效率？在回答這個問題之前，我們先 ...

作者，祝青平，華為雲資料庫內核高級工程師。擅長資料庫優化器內核研發，9年資料庫內核研發經驗，參與多個TP以及AP資料庫的研發工作。

近日，華為雲資料庫社區下麵有這樣一條用戶提問留言：請問，如何通過MySQL提升DISTINCT，尤其是多表連接下DISTINCT的查詢效率？

在回答這個問題之前，我們先瞭解一下DISTINCT。

在SQL語句中，DISTINCT關鍵詞用於返回唯一不同的值，使用場景多，應用頻繁。它可以用於做單列數據去重，例如，對公司雇員按照”first_name”去重後，得到1275條記錄。

也可以做多列去重，即只有所有指定列的信息都相同時，才會被認為是重覆的信息，例如，對公司雇員按照”first_name”和”gender”兩列去重後得到2550條記錄。

對於“多表連接+DISTINCT”場景，MySQL 8.0需要掃描表連接後的結果。當表連接數量多或基表數據量大時，掃描的數據量也會很大，會導致執行效率很低。如下示例，對7個表連接後的結果做DISTINCT，使用MySQL 8.0.30社區版本，執行耗時186秒，通過查看慢日誌信息，發現掃描了約4400萬行數據。

為了提升DISTINCT，尤其多表連接下DISTINCT的查詢效率，GaussDB(for MySQL)在執行優化器中加入了剪枝功能，可以去除不必要的掃描分支，節省查詢耗時。

GaussDB(for MySQL)剪枝方案

以下麵的SQL執行為例，表t1有4行數據1,2,5,6。執行如下多表連接+DISTINCT：

表連接執行邏輯如下：

上述例子中，在MySQL 8.0.30社區版本執行器需要掃描60行數據才能獲得結果集。找到滿足條件的唯一結果{i=1,j=2,k=5}後，不會停止本輪掃描，而是繼續掃描{i=1,j=5,k=1}及後續無用的數據，導致執行時間長。詳細的執行流程參見下圖：

針對如上的多表連接+DISTINCT執行效率慢的問題，GaussDB(for MySQL)在火山模型的執行器上實現了提前減枝優化，當找到滿足的條件的DISTINCT值之後，通過全局變數判斷是否可以提前結束本輪迭代，並層層退出，大幅減少了掃描工作量。

以上述SQL為例，在掃描{1,1,1},{1,1,2},{1,1,5},{1,1,8},{1,2,1},{1,2,2},{1,2,5} 7組數據後,找到滿足DISTINCT 條件值 tt1.a "1"，立即結束本輪迭代，並停止上一層迭代。該例子中只需要掃描28行數據就可獲得最終結果集，相比MySQL 8.0社區版本掃描60行，GaussDB(for MySQL)性能顯著提升。

GaussDB(for MySQL)剪枝特性使用方法

打開特性開關：SET rds_nlj_distinct_optimize=ON;

通過”EXPLAIN FORMAT=TREE”查看特性是否生效，執行計劃中出現” join with distinct optimization”關鍵字說明特性生效，查詢過程中可進行減枝優化，提升多表JOIN+DISTINCT執行效率。

GaussDB(for MySQL)剪枝典型場景測試對比

前面提到的測試樣例中，GaussDB(for MySQL)執行耗時2.7秒完成，只需要掃描數據量約61萬行；相比MySQL 8.0 社區版本執行耗時約186秒，掃描數據量4400萬，執行耗時和掃描數據量減少近70倍，實現了執行效率飛躍式提升。如下圖所示：

因此，針對“多表連接+DISTINCT”的場景，GaussDB(for MySQL)在執行過程中動態剪枝，裁剪掉大量無用數據，減少執行過程中掃描數據量，是提升查詢效率的秘密武器。

總結：

以上通過對GaussDB(for MySQL)剪枝方案、剪枝特性使用方法、典型場景測試對比結果的詳細呈現，剖析了“多表連接+DISTINCT”場景中，GaussDB(for MySQL)大幅提升查詢效率的原因。如果對華為雲GaussDB(for MySQL)更多功能感興趣的話，可以查看官方產品文檔，瞭解更多：https://support.huaweicloud.com/gaussdbformysql/index.html

點擊關註，第一時間瞭解華為雲新鮮技術~

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

最新版Emlog採集發佈插件-免費下載

MySQL Shell 8.0.32 for GreatSQL編譯二進位包構建MySQL Shell 8.0.32 for GreatSQL 0. 寫在前面之前已經寫過一篇前傳 MySQL Shell 8.0.32 for GreatSQL編譯安裝，最近再次編譯MySQL Shell二進位包時， ...
白鯨開源榮膺2023年度大數據產業最具投資價值企業獎項

北京時間2024年2月20日，中國領先的開源技術公司，白鯨開源科技有限公司（以下簡稱"白鯨開源"）榮幸宣佈，該公司獲得了第六屆 "年度金猿季大型主題策劃活動" 頒發的 "2023大數據產業年度最具投資價值" 獎項。這一殊榮是對白鯨開源在大數據領域取得的卓越成就和突出貢獻的認可。金猿季推動產業升級 ...
面試官：請說一下Mysql中count(1)、count(*)以及count(列)的區別？

本文深度解析MySQL的COUNT(1), COUNT(*),COUNT(列)計數方式，強調COUNT(*)的廣泛應用與InnoDB存儲引擎的優化。通過性能比較，揭示COUNT(id)在索引下的性能，通過技術細節揭示MySQL查詢優化器的工作原理，最終總結適用場景，為讀者提供計數方式選擇的指導。 ...
ClickHouse(24)ClickHouse集成mongodb表引擎詳細解析

目錄MongoDB創建一張表用法示例資料分享系列文章clickhouse系列文章 MongoDB MongoDB 引擎是只讀表引擎，允許從遠程 MongoDB 集合中讀取數據(SELECT查詢)。引擎只支持非嵌套的數據類型。不支持 INSERT 查詢。創建一張表 CREATE TABLE [IF ...
MongoDB 7.0 搭建 Sharding 副本集群

工商銀行和華為雲牽頭，並聯合7家金融機構共同編製的《金融行業開放平臺資料庫轉型白皮書》榮獲2023年度十佳課題。 ...
不能坐視了！Oracle資料庫varchar2欄位擴容，每月總有那麼一兩次。----- 優秀的程式應總是儘可能地規避問題

優秀的程式應該儘可能地規避問題。因此，以後在服務商系統里，當定義包含漢字的欄位時，使用 nvarchar2，而非 varchar2。因此，在服務商系統作為我司系統的小眾系統的背景下，Oracle的技術特性我們不一一曉知是可以理解和接受的。而如何在不一一曉知這些技術特性的情況下，能夠規避這些技術特性... ...
記一次MySQL從節點伺服器宕機重啟後，從節點出現主鍵衝突異常的處理

環境 MySQL 5.7 非GTID模式多線程複製。現象某MySQL資料庫從節點因故障宕機（因故障直接宕機，非正常關閉），重啟之後發現複製狀態異常，show slave的結果中Slave_SQL_Running為No，錯誤代碼為1062 error code，從系統表performance_sc ...
奇富科技：大數據任務從診斷到自愈的實踐之路

一、為什麼要做診斷引擎毓數平臺是奇富科技公司自主研發的一站式大數據管理、開發、分析平臺，覆蓋大數據資產管理、數據開發及任務調度、自助分析及可視化、統一指標管理等多個數據生命周期流程，讓用戶使用數據的同時，挖掘數據最大的價值。而毓數平臺的大數據任務調度底層是基於Apache DolphinSched ...