摘要:華為雲EI DTSE技術佈道師王躍,針對統計信息對於查詢優化器的重要性,GaussDB(DWS)最新版本的analyze當前能力,與開發者和伙伴朋友們展開交流互動,幫助開發者快速上手使用統計信息的自動收集功能。 在本期《統計信息大揭秘——SQL執行優化之密鑰》的主題直播中,我們邀請到華為雲EI ...
摘要:華為雲EI DTSE技術佈道師王躍,針對統計信息對於查詢優化器的重要性,GaussDB(DWS)最新版本的analyze當前能力,與開發者和伙伴朋友們展開交流互動,幫助開發者快速上手使用統計信息的自動收集功能。
在本期《統計信息大揭秘——SQL執行優化之密鑰》的主題直播中,我們邀請到華為雲EI DTSE技術佈道師王躍,針對統計信息對於查詢優化器的重要性,GaussDB(DWS)最新版本的analyze當前能力,與開發者和伙伴朋友們展開交流互動,幫助開發者快速上手使用統計信息的自動收集功能。
為何要重視統計信息收集?
現階段市場上的資料庫產品,基本上都是基於CBO模型的優化器,在基於CBO模型的優化器中,統計信息是生成最優執行計劃的前提,會直接影響到執行計劃的選擇,因此統計信息的及時收集是尤為重要的。
統計信息主要包括“描述表規模的表級統計信息”和“描述列數據特征的列級統計信息”兩部分內容。
王躍從統計數據在優化器中的運用這一角度,向我們展示了統計信息影響表達小估算的原理、進行等值比較、範圍比較、多條件、簡單JOIN代價估算的原理,進一步解釋了統計信息的重要性。
如何收集統計信息
王躍先帶我們簡單瞭解了GaussDB(DWS)的部署架構,說明瞭分散式查詢的執行流程和統計信息收集的執行流程。
基於此,GaussDB(DWS)共有五種統計信息收集的方法,分別是按庫收集、按表收集、按模式收集、按列收集以及多列組合。
GaussDB(DWS)擁有強大的統計信息自動收集能力,通過後臺線程輪詢收集與優化器同步收集兩種方式來實現。王躍建議開發者可以同步開啟兩種方式,以達到最優的收集功能。
此外,還強調了自動收集的閾值控制方法,同時對收集不及時,統計信息可能失效的場景,提出了一種統計信息推算的兜底策略。確保每個查詢都有及時有效的統計信息可用。保證了儘可能最優的執行性能。
華為雲數倉analyze能力
通過“基本功能”,“收集方式”,“準確性”,“可靠性”,“估算增強”,詳細的介紹了華為雲GaussDB(DWS)近年來在統計信息方面的持續耕耘和比較有亮點的特色功能。
GaussDB(DWS)在analyze的各個執行過程中都進行了精心打造。統計信息是基於對目標數據的採樣生成的,所以準確性才是統計信息的關鍵。
- 樣本數據能不能代表全表數據特征?
- 如何找到一個恰當的採樣大小,讓統計信息收集的又快又準?
- 不同存儲類型的表如何自適應的選取採樣模型?
- 記憶體不足時應該如何計算統計信息?
在採樣大小,採樣模型,計算模型等方面的深入投入,GaussDB(DWS)尋找出了這些問題的最佳答案。
最後給出了一鍵式統計信息自動收集的最優配置,讓用戶不再擔心統計信息忘記收集的煩惱,幫助開發者專註於自己業務領域,減少統計信息忘收集的困擾。
統計信息常見問題
我們知道了GaussDB(DWS)的統計信息自動收集功能很強大,那我們接下來更關心的是如何檢測它的使用效果,如何知道收集的進度和方式。
如何判斷統計信息是否失效,給用戶提供了三種簡單快速識別統計信息未收集的方法:
- 已知SQL執行慢,看是否有未收集統計信息的表;
- 批量作業執行慢,哪些SQL是沒收統計信息;
- 通過日誌查找歷史未收集統計信息的表。
analyze易運維,通過非常巧妙的方法,將analyze每一步的執行過程和運行模式,詳細的展示到活躍會話視圖和線程等待視圖,王躍也在最後列舉了一些使用者最常問到關於analyze的幾個TOP問題。
歡迎感興趣的開發者們收看我們的直播回放,瞭解更多~