聊聊分散式 SQL 資料庫Doris(九)

来源:https://www.cnblogs.com/zhiyong-ITNote/archive/2023/11/30/17866425.html
-Advertisement-
Play Games

優化器的作用是優化查詢語句的執行效率,它通過評估不同的執行計劃並選擇最優的執行計劃來實現這一目標。 CBO: 一種基於成本的優化器,它通過評估不同查詢執行計劃的成本來選擇最優的執行計劃。CBO會根據資料庫系統定義的統計信息以及其他因素,對不同的執行計划進行評估,並選擇成本最低的執行計劃。CBO的目標 ...


優化器的作用是優化查詢語句的執行效率,它通過評估不同的執行計劃並選擇最優的執行計劃來實現這一目標。

CBO: 一種基於成本的優化器,它通過評估不同查詢執行計劃的成本來選擇最優的執行計劃。CBO會根據資料庫系統定義的統計信息以及其他因素,對不同的執行計划進行評估,並選擇成本最低的執行計劃。CBO的目標是找到一個最優的執行計劃,使得查詢的執行成本最低。

RBO: 一種基於規則的優化器,它通過應用一系列的優化規則來選擇最優的執行計劃。RBO會根據預定義的規則對查詢進行優化,這些規則基於資料庫系統的特定邏輯和語義。RBO的優點是實現簡單,適用於特定的查詢模式和數據分佈。然而,RBO可能無法找到最優的執行計劃,特別是對於複雜的查詢和大規模的數據集。

Doris主要整合了Google Mesa(數據模型),Apache Impala(MPP查詢引擎)和Apache ORCFile (存儲格式,編碼和壓縮) 的技術。 Doris的查詢優化器則是基於Impala改造實現的。Doris官方提供的 Nereids優化器 文檔。

優化器組件

查詢優化器由多個部分組成,分別是: 詞法語法解析、語義解析、query改寫、生成執行計劃。最後這步根據演算法實現與業務場景的不同會有些許差異。

詞法語法解析

這個步驟,其實是做兩件事情,首先是解析SQL文本,提取關鍵字出來,比如(select、from等); 然後分析SQL文本是否滿足SQL語法,最終生成一個AST樹。其結構如下:

1.png

對於不同類型的SQL,其語法樹的根節點類型也是不一樣的。一般是InsertStmt、UpdateStmt、DeleteStmt、SelectStmt等。而這些概念其實是impala中的,Doris的SQL查詢引擎是參考自impala。在其源碼中有這麼一段註釋:

2.png

Impala是用於處理存儲在Hadoop集群中的大量數據的MPP(大規模並行處理)sql查詢引擎。 它是一個用C ++和Java編寫的開源軟體。 與其他Hadoop的SQL引擎相比,它提供了高性能和低延遲。其相關信息及文檔可參考: impala中文手冊

語義解析

根據AST樹與元數據中的表、列信息等做一個語義校驗,比如,表、欄位是否在元數據中存在。其步驟一般如下:

3.png

query改寫

對原始的sql文本做一定程度的改寫使得SQL更簡單,執行效率更高;一般是條件表達式改寫、子查詢改寫等。

在Doris中,有一個介面 ExprRewriteRule 負責表達式的改寫規則,基於該介面與各種不同的規則有不同的實現,在 Analyzer類的內部類 GlobalState 構造函數中,註冊了諸多的規則到rules集合中,而該list會被傳遞到ExprRewriter類中被應用。

StmtRewriter 類處理子查詢改寫邏輯,其中的方法會處理各種場景下的子查詢改寫,比如rewriteSelectStatement方法.

這一步驟的處理是基於詞法語法解析後生成的AST樹進行的。

public class GlobalState(Env env, ConnectContext context) {
    this.env = env;
    this.context = context;
    List<ExprRewriteRule> rules = Lists.newArrayList();
    // BetweenPredicates must be rewritten to be executable. Other non-essential
    // expr rewrites can be disabled via a query option. When rewrites are enabled
    // BetweenPredicates should be rewritten first to help trigger other rules.
    rules.add(BetweenToCompoundRule.INSTANCE);
    // Binary predicates must be rewritten to a canonical form for both predicate
    // pushdown and Parquet row group pruning based on min/max statistics.
    rules.add(NormalizeBinaryPredicatesRule.INSTANCE);
    // Put it after NormalizeBinaryPredicatesRule, make sure slotRef is on the left and Literal is on the right.
    rules.add(RewriteBinaryPredicatesRule.INSTANCE);
    rules.add(RewriteImplicitCastRule.INSTANCE);
    rules.add(RoundLiteralInBinaryPredicatesRule.INSTANCE);
    rules.add(FoldConstantsRule.INSTANCE);
    rules.add(EraseRedundantCastExpr.INSTANCE);
    rules.add(RewriteFromUnixTimeRule.INSTANCE);
    rules.add(CompoundPredicateWriteRule.INSTANCE);
    rules.add(RewriteDateLiteralRule.INSTANCE);
    rules.add(RewriteEncryptKeyRule.INSTANCE);
    rules.add(RewriteInPredicateRule.INSTANCE);
    rules.add(RewriteAliasFunctionRule.INSTANCE);
    rules.add(RewriteIsNullIsNotNullRule.INSTANCE);
    rules.add(MatchPredicateRule.INSTANCE);
    rules.add(EliminateUnnecessaryFunctions.INSTANCE);
    List<ExprRewriteRule> onceRules = Lists.newArrayList();
    onceRules.add(ExtractCommonFactorsRule.INSTANCE);
    onceRules.add(InferFiltersRule.INSTANCE);
    exprRewriter = new ExprRewriter(rules, onceRules);
    // init mv rewriter
    List<ExprRewriteRule> mvRewriteRules = Lists.newArrayList();
    mvRewriteRules.add(new ExprToSlotRefRule());
    mvRewriteRules.add(ToBitmapToSlotRefRule.INSTANCE);
    mvRewriteRules.add(CountDistinctToBitmapOrHLLRule.INSTANCE);
    mvRewriteRules.add(CountDistinctToBitmap.INSTANCE);
    mvRewriteRules.add(NDVToHll.INSTANCE);
    mvRewriteRules.add(HLLHashToSlotRefRule.INSTANCE);
    mvExprRewriter = new ExprRewriter(mvRewriteRules);

    // context maybe null. eg, for StreamLoadPlanner.
    // and autoBroadcastJoinThreshold is only used for Query's DistributedPlanner.
    // so it is ok to not set autoBroadcastJoinThreshold if context is null
    if (context != null) {
        // compute max exec mem could be used for broadcast join
        long perNodeMemLimit = context.getSessionVariable().getMaxExecMemByte();
        double autoBroadcastJoinThresholdPercentage = context.getSessionVariable().autoBroadcastJoinThreshold;
        if (autoBroadcastJoinThresholdPercentage > 1) {
            autoBroadcastJoinThresholdPercentage = 1.0;
        } else if (autoBroadcastJoinThresholdPercentage <= 0) {
            autoBroadcastJoinThresholdPercentage = -1.0;
        }
        autoBroadcastJoinThreshold = (long) (perNodeMemLimit * autoBroadcastJoinThresholdPercentage);
    } else {
        // autoBroadcastJoinThreshold is a "final" field, must set an initial value for it
        autoBroadcastJoinThreshold = 0;
    }
}

單機執行計劃

這一過程會生成PlanNodeTree,一般用於處理Join Reorder場景下的join調優與謂詞下推等下推優化。

SingleNodePlanner類用於生成單擊執行計劃,該類其實也是基於impala框架改寫適用於Doris的。在這個類中,除了謂詞下推與join reorder外,還有類似列裁剪之類的優化,都在這個類中有處理。

4.png

分散式執行計劃

DistributedPlanner類負責分散式執行計劃的優化,其中會處理Join場景下的分散式執行,選擇最優的Join執行路徑;其次就是Agg聚合函數的分散式執行邏輯,Agg會分兩步執行,先會在local本地scan,然後再Agg Node上在做一次scan聚合;當然還有一些運算元需要做分散式邏輯執行優化. 都可以在這個類中找到。當然這個類也是基於impala框架改寫的。

如下是AggNode的分散式執行計劃優化:

5.png

總結

Doris的很多設計,其實都是有據可依,參考借鑒已有的框架/論文,再依據實際的業務場景做改寫;這也正是我們要學習瞭解的東西,通過一個點,然後鋪開去瞭解學習相關的其他點,慢慢的串聯起來形成面。查詢優化器結合如下博客再加上自己去閱讀一下代碼,對整個脈絡及機制就算是掌握了。

聊聊分散式 SQL 資料庫Doris(五) 這是之前寫的對查詢優化器相關的一些知識普及.

查詢優化器詳解 Doris團隊針對查詢優化器的視頻講解.

Doris SQL 原理解析 小米工程師寫的,更深入的剖析.


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 在我們之前的開發框架中,往往都是為了方便,對附件的管理都會進行一些簡單的封裝,目的是為了方便快速的使用,並達到統一界面的效果,本篇隨筆介紹我們基於SqlSugar開發框架的WPF應用端,對於附件展示和控制項的一些封裝處理界面效果,供大家參考斧正。 ...
  • 簡介 在C#中可以使用out關鍵字,指定所給的參數是一個輸出參數。out關鍵字的使用方式與ref關鍵字相同,都是在函數定義和函數調用中用作參數的修飾符。 一個使用out關鍵字的例子 internal class Program { static void Main(string[] args) { ...
  • 值參數(Value Parameters) 1、傳遞的是參數的值(數據的副本)而不是原始數據本身。 2、函數內部對值參數的修改不會影響到原始數據。 3、通常用於傳遞基本數據類型(如整數、浮點數、布爾值)或不可變對象(如字元串、元組)。 4、值參數的傳遞是一種傳值調用(Call by Value)。 ...
  • 通過包管理器安裝 MySQL ubuntu安裝 MySQL 1、配置APT源 ubuntu自己的APT源裡面就有MySQL,以ubuntu2004為例,可以直接用相關源就行了,也可以導入MySQL的官方源。 阿裡雲鏡像源地址:https://developer.aliyun.com/mirror/ ...
  • 在Linux伺服器上查詢進程,有以下幾種方法: 使用ps命令。這個命令用於報告當前系統的進程狀態。可以用以下方式使用ps命令來查看進程信息: ps aux:顯示系統中所有進程的信息。 ps -e:顯示所有進程的信息。 ps -f:顯示進程的所有信息。 ps -l:以長格式顯示進程信息。 ps -r: ...
  • SQL SELECT INTO 語句 SELECT INTO 語句將數據從一個表複製到一個新表中。 SELECT INTO 語法 將所有列複製到新表中: SELECT * INTO newtable [IN externaldb] FROM oldtable WHERE condition; 只複製 ...
  • 本文分享自華為雲社區《GaussDB(DWS)性能調優:常量標量子查詢做全連接導致整體慢》,作者: Zawami 。 問題描述 由於SQL中存在標量子查詢同另一查詢做笛卡爾積使SQL整體慢。標量子查詢,即結果集只有一行一列的子查詢。這裡導致的SQL語句執行慢不只是在於做笛卡爾積慢,也會使後續聚合更慢 ...
  • MySQL Shell如何接管手動搭建(含仲裁節點)MGR集群 本文源自GreatSQL社區用戶的一次提問: Q:一個包含仲裁節點(ARBITRATOR)的GreatSQL MGR集群,一開始是用手動方式構建,後來想用MySQL Shell接管,可以嗎? A:是可以的,不過也有一定局限性 具體的操作 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...