聊聊分散式 SQL 資料庫Doris(七)

来源:https://www.cnblogs.com/zhiyong-ITNote/archive/2023/11/28/17861747.html
-Advertisement-
Play Games

LSM-Tree Doris的存儲結構是類似LSM-Tree設計的,因此很多方面都是通用的,先閱讀瞭解LSM相關的知識,再看Doris的底層存儲與讀取流程會清晰透徹很多,如下是幾個關鍵的設計: SSTable: Sorted Strings Table; 一般由一組數據block和一組元數據bloc ...


LSM-Tree

Doris的存儲結構是類似LSM-Tree設計的,因此很多方面都是通用的,先閱讀瞭解LSM相關的知識,再看Doris的底層存儲與讀取流程會清晰透徹很多,如下是幾個關鍵的設計:

SSTable: Sorted Strings Table; 一般由一組數據block和一組元數據block組成,數據是已序的。元數據會存儲數據block的描述信息,如索引、BloomFilter、壓縮、統計等信息。

MemTable: 記憶體里的表,有序且存儲在Buffer中;可以用多種數據結構來組織,一般是用跳錶(SkipList),也可以是有序數組或紅黑樹等二叉搜索樹;最後會被轉化成SSTable格式刷入磁碟持久化存儲。

Compaction: 合併壓縮SSTable。

參考:

LSM 樹設計原理

LSM Tree索引:高性能寫引擎

索引

官網文檔: 索引概述.

Doris內建的索引: 首碼索引(Short key Index)、ZoneMap索引,預設是根據建表時的key列生成的。

Doris 的數據存儲在類似 SSTable(Sorted String Table)的數據結構中。該結構是一種有序的數據結構,可以按照指定的列進行排序存儲。在這種數據結構上,以排序列作為條件進行查找,會非常的高效。

在 Aggregate、Unique 和 Duplicate 三種數據模型中。底層的數據存儲,是按照各自建表語句中,AGGREGATE KEY、UNIQUE KEY 和 DUPLICATE KEY 中指定的列進行排序存儲的。因此在此排序列的基礎上根據不同的場景構建內置的索引,提高查詢的性能與效率。

Duplicate、Aggregate、Unique 模型,都會在建表指定 key 列,然而實際上是有所區別的:對於 Duplicate 模型,表的key列, 可以認為只是 “排序列”,並非起到唯一標識的作用。而 Aggregate、Unique 模型這種聚合類型的表,key 列是兼顧 “排序列” 和 “唯一標識列”,是真正意義上的“ key 列”。

參考: Apache Doris 索引機制解析

Join

官網文檔: Doris Join 優化原理

概覽

Doris 支持兩種物理運算元,一類是 Hash Join,另一類是 Nest Loop Join。

Doris 支持 4 種數據 Shuffle 方式:

  1. BroadCast Join: 要求把右表全量的數據都發送到左表上,即每一個參與 Join 的節點,它都擁有右表全量的數據

  2. Shuffle Join: 只支持hash join場景(即等值匹配). 當進行 Hash Join 時候,可以通過 Join 列計算對應的 Hash 值,併進行 Hash 分桶,並將分桶後的數據分散到節點中進行計算

  3. Bucket Shuffle Join: 右表數據掃描出來之後進行數據分區的 Hash 計算,根據左表本身的數據分佈發送到右表對應的 Join 計算節點上。

  4. Colocation: 導入數據時,提前將join表的數據分散到一個節點

Runtime Filter

Doris 在進行 Hash Join 計算時會在右表構建一個哈希表,左表流式的通過右表的哈希表從而得出 Join 結果。而 RuntimeFilter 就是充分利用了右表的 Hash 表,在右表生成哈希表的時候,同時生成一個基於哈希表數據的一個過濾條件(Filter),然後下推到左表的數據掃描節點,通過這樣的方式,左表在運行時(Runtime)提前進行數據過濾,提高查詢效率。

Runtime Filter是分散式SQL查詢引擎框架通用的一種優化手段,具體可參考: Join優化技術之Runtime Filter.

Runtime Filter涉及到的下推技術同樣也是查詢引擎框架常用的優化手段; 常見的下推優化技術有:謂詞下推, 存儲層下推等。

Doris支持的三種類型RuntimeFilter:

  1. IN 的優點是過濾效果明顯,且快速。它的缺點首先第一個它只適用於 BroadCast,第二,它右表超過一定數據量的時候就失效了,當前 Doris 目前配置的是1024,即右表如果大於 1024,IN 的 Runtime Filter 就直接失效了,其餘的RuntimeFileter則沒有限制。
  2. MinMax 的優點是開銷比較小。它的缺點就是對數值列還有比較好的效果,但對於非數值列,基本上就沒什麼效果。
  3. Bloom Filter 的特點就是通用,適用於各種類型、效果也比較好。缺點就是它的配置比較複雜並且計算較高。

使用場景的要求:

  1. 第一個要求就是左表大右表小,因為構建 Runtime Filter是需要承擔計算成本的,包括一些記憶體的開銷。
  2. 第二個要求就是左右表 Join 出來的結果很少,說明這個 Join 可以過濾掉左表的絕大部分數據。

Join Reorder

Join Reorder 是指在執行SQL查詢時,決定多個表進行 join 的順序。它是資料庫查詢優化的一個重要方面,對查詢性能和效率有著重要的影響, 不同的 join order 對性能可能有數量級的影響。

從定義來看,其實就是尋找最短路徑(最優解)的過程,因此可以從演算法的角度考慮,比如動態規划算法與貪心演算法;同時也可以基於規則來做。

Doris中Join Reorder的實現是基於規則策略的,其規則定義如下:

  1. 讓大表、跟小表儘量做 Join,它生成的中間結果是儘可能小的。
  2. 把有條件的 Join 表往前放,也就是說儘量讓有條件的 Join 表進行過濾
  3. Hash Join 的優先順序高於 Nest Loop Join,因為 Hash join 本身是比 Nest Loop Join 快很多的。

Join Reorder 也是SQL查詢引擎框架通用的一種優化手段, 在PolarDB、TiDB、StarRocks等資料庫框架中都有涉及與應用。其實現與說明如下:

  1. TiDB Join Reorder 演算法簡介
  2. StarRocks Join Reorder 源碼解析
  3. PolarDB-X 優化器核心技術 ~ Join Reorder

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 引言 如題,在VS中如何調試 .Net 源碼呢? 一般來說,VS2022,都是預設啟用 F12 轉到定義能夠看到源碼,如果大家發現自己無法使用 F12 查看源碼,可以在 "工具" -> "選項" -> "文本編輯器" -> "C#" -> "高級" -> "轉到定義",勾選所有選項就對了。 但是光以 ...
  • SqlSugar是一個輕量級ORM框架,專門用於.NET平臺,可以簡化資料庫操作,提高開發效率。它支持多種資料庫,包括MySQL、SqlServer、Oracle等,提供了豐富的功能和靈活的配置選項。 下麵將詳細介紹SqlSugar的使用方法及其相比其他ORM框架的優點。 一、SqlSugar的安裝 ...
  • 3)搭建企業內部 Yum 倉庫 利用 HTTPD 搭建 企業內部私有倉庫。 [ 虛擬機演示:掛載一個新的 CD 光碟鏡像源 ] 1)CD 光碟 鏡像源 // `scandisk` 掃描新加的磁碟 echo '- - -' > /sys/class/scsi_host/host0/scan echo ...
  • 1、Linux文件系統結構 Linux:是一個單根倒樹狀的文件系統結構 Windows:是多根多樹狀的文件系統結構 文件系統從根目錄開始,表示為一個單獨的 ‘ / ’ 字元 文件命名大小寫敏感 路徑以 ‘ / ’ 為分隔 2、 Linux重要目錄 /root:超級用戶root的家目錄(用戶文件預設存 ...
  • 通過包管理器安裝 MySQL ubuntu安裝 MySQL 1、配置APT源 ubuntu自己的APT源裡面就有MySQL,以ubuntu2004為例,可以直接用相關源就行了,也可以導入MySQL的官方源。 阿裡雲鏡像源地址:https://developer.aliyun.com/mirror/ ...
  • Proj4:改進LiteOS中物理記憶體分配演算法 實驗目的 掌握LiteOS系統調用的自定義方法 實驗環境 Ubantu和IMX6ULL mini 實驗內容 (從代碼角度詳細描述實驗的步驟和過程) 原先代碼: 1 /* 2 3 * Description : find suitable free bl ...
  • 十二生肖狗年財運預測,你的財源滾滾來? 今年是狗年,按照中國傳統文化,狗年是一個財運井噴的年份。那麼,哪些生肖在這個狗年裡會財源滾滾呢?我們可以利用數據挖掘工具,通過API介面來獲取數據,對於不同生肖在狗年中的財運進行分析預測。 在本篇文章中,我們將使用挖數據平臺提供的API介面來獲取關於十二生肖狗 ...
  • SQL UNION運算符 SQL UNION運算符用於組合兩個或多個SELECT語句的結果集。 每個UNION中的SELECT語句必須具有相同數量的列。 列的數據類型也必須相似。 每個SELECT語句中的列也必須按照相同的順序排列。 UNION語法 SELECT column_name(s) FRO ...
一周排行
    -Advertisement-
    Play Games
  • 前言 微服務架構已經成為搭建高效、可擴展系統的關鍵技術之一,然而,現有許多微服務框架往往過於複雜,使得我們普通開發者難以快速上手並體驗到微服務帶了的便利。為瞭解決這一問題,於是作者精心打造了一款最接地氣的 .NET 微服務框架,幫助我們輕鬆構建和管理微服務應用。 本框架不僅支持 Consul 服務註 ...
  • 先看一下效果吧: 如果不會寫動畫或者懶得寫動畫,就直接交給Blend來做吧; 其實Blend操作起來很簡單,有點類似於在操作PS,我們只需要設置關鍵幀,滑鼠點來點去就可以了,Blend會自動幫我們生成我們想要的動畫效果. 第一步:要創建一個空的WPF項目 第二步:右鍵我們的項目,在最下方有一個,在B ...
  • Prism:框架介紹與安裝 什麼是Prism? Prism是一個用於在 WPF、Xamarin Form、Uno 平臺和 WinUI 中構建鬆散耦合、可維護和可測試的 XAML 應用程式框架 Github https://github.com/PrismLibrary/Prism NuGet htt ...
  • 在WPF中,屏幕上的所有內容,都是通過畫筆(Brush)畫上去的。如按鈕的背景色,邊框,文本框的前景和形狀填充。藉助畫筆,可以繪製頁面上的所有UI對象。不同畫筆具有不同類型的輸出( 如:某些畫筆使用純色繪製區域,其他畫筆使用漸變、圖案、圖像或繪圖)。 ...
  • 前言 嗨,大家好!推薦一個基於 .NET 8 的高併發微服務電商系統,涵蓋了商品、訂單、會員、服務、財務等50多種實用功能。 項目不僅使用了 .NET 8 的最新特性,還集成了AutoFac、DotLiquid、HangFire、Nlog、Jwt、LayUIAdmin、SqlSugar、MySQL、 ...
  • 本文主要介紹攝像頭(相機)如何採集數據,用於類似攝像頭本地顯示軟體,以及流媒體數據傳輸場景如傳屏、視訊會議等。 攝像頭採集有多種方案,如AForge.NET、WPFMediaKit、OpenCvSharp、EmguCv、DirectShow.NET、MediaCaptre(UWP),網上一些文章以及 ...
  • 前言 Seal-Report 是一款.NET 開源報表工具,擁有 1.4K Star。它提供了一個完整的框架,使用 C# 編寫,最新的版本採用的是 .NET 8.0 。 它能夠高效地從各種資料庫或 NoSQL 數據源生成日常報表,並支持執行複雜的報表任務。 其簡單易用的安裝過程和直觀的設計界面,我們 ...
  • 背景需求: 系統需要對接到XXX官方的API,但因此官方對接以及管理都十分嚴格。而本人部門的系統中包含諸多子系統,系統間為了穩定,程式間多數固定Token+特殊驗證進行調用,且後期還要提供給其他兄弟部門系統共同調用。 原則上:每套系統都必須單獨接入到官方,但官方的接入複雜,還要官方指定機構認證的證書 ...
  • 本文介紹下電腦設備關機的情況下如何通過網路喚醒設備,之前電源S狀態 電腦Power電源狀態- 唐宋元明清2188 - 博客園 (cnblogs.com) 有介紹過遠程喚醒設備,後面這倆天瞭解多了點所以單獨加個隨筆 設備關機的情況下,使用網路喚醒的前提條件: 1. 被喚醒設備需要支持這WakeOnL ...
  • 前言 大家好,推薦一個.NET 8.0 為核心,結合前端 Vue 框架,實現了前後端完全分離的設計理念。它不僅提供了強大的基礎功能支持,如許可權管理、代碼生成器等,還通過採用主流技術和最佳實踐,顯著降低了開發難度,加快了項目交付速度。 如果你需要一個高效的開發解決方案,本框架能幫助大家輕鬆應對挑戰,實 ...