看這篇就夠了丨基於Calcite框架的SQL語法擴展探索

来源:https://www.cnblogs.com/DTinsight/archive/2023/01/12/17047171.html
-Advertisement-
Play Games

Calcite在大數據系統中有著廣泛的運用, 比如Apache Flink, Apache Drill等都大量使用了Calcite,理解Calcite的原理可以說已經成為理解大數據系統中SQL訪問層實現原理的必備條件之一。 但是不少人在學習Calcite的過程中都發現關於Calcite的實踐案例其實 ...


Calcite在大數據系統中有著廣泛的運用, 比如Apache Flink, Apache Drill等都大量使用了Calcite,理解Calcite的原理可以說已經成為理解大數據系統中SQL訪問層實現原理的必備條件之一。

但是不少人在學習Calcite的過程中都發現關於Calcite的實踐案例其實很少,本文就將為大家詳細介紹如何基於Calcite框架的SQL語法擴展探索使之更符合你的業務需求,以及擴展SQL在數棧產品的應用實踐。

Calcite介紹及用途

Calcite介紹

Apache Calcite是一個動態的數據管理框架,本身不涉及任何物理存儲信息,而是專註在SQL解析、基於關係代數的查詢優化,通過擴展方式來對接底層存儲。

目前Apache Calcite被應用在廣泛的數據開源系統中,比如Apache Hive、Apache Phoenix、Apache Flink等。

file

Calcite的用途

Calcite提供了ANSI標準SQL的解析,以及各種SQL 方言,針對來自於不同數據源的複雜SQL,在Calcite中會把SQL解析成SqlNode語法樹結構,然後根據得到的語法樹轉換成自定義Node,通過自定義Node解析獲取到表的欄位信息、以及表信息、血緣等相關信息。

下圖展示了一部分對外提供的介面信息:

file

sqlparser 解析模塊主要提供了以下幾種功能 :

• 解析SQL包含的所有表、欄位信息

• 解析SQL的udf函數

• 解析SQL的血緣信息,包括表級血緣、欄位血緣

• 解析自定義SqlNode

• api服務變數解析替換

SQL語法擴展

瞭解完Calcite是什麼以及用途後,下麵為大家分享Calcite SQL語法擴展的相關內容。

SQL語法擴展背景

在 sqlparser 中進行sql解析的場景中,有兩種情況需要使用到自定義擴展,一是Calcite不支持的一些語法;二是在一些場景中存在sql中帶有${var}自定義變數語法。

那麼針對上面的這兩種情況,Calcite的自定義擴展是如何實現的呢?自定義擴展主要涉及到以下三個文件:

• Parser.jj:Parser.jj是一個Calcite核心的語法和詞法文件,基於Apache FreeMaker模版,該模版包含著變數,這些變數在編譯時可以被替換

• parserImpl.ftl:提供自定義SQL語句、literals、dataType的實現方法

• config.fmpp:該文件是FMPP的配置文件,提供了SQL語句、literals、dataType的介面擴展入口

Calcite使用javacc作為語法解析器,freemaker作為模版,把parserImpls.ftl、config.fmpp、Parser.jj模版合成最終的語法詞法文件,最終通過javacc編譯成自定義的解析器源碼,整體流程如下圖所示:

file

擴展SQL實現

● 工程目錄

file

● 擴展sql實現案例

支持以下limit相關語法以及數字可以寫成${var}形式:

-> limit count, limit start count

-> limit count offset start

-> offset start limit count

在原生的Calcite解析是支持limit count語法的,但是由於返回SqlOrderBy對象內部類Operator的unparse方法在SQL輸出過程中對原始SQL進行了改寫,因此需要使用擴展SQL得到正確的SQL。

下麵介紹一個limit offset語法擴展樣例,擴展SQL如下:

select id, name from test where id > 3 order by id desc limit 1 offset ${offset_val}

整體流程如下:

01

Parser.jj 定義${var}變數的token詞法DOLLAR_VARIABLE:

file
02

Parser.jj 擴展的變數方法接入,下麵方法會在解析到limit、offset關鍵字後面的一個詞時進行調用:

file
03

Parser.jj limit offset在select語法的核心處理邏輯:

-> 定義變數

file
主要定義了三個boolean類型的變數,isOffsetLimit表示offset limit 語法,isLimitOffset表示limit offset語法,isOnlyLimit表示limit count、limit start count語法。

-> 定義處理邏輯

file

-> 返回自定義SqlNode

file
針對符合上面的三個boolean條件時,使用自定義ExtendSqlOrderBy的擴展類。

04

parserImpl.ftl 定義擴展的SqlNode ExtendDollarVariable:

file
05

config.fmpp 定義包以及擴展實現類的import:

file
06

擴展SqlNode實現:

-> 變數實現sqlNode

file

-> 擴展limit實現類ExtendSqlOrderBy,該類實現了SqlOrderBy,併在此基礎擴展了limit的SqlNode,以及isOffsetLimit、isLimitOffset、isOnlyLimit三個boolean標識limit的不同語法

file
file

通過上面的這些步驟後,最後解析生成的SqlNode語法樹如下所示:

file

擴展SQL在數棧的應用

目前袋鼠雲的底層sqlparser sql解析涉及的子產品應用包括API數據服務離線開發客戶數據洞察(標簽)實時開發等,雖然大部分針對Calcite的SQL語法擴展相對於上層的產品應用感知不是很明顯,但是擴展SQL還是解決了一些痛點,主要如下:

• 逐漸替換底層採用了多種解析工具解析的情況,使維護更簡單,減少bug的產生

• 解決一些不支持的語法,避免在上層業務層做處理或者在底層做一些特殊處理

以在API數據服務後續接入的like語法改造為例為大家進行分享,目前的API數據服務中支持like ${var}語法,在執行測試中通過傳遞like語法來確定執行的模糊匹配方式,例如%xx、xx%、%xx%。

收到客戶提出的優化like語法場景,袋鼠雲本著客戶第一的原則,這種合理的優化需求是採納的。SQL支持like%${var}、${var}%、%${var}%,這樣在執行測試中就不需要輸入%了,目前擴展SQL語法已經支持這種優化的like語法,預計在2023年上半年會接入進去,下麵通過API數據服務展示當前like SQL和擴展後的SQL差異:

● 當前like ${var}處理

-> 生成API

file

-> 測試執行,模糊匹配需要輸入%

file

● 擴展like %${var}%

-> 生成API

file

-> 測試執行,由於在SQL階段已經寫了模糊匹配方式,因此可以直接輸入值

file

總結規劃

相信通過上面的案例後,大家對於Calcite擴展SQL語法的流程應該有了大致的瞭解,目前在袋鼠雲的業務場景中已經擴展了許多語法,在未來還有一些工作需要進行優化:

• 豐富SQL語法,實現不同數據源擴展SQL語法的隔離

• 逐漸通過SQL語法擴展替換掉底層Calcite和druid共同解析的場景,避免維護多套相同的解析,減少線上問題產生

最後如果是初步接觸Calcite SQL語法擴展的同學們,建議先熟悉javacc語法。

地址:https://javacc.github.io/javacc/

想瞭解或咨詢更多有關袋鼠雲大數據產品、行業解決方案、客戶案例的朋友,瀏覽袋鼠雲官網:https://www.dtstack.com/?src=szbky

同時,歡迎對大數據開源項目有興趣的同學加入「袋鼠雲開源框架釘釘技術qun」,交流最新開源技術信息,qun號碼:30537511,項目地址:https://github.com/DTStack


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 假設要在centos7.6防火牆上開啟443埠 前言:文章內容可能會因環境不同而有所差異,所謂集思廣益說不定靈感就來了呢; 文章初衷旨在交流學習、記錄個人成長,如果能幫助到您,那就點個贊噢。 1、查看防火牆是否開啟,如果沒有開啟防火牆,預設開放所有埠。 註意:如果是生產環境有業務在運行,開啟防火 ...
  • 簡述 本篇文章主要介紹如何使用 CloudCanal 構建一條 Oracle 到 PostgreSQL 的數據同步鏈路 技術要點 縮小的資料庫許可權要求 CloudCanal 對 Oracle 資料庫的高許可權要求,主要來自兩個面向 DBA 的操作,自動構建字典和 自動切換歸檔日誌,這兩個操作主要是讓用 ...
  • 在表數據量很大的時候直接添加欄位,以及其他表結構修改,會嚴重影響線上使用,而且耗費時間很長;使用這個工具可以很好的線上修改表結構。 好處: 降低主從延時的風險 可以限速、限資源,避免操作時MySQL負載過高 建議: 在業務低峰期做,將影響降到最低 直接原表修改缺點: 當表的數據量很大的時候,如果直接 ...
  • 用通配符進行過濾 LIKE操作符 通配符(wildcard) 用來匹配值的一部分的特殊字元。 搜索模式(search pattern) 由字面值、通配符或兩者組合構成的搜索條件。 搜索子句中使用通配符,必須使用LIKE操作符。LIKE指示MySQL,後跟的搜索模式利用通配符匹配而不是直接相等匹配進行 ...
  • 摘要:華為雲FusionInsight MRS HetuEngine持續提升自助用數分析平臺的可服務、易運維能力,基於AI技術持續提升對數據分析平臺的智能化賦能水平,引領現代數據分析平臺向專業化、智能化、易運維、高性能方向演進。 本文分享自華為雲社區《現代數據平臺要實現自助用數還要解決的三大問題》, ...
  • 過濾數據 使用WHERE子句 搜索條件也稱為過濾條件(filter condition)。在SELECT語句中,數據根據WHERE子句中指定的搜索條件進行過濾: SELECT prod_name, prod_price FROM products WHERE prod_price = 2.50; 註 ...
  • 排序檢索數據 排序數據 不明確規定排序順序,則不應該假定檢索出的數據的順序有意義。 子句(clause) SQL語句由子句構成,有些子句是必需的,而有的是可選的。一個子句通常由一個關鍵字和所提供的數據組成。子句的例子有SELECT語句的FROM子句。 為了明確地排序用SELECT語句檢索出的數據,可 ...
  • 1、合作背景 萬里開源軟體有限公司 ​ 北京萬里開源軟體有限公司,是專註於國產自主可控資料庫產品研發超 20年的國家高新技術企業,參與多個國家級的資料庫行業標準制定工作。本次用於測試的 GreatSQL 開源資料庫是適用於金融級應用的國內自主 MySQL 版本,專註於提升 MGR 可靠性及性能,支持 ...
一周排行
    -Advertisement-
    Play Games
  • 前言 微服務架構已經成為搭建高效、可擴展系統的關鍵技術之一,然而,現有許多微服務框架往往過於複雜,使得我們普通開發者難以快速上手並體驗到微服務帶了的便利。為瞭解決這一問題,於是作者精心打造了一款最接地氣的 .NET 微服務框架,幫助我們輕鬆構建和管理微服務應用。 本框架不僅支持 Consul 服務註 ...
  • 先看一下效果吧: 如果不會寫動畫或者懶得寫動畫,就直接交給Blend來做吧; 其實Blend操作起來很簡單,有點類似於在操作PS,我們只需要設置關鍵幀,滑鼠點來點去就可以了,Blend會自動幫我們生成我們想要的動畫效果. 第一步:要創建一個空的WPF項目 第二步:右鍵我們的項目,在最下方有一個,在B ...
  • Prism:框架介紹與安裝 什麼是Prism? Prism是一個用於在 WPF、Xamarin Form、Uno 平臺和 WinUI 中構建鬆散耦合、可維護和可測試的 XAML 應用程式框架 Github https://github.com/PrismLibrary/Prism NuGet htt ...
  • 在WPF中,屏幕上的所有內容,都是通過畫筆(Brush)畫上去的。如按鈕的背景色,邊框,文本框的前景和形狀填充。藉助畫筆,可以繪製頁面上的所有UI對象。不同畫筆具有不同類型的輸出( 如:某些畫筆使用純色繪製區域,其他畫筆使用漸變、圖案、圖像或繪圖)。 ...
  • 前言 嗨,大家好!推薦一個基於 .NET 8 的高併發微服務電商系統,涵蓋了商品、訂單、會員、服務、財務等50多種實用功能。 項目不僅使用了 .NET 8 的最新特性,還集成了AutoFac、DotLiquid、HangFire、Nlog、Jwt、LayUIAdmin、SqlSugar、MySQL、 ...
  • 本文主要介紹攝像頭(相機)如何採集數據,用於類似攝像頭本地顯示軟體,以及流媒體數據傳輸場景如傳屏、視訊會議等。 攝像頭採集有多種方案,如AForge.NET、WPFMediaKit、OpenCvSharp、EmguCv、DirectShow.NET、MediaCaptre(UWP),網上一些文章以及 ...
  • 前言 Seal-Report 是一款.NET 開源報表工具,擁有 1.4K Star。它提供了一個完整的框架,使用 C# 編寫,最新的版本採用的是 .NET 8.0 。 它能夠高效地從各種資料庫或 NoSQL 數據源生成日常報表,並支持執行複雜的報表任務。 其簡單易用的安裝過程和直觀的設計界面,我們 ...
  • 背景需求: 系統需要對接到XXX官方的API,但因此官方對接以及管理都十分嚴格。而本人部門的系統中包含諸多子系統,系統間為了穩定,程式間多數固定Token+特殊驗證進行調用,且後期還要提供給其他兄弟部門系統共同調用。 原則上:每套系統都必須單獨接入到官方,但官方的接入複雜,還要官方指定機構認證的證書 ...
  • 本文介紹下電腦設備關機的情況下如何通過網路喚醒設備,之前電源S狀態 電腦Power電源狀態- 唐宋元明清2188 - 博客園 (cnblogs.com) 有介紹過遠程喚醒設備,後面這倆天瞭解多了點所以單獨加個隨筆 設備關機的情況下,使用網路喚醒的前提條件: 1. 被喚醒設備需要支持這WakeOnL ...
  • 前言 大家好,推薦一個.NET 8.0 為核心,結合前端 Vue 框架,實現了前後端完全分離的設計理念。它不僅提供了強大的基礎功能支持,如許可權管理、代碼生成器等,還通過採用主流技術和最佳實踐,顯著降低了開發難度,加快了項目交付速度。 如果你需要一個高效的開發解決方案,本框架能幫助大家輕鬆應對挑戰,實 ...