看這篇就夠了丨基於Calcite框架的SQL語法擴展探索

来源:https://www.cnblogs.com/DTinsight/archive/2023/01/12/17047171.html
-Advertisement-
Play Games

Calcite在大數據系統中有著廣泛的運用, 比如Apache Flink, Apache Drill等都大量使用了Calcite,理解Calcite的原理可以說已經成為理解大數據系統中SQL訪問層實現原理的必備條件之一。 但是不少人在學習Calcite的過程中都發現關於Calcite的實踐案例其實 ...


Calcite在大數據系統中有著廣泛的運用, 比如Apache Flink, Apache Drill等都大量使用了Calcite,理解Calcite的原理可以說已經成為理解大數據系統中SQL訪問層實現原理的必備條件之一。

但是不少人在學習Calcite的過程中都發現關於Calcite的實踐案例其實很少,本文就將為大家詳細介紹如何基於Calcite框架的SQL語法擴展探索使之更符合你的業務需求,以及擴展SQL在數棧產品的應用實踐。

Calcite介紹及用途

Calcite介紹

Apache Calcite是一個動態的數據管理框架,本身不涉及任何物理存儲信息,而是專註在SQL解析、基於關係代數的查詢優化,通過擴展方式來對接底層存儲。

目前Apache Calcite被應用在廣泛的數據開源系統中,比如Apache Hive、Apache Phoenix、Apache Flink等。

file

Calcite的用途

Calcite提供了ANSI標準SQL的解析,以及各種SQL 方言,針對來自於不同數據源的複雜SQL,在Calcite中會把SQL解析成SqlNode語法樹結構,然後根據得到的語法樹轉換成自定義Node,通過自定義Node解析獲取到表的欄位信息、以及表信息、血緣等相關信息。

下圖展示了一部分對外提供的介面信息:

file

sqlparser 解析模塊主要提供了以下幾種功能 :

• 解析SQL包含的所有表、欄位信息

• 解析SQL的udf函數

• 解析SQL的血緣信息,包括表級血緣、欄位血緣

• 解析自定義SqlNode

• api服務變數解析替換

SQL語法擴展

瞭解完Calcite是什麼以及用途後,下麵為大家分享Calcite SQL語法擴展的相關內容。

SQL語法擴展背景

在 sqlparser 中進行sql解析的場景中,有兩種情況需要使用到自定義擴展,一是Calcite不支持的一些語法;二是在一些場景中存在sql中帶有${var}自定義變數語法。

那麼針對上面的這兩種情況,Calcite的自定義擴展是如何實現的呢?自定義擴展主要涉及到以下三個文件:

• Parser.jj:Parser.jj是一個Calcite核心的語法和詞法文件,基於Apache FreeMaker模版,該模版包含著變數,這些變數在編譯時可以被替換

• parserImpl.ftl:提供自定義SQL語句、literals、dataType的實現方法

• config.fmpp:該文件是FMPP的配置文件,提供了SQL語句、literals、dataType的介面擴展入口

Calcite使用javacc作為語法解析器,freemaker作為模版,把parserImpls.ftl、config.fmpp、Parser.jj模版合成最終的語法詞法文件,最終通過javacc編譯成自定義的解析器源碼,整體流程如下圖所示:

file

擴展SQL實現

● 工程目錄

file

● 擴展sql實現案例

支持以下limit相關語法以及數字可以寫成${var}形式:

-> limit count, limit start count

-> limit count offset start

-> offset start limit count

在原生的Calcite解析是支持limit count語法的,但是由於返回SqlOrderBy對象內部類Operator的unparse方法在SQL輸出過程中對原始SQL進行了改寫,因此需要使用擴展SQL得到正確的SQL。

下麵介紹一個limit offset語法擴展樣例,擴展SQL如下:

select id, name from test where id > 3 order by id desc limit 1 offset ${offset_val}

整體流程如下:

01

Parser.jj 定義${var}變數的token詞法DOLLAR_VARIABLE:

file
02

Parser.jj 擴展的變數方法接入,下麵方法會在解析到limit、offset關鍵字後面的一個詞時進行調用:

file
03

Parser.jj limit offset在select語法的核心處理邏輯:

-> 定義變數

file
主要定義了三個boolean類型的變數,isOffsetLimit表示offset limit 語法,isLimitOffset表示limit offset語法,isOnlyLimit表示limit count、limit start count語法。

-> 定義處理邏輯

file

-> 返回自定義SqlNode

file
針對符合上面的三個boolean條件時,使用自定義ExtendSqlOrderBy的擴展類。

04

parserImpl.ftl 定義擴展的SqlNode ExtendDollarVariable:

file
05

config.fmpp 定義包以及擴展實現類的import:

file
06

擴展SqlNode實現:

-> 變數實現sqlNode

file

-> 擴展limit實現類ExtendSqlOrderBy,該類實現了SqlOrderBy,併在此基礎擴展了limit的SqlNode,以及isOffsetLimit、isLimitOffset、isOnlyLimit三個boolean標識limit的不同語法

file
file

通過上面的這些步驟後,最後解析生成的SqlNode語法樹如下所示:

file

擴展SQL在數棧的應用

目前袋鼠雲的底層sqlparser sql解析涉及的子產品應用包括API數據服務離線開發客戶數據洞察(標簽)實時開發等,雖然大部分針對Calcite的SQL語法擴展相對於上層的產品應用感知不是很明顯,但是擴展SQL還是解決了一些痛點,主要如下:

• 逐漸替換底層採用了多種解析工具解析的情況,使維護更簡單,減少bug的產生

• 解決一些不支持的語法,避免在上層業務層做處理或者在底層做一些特殊處理

以在API數據服務後續接入的like語法改造為例為大家進行分享,目前的API數據服務中支持like ${var}語法,在執行測試中通過傳遞like語法來確定執行的模糊匹配方式,例如%xx、xx%、%xx%。

收到客戶提出的優化like語法場景,袋鼠雲本著客戶第一的原則,這種合理的優化需求是採納的。SQL支持like%${var}、${var}%、%${var}%,這樣在執行測試中就不需要輸入%了,目前擴展SQL語法已經支持這種優化的like語法,預計在2023年上半年會接入進去,下麵通過API數據服務展示當前like SQL和擴展後的SQL差異:

● 當前like ${var}處理

-> 生成API

file

-> 測試執行,模糊匹配需要輸入%

file

● 擴展like %${var}%

-> 生成API

file

-> 測試執行,由於在SQL階段已經寫了模糊匹配方式,因此可以直接輸入值

file

總結規劃

相信通過上面的案例後,大家對於Calcite擴展SQL語法的流程應該有了大致的瞭解,目前在袋鼠雲的業務場景中已經擴展了許多語法,在未來還有一些工作需要進行優化:

• 豐富SQL語法,實現不同數據源擴展SQL語法的隔離

• 逐漸通過SQL語法擴展替換掉底層Calcite和druid共同解析的場景,避免維護多套相同的解析,減少線上問題產生

最後如果是初步接觸Calcite SQL語法擴展的同學們,建議先熟悉javacc語法。

地址:https://javacc.github.io/javacc/

想瞭解或咨詢更多有關袋鼠雲大數據產品、行業解決方案、客戶案例的朋友,瀏覽袋鼠雲官網:https://www.dtstack.com/?src=szbky

同時,歡迎對大數據開源項目有興趣的同學加入「袋鼠雲開源框架釘釘技術qun」,交流最新開源技術信息,qun號碼:30537511,項目地址:https://github.com/DTStack


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 假設要在centos7.6防火牆上開啟443埠 前言:文章內容可能會因環境不同而有所差異,所謂集思廣益說不定靈感就來了呢; 文章初衷旨在交流學習、記錄個人成長,如果能幫助到您,那就點個贊噢。 1、查看防火牆是否開啟,如果沒有開啟防火牆,預設開放所有埠。 註意:如果是生產環境有業務在運行,開啟防火 ...
  • 簡述 本篇文章主要介紹如何使用 CloudCanal 構建一條 Oracle 到 PostgreSQL 的數據同步鏈路 技術要點 縮小的資料庫許可權要求 CloudCanal 對 Oracle 資料庫的高許可權要求,主要來自兩個面向 DBA 的操作,自動構建字典和 自動切換歸檔日誌,這兩個操作主要是讓用 ...
  • 在表數據量很大的時候直接添加欄位,以及其他表結構修改,會嚴重影響線上使用,而且耗費時間很長;使用這個工具可以很好的線上修改表結構。 好處: 降低主從延時的風險 可以限速、限資源,避免操作時MySQL負載過高 建議: 在業務低峰期做,將影響降到最低 直接原表修改缺點: 當表的數據量很大的時候,如果直接 ...
  • 用通配符進行過濾 LIKE操作符 通配符(wildcard) 用來匹配值的一部分的特殊字元。 搜索模式(search pattern) 由字面值、通配符或兩者組合構成的搜索條件。 搜索子句中使用通配符,必須使用LIKE操作符。LIKE指示MySQL,後跟的搜索模式利用通配符匹配而不是直接相等匹配進行 ...
  • 摘要:華為雲FusionInsight MRS HetuEngine持續提升自助用數分析平臺的可服務、易運維能力,基於AI技術持續提升對數據分析平臺的智能化賦能水平,引領現代數據分析平臺向專業化、智能化、易運維、高性能方向演進。 本文分享自華為雲社區《現代數據平臺要實現自助用數還要解決的三大問題》, ...
  • 過濾數據 使用WHERE子句 搜索條件也稱為過濾條件(filter condition)。在SELECT語句中,數據根據WHERE子句中指定的搜索條件進行過濾: SELECT prod_name, prod_price FROM products WHERE prod_price = 2.50; 註 ...
  • 排序檢索數據 排序數據 不明確規定排序順序,則不應該假定檢索出的數據的順序有意義。 子句(clause) SQL語句由子句構成,有些子句是必需的,而有的是可選的。一個子句通常由一個關鍵字和所提供的數據組成。子句的例子有SELECT語句的FROM子句。 為了明確地排序用SELECT語句檢索出的數據,可 ...
  • 1、合作背景 萬里開源軟體有限公司 ​ 北京萬里開源軟體有限公司,是專註於國產自主可控資料庫產品研發超 20年的國家高新技術企業,參與多個國家級的資料庫行業標準制定工作。本次用於測試的 GreatSQL 開源資料庫是適用於金融級應用的國內自主 MySQL 版本,專註於提升 MGR 可靠性及性能,支持 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...