【開源項目推薦】通用SQL數據血緣分析工具——Sqllineage

来源:https://www.cnblogs.com/tree1123/archive/2023/12/05/17876431.html
-Advertisement-
Play Games

大家好,我是獨孤風,從本周開始,爭取每周為大家帶來一個優秀的開源項目推薦。 開源項目不僅促進了技術的發展和普及,還為全球範圍內的開發者和用戶社區建立了一個共用知識、協作和創新的平臺。站在巨人的肩膀上才能看的更遠,我們平時也應該多多關註開源項目,不僅學習其豐富的知識,也要找機會為開源事業做出自己的貢獻 ...


大家好,我是獨孤風,從本周開始,爭取每周為大家帶來一個優秀的開源項目推薦。

開源項目不僅促進了技術的發展和普及,還為全球範圍內的開發者和用戶社區建立了一個共用知識、協作和創新的平臺。站在巨人的肩膀上才能看的更遠,我們平時也應該多多關註開源項目,不僅學習其豐富的知識,也要找機會為開源事業做出自己的貢獻。

話不多說,今天為大家推薦的開源項目名為SQLLineage。

SQLLineage 是一個使用 Python 開發的 SQL 血緣分析工具。它專註於提供 SQL 查詢的血緣關係和依賴關係的深入分析。

Github首頁地址為: https://github.com/reata/sqllineage

目前標星891,最新版本是v1.4.8,主要開發語言為Python 。

一、概述

簡單來說SQLLineage 是一SQL血緣分析工具,而由於SQL在數據分析中的通用性,SQLLineage 是一數據血緣分析工具。

數據血緣(Data Lineage),也有翻譯為數據沿襲,都數據血緣(Data Lineage)是指追蹤數據從其源頭到目的地的路徑,包括它在整個數據生命周期中的流動、轉換和使用情況。數據血緣的核心目的是提供對數據流動和變化的完整可視化,從而幫助組織理解數據的來源、經過的處理步驟以及最終如何被利用。

數據血緣是元數據管理的重要組成部分,通過收集獲取元數據可以分析生成數據血緣,這樣可以增加數據透明度,便於審計和合規,也就是說數據血緣在數據安全,數據管理領域意義重大。

而SQLLineage可以通過多SQL的分析來快速的瞭解血緣的來龍去脈,所以說是一個數據血緣的分析神器。

我們假設有這樣的一個SQL。

通過SQLLineage可以快速的分析出表級別的血緣。

也可以分析出列級別的血緣。

這樣的話,數據的前後關係就一目瞭然了。

同時SQLLineage還支持多種SQL語法的解析器,這不管是我們直接拿來用,還是分析其代碼都非常的有幫助。

二、主要特性

SQLLineage 還提供瞭如下的豐富的功能支持。

簡化 SQL 解析: SQLLineage 提供了一個簡單易用的介面來理解 SQL 查詢的源和目標表,無需擔心複雜的 SQL 解析過程。

高效的解析庫: 使用 sqlfluff 和 sqlparse 等庫來解析 SQL 命令,分析 AST,並使用 networkx 圖形庫存儲血緣信息。

易於安裝和使用: 可以通過 PyPI 快速安裝,並通過簡單的命令行操作來解析 SQL 查詢。

一些更高級的用法:

  • 處理多個 SQL 語句: 可以分析包含多個 SQL 語句的查詢,識別中間表。
  • 詳細血緣結果: 提供詳細的血緣分析結果,每個 SQL 語句的血緣信息都可以顯示出來。
  • 方言意識: 支持不同的 SQL 方言,以適應不同的關鍵詞和語法。
  • 列級血緣: 支持列級血緣分析,展示所有列的血緣路徑。
  • 血緣可視化: 支持血緣結果的圖形可視化,可以在瀏覽器中查看表級和列級血緣的有向無環圖(DAG)表示。

三、安裝部署與使用

SQLLineage 由Python開發而成,所以可以非常方便的使用Python相關組件進行安裝。

安裝

可以直接使用pip安裝

pip install sqllineage

也可以通過github來安裝

pip install git+https://github.com/reata/sqllineage.git

分析

有兩種方式,去解析sql。可以用-e直接分析一個sql語句,這裡分析出了源表和目標表:

$ sqllineage -e "insert into db1.table1 select * from db2.table2"
Statements(#): 1
Source Tables:
    db2.table2
Target Tables:
    db1.table1

也可以用-f來直接分析一個sql文件:

$ sqllineage -f foo.sql
Statements(#): 1
Source Tables:
    db1.table_foo
    db1.table_bar
Target Tables:
    db2.table_baz

對於連續的兩個sql也可以進行分析:

$ sqllineage -e "insert into db1.table1 select * from db2.table2; insert into db3.table3 select * from db1.table1;"
Statements(#): 2
Source Tables:
    db2.table2
Target Tables:
    db3.table3
Intermediate Tables:
    db1.table1

可以用-v指令來看每一個sql的執行結果。

$ sqllineage -v -e "insert into db1.table1 select * from db2.table2; insert into db3.table3 select * from db1.table1;"
Statement #1: insert into db1.table1 select * from db2.table2;
    table read: [Table: db2.table2]
    table write: [Table: db1.table1]
    table cte: []
    table rename: []
    table drop: []
Statement #2: insert into db3.table3 select * from db1.table1;
    table read: [Table: db1.table1]
    table write: [Table: db3.table3]
    table cte: []
    table rename: []
    table drop: []
==========
Summary:
Statements(#): 2
Source Tables:
    db2.table2
Target Tables:
    db3.table3
Intermediate Tables:
    db1.table1

指定分析器

下麵的例子,可以使用 --dialect=postgres關鍵字來指定要使用的分析引擎:

$ sqllineage -e "insert into analyze select * from foo;"
Statements(#): 1
Source Tables:
    <default>.foo
Target Tables:
    
$ sqllineage -e "insert into analyze select * from foo;" --dialect=ansi
Statements(#): 1
Source Tables:
    <default>.foo
Target Tables:
    <default>.analyze

$ sqllineage -e "insert into analyze select * from foo;" --dialect=postgres
...
sqllineage.exceptions.InvalidSyntaxException: This SQL statement is unparsable, please check potential syntax error for SQL

提示:用這個命令sqllineage --dialects 看看都有哪些分析器。

列級血緣

可以分析列級血緣,比如下麵的sql。

INSERT OVERWRITE TABLE foo
SELECT a.col1,
       b.col1     AS col2,
       c.col3_sum AS col3,
       col4,
       d.*
FROM bar a
         JOIN baz b
              ON a.id = b.bar_id
         LEFT JOIN (SELECT bar_id, sum(col3) AS col3_sum
                    FROM qux
                    GROUP BY bar_id) c
                   ON a.id = sq.bar_id
         CROSS JOIN quux d;

INSERT OVERWRITE TABLE corge
SELECT a.col1,
       a.col2 + b.col2 AS col2
FROM foo a
         LEFT JOIN grault b
              ON a.col1 = b.col1;

可以使用-l關鍵字來進行列級血緣分析

$ sqllineage -f foo.sql -l column
<default>.corge.col1 <- <default>.foo.col1 <- <default>.bar.col1
<default>.corge.col2 <- <default>.foo.col2 <- <default>.baz.col1
<default>.corge.col2 <- <default>.grault.col2
<default>.foo.* <- <default>.quux.*
<default>.foo.col3 <- c.col3_sum <- <default>.qux.col3
<default>.foo.col4 <- col4

可視化

最後可以用下麵的指令來啟動一個web瀏覽器,進行血緣展示。

sqllineage -g -f foo.sql

趕緊體驗一下吧~

更多【大數據、數據治理、人工智慧知識分享】【開源項目推薦】【學習社群加入】,請關註大數據流動​。

大數據流動 專註於大數據實時計算,數據治理,數據可視化等技術分享與實踐。 請在後臺回覆關鍵字下載相關資料。相關學習交流群已經成立,歡迎加入~
您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 文件系統 文件系統結構 tip:[start]僅舉例常見內容tip:[end] / 根目錄 bin 可執行文件命令 (ls,...) etc 配置文件 (nginx代理伺服器配置文件,...) var 日誌log文件 lib 存頭文件/安裝包 home 用戶的家目錄 (/home/acs,...) ...
  • 想要確保你的Windows服務即使在崩潰後也能自動重啟嗎?這篇文章教你如何用一個小巧的批處理腳本來實現這一點。教你怎麼設置定時檢查,如果發現服務掛了,就立刻拉起來。跟著步驟做,讓你的服務穩定運行不再是難題! ...
  • 背景 Redis是一種基於客戶端-服務端模型以及請求/響應協議的TCP服務。一個請求會遵循以下步驟: 1 客戶端向服務端發送命令分四步(發送命令→命令排隊→命令執行→返回結果),並監聽Socket返回,通常以阻塞模式等待服務端響應。 2 服務端處理命令,並將結果返回給客戶端。 上述兩步稱為:Roun ...
  • 課程中,第二章是MySQL環境搭建,因為我是網上找的博客,下載zip,直接安裝的,就沒看視頻,所以沒有第二章筆記。這裡給出MySQL社區版下載地址。 C-03.基本的SELECT語句 1.SQL概述 1.1 SQL背景知識 1974年,IBM研究員發佈了一篇揭開資料庫技術的論文《SEQUEL:一門結 ...
  • SQL CREATE DATABASE 語句 SQL CREATE DATABASE 語句用於創建一個新的 SQL 資料庫。 語法 CREATE DATABASE 資料庫名稱; 示例 以下 SQL 語句創建了一個名為 "testDB" 的資料庫: CREATE DATABASE testDB; 通過 ...
  • 單體架構下鎖的實現方案 1. ReentrantLock全局鎖 ReentrantLock(可重入鎖),指的是一個線程再次對已持有的鎖保護的臨界資源時,重入請求將會成功。 簡單的與我們常用的Synchronized進行比較: ReentrantLock Synchronized 鎖實現機制 依賴AQ ...
  • 如今,大規模、高時效、智能化數據處理已是“剛需”,企業需要更強大的數據平臺,來應對數據查詢、數據處理、數據挖掘、數據展示以及多種計算模型並行的挑戰,湖倉一體方案應運而生。 《實時湖倉實踐五講》是袋鼠雲打造的系列直播活動,將圍繞實時湖倉的建設趨勢和通用問題,邀請奮戰於企業數字化一線的核心產品&技術專家 ...
  • 隨著業務飛速發展,某汽車製造企業業務系統數量、複雜度和數據量都在呈幾何級數的上漲,這就對於企業IT能力和IT架構模式的要求越來越高。加之企業大力發展數字化營銷、新能源車等業務,希望通過持續優化客戶體驗,創造可持續發展的數字化轉型之路。 為更好應對數字化變革所帶來的挑戰,現有的豎井架構的數據體系難以滿 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...