【開源項目推薦】通用SQL數據血緣分析工具——Sqllineage

来源:https://www.cnblogs.com/tree1123/archive/2023/12/05/17876431.html
-Advertisement-
Play Games

大家好,我是獨孤風,從本周開始,爭取每周為大家帶來一個優秀的開源項目推薦。 開源項目不僅促進了技術的發展和普及,還為全球範圍內的開發者和用戶社區建立了一個共用知識、協作和創新的平臺。站在巨人的肩膀上才能看的更遠,我們平時也應該多多關註開源項目,不僅學習其豐富的知識,也要找機會為開源事業做出自己的貢獻 ...


大家好,我是獨孤風,從本周開始,爭取每周為大家帶來一個優秀的開源項目推薦。

開源項目不僅促進了技術的發展和普及,還為全球範圍內的開發者和用戶社區建立了一個共用知識、協作和創新的平臺。站在巨人的肩膀上才能看的更遠,我們平時也應該多多關註開源項目,不僅學習其豐富的知識,也要找機會為開源事業做出自己的貢獻。

話不多說,今天為大家推薦的開源項目名為SQLLineage。

SQLLineage 是一個使用 Python 開發的 SQL 血緣分析工具。它專註於提供 SQL 查詢的血緣關係和依賴關係的深入分析。

Github首頁地址為: https://github.com/reata/sqllineage

目前標星891,最新版本是v1.4.8,主要開發語言為Python 。

一、概述

簡單來說SQLLineage 是一SQL血緣分析工具,而由於SQL在數據分析中的通用性,SQLLineage 是一數據血緣分析工具。

數據血緣(Data Lineage),也有翻譯為數據沿襲,都數據血緣(Data Lineage)是指追蹤數據從其源頭到目的地的路徑,包括它在整個數據生命周期中的流動、轉換和使用情況。數據血緣的核心目的是提供對數據流動和變化的完整可視化,從而幫助組織理解數據的來源、經過的處理步驟以及最終如何被利用。

數據血緣是元數據管理的重要組成部分,通過收集獲取元數據可以分析生成數據血緣,這樣可以增加數據透明度,便於審計和合規,也就是說數據血緣在數據安全,數據管理領域意義重大。

而SQLLineage可以通過多SQL的分析來快速的瞭解血緣的來龍去脈,所以說是一個數據血緣的分析神器。

我們假設有這樣的一個SQL。

通過SQLLineage可以快速的分析出表級別的血緣。

也可以分析出列級別的血緣。

這樣的話,數據的前後關係就一目瞭然了。

同時SQLLineage還支持多種SQL語法的解析器,這不管是我們直接拿來用,還是分析其代碼都非常的有幫助。

二、主要特性

SQLLineage 還提供瞭如下的豐富的功能支持。

簡化 SQL 解析: SQLLineage 提供了一個簡單易用的介面來理解 SQL 查詢的源和目標表,無需擔心複雜的 SQL 解析過程。

高效的解析庫: 使用 sqlfluff 和 sqlparse 等庫來解析 SQL 命令,分析 AST,並使用 networkx 圖形庫存儲血緣信息。

易於安裝和使用: 可以通過 PyPI 快速安裝,並通過簡單的命令行操作來解析 SQL 查詢。

一些更高級的用法:

  • 處理多個 SQL 語句: 可以分析包含多個 SQL 語句的查詢,識別中間表。
  • 詳細血緣結果: 提供詳細的血緣分析結果,每個 SQL 語句的血緣信息都可以顯示出來。
  • 方言意識: 支持不同的 SQL 方言,以適應不同的關鍵詞和語法。
  • 列級血緣: 支持列級血緣分析,展示所有列的血緣路徑。
  • 血緣可視化: 支持血緣結果的圖形可視化,可以在瀏覽器中查看表級和列級血緣的有向無環圖(DAG)表示。

三、安裝部署與使用

SQLLineage 由Python開發而成,所以可以非常方便的使用Python相關組件進行安裝。

安裝

可以直接使用pip安裝

pip install sqllineage

也可以通過github來安裝

pip install git+https://github.com/reata/sqllineage.git

分析

有兩種方式,去解析sql。可以用-e直接分析一個sql語句,這裡分析出了源表和目標表:

$ sqllineage -e "insert into db1.table1 select * from db2.table2"
Statements(#): 1
Source Tables:
    db2.table2
Target Tables:
    db1.table1

也可以用-f來直接分析一個sql文件:

$ sqllineage -f foo.sql
Statements(#): 1
Source Tables:
    db1.table_foo
    db1.table_bar
Target Tables:
    db2.table_baz

對於連續的兩個sql也可以進行分析:

$ sqllineage -e "insert into db1.table1 select * from db2.table2; insert into db3.table3 select * from db1.table1;"
Statements(#): 2
Source Tables:
    db2.table2
Target Tables:
    db3.table3
Intermediate Tables:
    db1.table1

可以用-v指令來看每一個sql的執行結果。

$ sqllineage -v -e "insert into db1.table1 select * from db2.table2; insert into db3.table3 select * from db1.table1;"
Statement #1: insert into db1.table1 select * from db2.table2;
    table read: [Table: db2.table2]
    table write: [Table: db1.table1]
    table cte: []
    table rename: []
    table drop: []
Statement #2: insert into db3.table3 select * from db1.table1;
    table read: [Table: db1.table1]
    table write: [Table: db3.table3]
    table cte: []
    table rename: []
    table drop: []
==========
Summary:
Statements(#): 2
Source Tables:
    db2.table2
Target Tables:
    db3.table3
Intermediate Tables:
    db1.table1

指定分析器

下麵的例子,可以使用 --dialect=postgres關鍵字來指定要使用的分析引擎:

$ sqllineage -e "insert into analyze select * from foo;"
Statements(#): 1
Source Tables:
    <default>.foo
Target Tables:
    
$ sqllineage -e "insert into analyze select * from foo;" --dialect=ansi
Statements(#): 1
Source Tables:
    <default>.foo
Target Tables:
    <default>.analyze

$ sqllineage -e "insert into analyze select * from foo;" --dialect=postgres
...
sqllineage.exceptions.InvalidSyntaxException: This SQL statement is unparsable, please check potential syntax error for SQL

提示:用這個命令sqllineage --dialects 看看都有哪些分析器。

列級血緣

可以分析列級血緣,比如下麵的sql。

INSERT OVERWRITE TABLE foo
SELECT a.col1,
       b.col1     AS col2,
       c.col3_sum AS col3,
       col4,
       d.*
FROM bar a
         JOIN baz b
              ON a.id = b.bar_id
         LEFT JOIN (SELECT bar_id, sum(col3) AS col3_sum
                    FROM qux
                    GROUP BY bar_id) c
                   ON a.id = sq.bar_id
         CROSS JOIN quux d;

INSERT OVERWRITE TABLE corge
SELECT a.col1,
       a.col2 + b.col2 AS col2
FROM foo a
         LEFT JOIN grault b
              ON a.col1 = b.col1;

可以使用-l關鍵字來進行列級血緣分析

$ sqllineage -f foo.sql -l column
<default>.corge.col1 <- <default>.foo.col1 <- <default>.bar.col1
<default>.corge.col2 <- <default>.foo.col2 <- <default>.baz.col1
<default>.corge.col2 <- <default>.grault.col2
<default>.foo.* <- <default>.quux.*
<default>.foo.col3 <- c.col3_sum <- <default>.qux.col3
<default>.foo.col4 <- col4

可視化

最後可以用下麵的指令來啟動一個web瀏覽器,進行血緣展示。

sqllineage -g -f foo.sql

趕緊體驗一下吧~

更多【大數據、數據治理、人工智慧知識分享】【開源項目推薦】【學習社群加入】,請關註大數據流動​。

大數據流動 專註於大數據實時計算,數據治理,數據可視化等技術分享與實踐。 請在後臺回覆關鍵字下載相關資料。相關學習交流群已經成立,歡迎加入~
您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 文件系統 文件系統結構 tip:[start]僅舉例常見內容tip:[end] / 根目錄 bin 可執行文件命令 (ls,...) etc 配置文件 (nginx代理伺服器配置文件,...) var 日誌log文件 lib 存頭文件/安裝包 home 用戶的家目錄 (/home/acs,...) ...
  • 想要確保你的Windows服務即使在崩潰後也能自動重啟嗎?這篇文章教你如何用一個小巧的批處理腳本來實現這一點。教你怎麼設置定時檢查,如果發現服務掛了,就立刻拉起來。跟著步驟做,讓你的服務穩定運行不再是難題! ...
  • 背景 Redis是一種基於客戶端-服務端模型以及請求/響應協議的TCP服務。一個請求會遵循以下步驟: 1 客戶端向服務端發送命令分四步(發送命令→命令排隊→命令執行→返回結果),並監聽Socket返回,通常以阻塞模式等待服務端響應。 2 服務端處理命令,並將結果返回給客戶端。 上述兩步稱為:Roun ...
  • 課程中,第二章是MySQL環境搭建,因為我是網上找的博客,下載zip,直接安裝的,就沒看視頻,所以沒有第二章筆記。這裡給出MySQL社區版下載地址。 C-03.基本的SELECT語句 1.SQL概述 1.1 SQL背景知識 1974年,IBM研究員發佈了一篇揭開資料庫技術的論文《SEQUEL:一門結 ...
  • SQL CREATE DATABASE 語句 SQL CREATE DATABASE 語句用於創建一個新的 SQL 資料庫。 語法 CREATE DATABASE 資料庫名稱; 示例 以下 SQL 語句創建了一個名為 "testDB" 的資料庫: CREATE DATABASE testDB; 通過 ...
  • 單體架構下鎖的實現方案 1. ReentrantLock全局鎖 ReentrantLock(可重入鎖),指的是一個線程再次對已持有的鎖保護的臨界資源時,重入請求將會成功。 簡單的與我們常用的Synchronized進行比較: ReentrantLock Synchronized 鎖實現機制 依賴AQ ...
  • 如今,大規模、高時效、智能化數據處理已是“剛需”,企業需要更強大的數據平臺,來應對數據查詢、數據處理、數據挖掘、數據展示以及多種計算模型並行的挑戰,湖倉一體方案應運而生。 《實時湖倉實踐五講》是袋鼠雲打造的系列直播活動,將圍繞實時湖倉的建設趨勢和通用問題,邀請奮戰於企業數字化一線的核心產品&技術專家 ...
  • 隨著業務飛速發展,某汽車製造企業業務系統數量、複雜度和數據量都在呈幾何級數的上漲,這就對於企業IT能力和IT架構模式的要求越來越高。加之企業大力發展數字化營銷、新能源車等業務,希望通過持續優化客戶體驗,創造可持續發展的數字化轉型之路。 為更好應對數字化變革所帶來的挑戰,現有的豎井架構的數據體系難以滿 ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...