大家好,我是獨孤風,從本周開始,爭取每周為大家帶來一個優秀的開源項目推薦。 開源項目不僅促進了技術的發展和普及,還為全球範圍內的開發者和用戶社區建立了一個共用知識、協作和創新的平臺。站在巨人的肩膀上才能看的更遠,我們平時也應該多多關註開源項目,不僅學習其豐富的知識,也要找機會為開源事業做出自己的貢獻 ...
大家好,我是獨孤風,從本周開始,爭取每周為大家帶來一個優秀的開源項目推薦。
開源項目不僅促進了技術的發展和普及,還為全球範圍內的開發者和用戶社區建立了一個共用知識、協作和創新的平臺。站在巨人的肩膀上才能看的更遠,我們平時也應該多多關註開源項目,不僅學習其豐富的知識,也要找機會為開源事業做出自己的貢獻。
話不多說,今天為大家推薦的開源項目名為SQLLineage。
SQLLineage 是一個使用 Python 開發的 SQL 血緣分析工具。它專註於提供 SQL 查詢的血緣關係和依賴關係的深入分析。
Github首頁地址為: https://github.com/reata/sqllineage
目前標星891,最新版本是v1.4.8,主要開發語言為Python 。
一、概述
簡單來說SQLLineage 是一SQL血緣分析工具,而由於SQL在數據分析中的通用性,SQLLineage 是一數據血緣分析工具。
數據血緣(Data Lineage),也有翻譯為數據沿襲,都數據血緣(Data Lineage)是指追蹤數據從其源頭到目的地的路徑,包括它在整個數據生命周期中的流動、轉換和使用情況。數據血緣的核心目的是提供對數據流動和變化的完整可視化,從而幫助組織理解數據的來源、經過的處理步驟以及最終如何被利用。
數據血緣是元數據管理的重要組成部分,通過收集獲取元數據可以分析生成數據血緣,這樣可以增加數據透明度,便於審計和合規,也就是說數據血緣在數據安全,數據管理領域意義重大。
而SQLLineage可以通過多SQL的分析來快速的瞭解血緣的來龍去脈,所以說是一個數據血緣的分析神器。
我們假設有這樣的一個SQL。
通過SQLLineage可以快速的分析出表級別的血緣。
也可以分析出列級別的血緣。
這樣的話,數據的前後關係就一目瞭然了。
同時SQLLineage還支持多種SQL語法的解析器,這不管是我們直接拿來用,還是分析其代碼都非常的有幫助。
二、主要特性
SQLLineage 還提供瞭如下的豐富的功能支持。
簡化 SQL 解析: SQLLineage 提供了一個簡單易用的介面來理解 SQL 查詢的源和目標表,無需擔心複雜的 SQL 解析過程。
高效的解析庫: 使用 sqlfluff 和 sqlparse 等庫來解析 SQL 命令,分析 AST,並使用 networkx 圖形庫存儲血緣信息。
易於安裝和使用: 可以通過 PyPI 快速安裝,並通過簡單的命令行操作來解析 SQL 查詢。
一些更高級的用法:
- 處理多個 SQL 語句: 可以分析包含多個 SQL 語句的查詢,識別中間表。
- 詳細血緣結果: 提供詳細的血緣分析結果,每個 SQL 語句的血緣信息都可以顯示出來。
- 方言意識: 支持不同的 SQL 方言,以適應不同的關鍵詞和語法。
- 列級血緣: 支持列級血緣分析,展示所有列的血緣路徑。
- 血緣可視化: 支持血緣結果的圖形可視化,可以在瀏覽器中查看表級和列級血緣的有向無環圖(DAG)表示。
三、安裝部署與使用
SQLLineage 由Python開發而成,所以可以非常方便的使用Python相關組件進行安裝。
安裝
可以直接使用pip安裝
pip install sqllineage
也可以通過github來安裝
pip install git+https://github.com/reata/sqllineage.git
分析
有兩種方式,去解析sql。可以用-e
直接分析一個sql語句,這裡分析出了源表和目標表:
$ sqllineage -e "insert into db1.table1 select * from db2.table2"
Statements(#): 1
Source Tables:
db2.table2
Target Tables:
db1.table1
也可以用-f
來直接分析一個sql文件:
$ sqllineage -f foo.sql
Statements(#): 1
Source Tables:
db1.table_foo
db1.table_bar
Target Tables:
db2.table_baz
對於連續的兩個sql也可以進行分析:
$ sqllineage -e "insert into db1.table1 select * from db2.table2; insert into db3.table3 select * from db1.table1;"
Statements(#): 2
Source Tables:
db2.table2
Target Tables:
db3.table3
Intermediate Tables:
db1.table1
可以用-v
指令來看每一個sql的執行結果。
$ sqllineage -v -e "insert into db1.table1 select * from db2.table2; insert into db3.table3 select * from db1.table1;"
Statement #1: insert into db1.table1 select * from db2.table2;
table read: [Table: db2.table2]
table write: [Table: db1.table1]
table cte: []
table rename: []
table drop: []
Statement #2: insert into db3.table3 select * from db1.table1;
table read: [Table: db1.table1]
table write: [Table: db3.table3]
table cte: []
table rename: []
table drop: []
==========
Summary:
Statements(#): 2
Source Tables:
db2.table2
Target Tables:
db3.table3
Intermediate Tables:
db1.table1
指定分析器
下麵的例子,可以使用 --dialect=postgres
關鍵字來指定要使用的分析引擎:
$ sqllineage -e "insert into analyze select * from foo;"
Statements(#): 1
Source Tables:
<default>.foo
Target Tables:
$ sqllineage -e "insert into analyze select * from foo;" --dialect=ansi
Statements(#): 1
Source Tables:
<default>.foo
Target Tables:
<default>.analyze
$ sqllineage -e "insert into analyze select * from foo;" --dialect=postgres
...
sqllineage.exceptions.InvalidSyntaxException: This SQL statement is unparsable, please check potential syntax error for SQL
提示:用這個命令sqllineage --dialects
看看都有哪些分析器。
列級血緣
可以分析列級血緣,比如下麵的sql。
INSERT OVERWRITE TABLE foo
SELECT a.col1,
b.col1 AS col2,
c.col3_sum AS col3,
col4,
d.*
FROM bar a
JOIN baz b
ON a.id = b.bar_id
LEFT JOIN (SELECT bar_id, sum(col3) AS col3_sum
FROM qux
GROUP BY bar_id) c
ON a.id = sq.bar_id
CROSS JOIN quux d;
INSERT OVERWRITE TABLE corge
SELECT a.col1,
a.col2 + b.col2 AS col2
FROM foo a
LEFT JOIN grault b
ON a.col1 = b.col1;
可以使用-l
關鍵字來進行列級血緣分析
$ sqllineage -f foo.sql -l column
<default>.corge.col1 <- <default>.foo.col1 <- <default>.bar.col1
<default>.corge.col2 <- <default>.foo.col2 <- <default>.baz.col1
<default>.corge.col2 <- <default>.grault.col2
<default>.foo.* <- <default>.quux.*
<default>.foo.col3 <- c.col3_sum <- <default>.qux.col3
<default>.foo.col4 <- col4
可視化
最後可以用下麵的指令來啟動一個web瀏覽器,進行血緣展示。
sqllineage -g -f foo.sql
趕緊體驗一下吧~
更多【大數據、數據治理、人工智慧知識分享】【開源項目推薦】【學習社群加入】,請關註大數據流動。
大數據流動 專註於大數據實時計算,數據治理,數據可視化等技術分享與實踐。 請在後臺回覆關鍵字下載相關資料。相關學習交流群已經成立,歡迎加入~