大家好,我是獨孤風。 近期Datahub進行了一次大的版本更新,從0.9版本以後Datahub也正式發佈了列級別數據血緣的功能。 0.9.1版本又增加了,列的影響分析這個功能。 這樣Datahub對於列級別數據血緣的功能支撐就非常完善了。 目前Datahub支持列級別數據血緣的主要功能有。 1、建立 ...
大家好,我是獨孤風。
近期Datahub進行了一次大的版本更新,從0.9版本以後Datahub也正式發佈了列級別數據血緣的功能。
0.9.1版本又增加了,列的影響分析這個功能。
這樣Datahub對於列級別數據血緣的功能支撐就非常完善了。
目前Datahub支持列級別數據血緣的主要功能有。
1、建立列級別數據血緣的API
2、Snowflake和Looker,Tableau的列級別數據血緣實現
3、列級別數據血緣的可視化
4、列的影響分析
列級別的數據血緣非常的重要。主要是從“來”和“去”兩個方向對於數據血緣進行分析。
1、理解列如何計算產生的。
該列是否由敏感數據計算產生。
計算該列數據都進行了什麼運算?
2、理解該列如何被使用
可否棄用該列,而不影響後續的指標計算。
該列用於了哪張圖表?
與Atlas的展示不同,Datahub將列血緣和數據集血緣放在了一起展示,對於數據脈絡的理解也更加的清晰。
另外Datahub也發佈了未來一段時間的開發計劃表,值得關註的有:
2022年四季度 ,實現Bigquery和Redshift 的列級別數據血緣。
2023年一季度,實現對Spark的支持。
這也讓我們對Datahub的未來有了更多的期待,趕緊升級用起來吧!
另外,在這幾年的寫作中,我也發現了除了文字以外,用視頻的方式來表達可能會更加的清晰,生動,效率更高。所以我也在近期開通了大數據流動的視頻號。以後也會在視頻號中做一些教程,功能展示,部署演示等等作品出來。
這次的Datahub列級別數據血緣,我也做了一個簡潔的視頻進行介紹,不過視頻製作我還是小白,也是第一次嘗試配音。有不足之處還希望大家多多諒解,我會不斷的改進。
也希望大家多多關註,轉發。這是我堅持下去的唯一動力!
大數據流動視頻號作品 《Datahub列級別數據血緣演示說明》
大數據流動 專註於大數據實時計算,數據治理,數據可視化等技術分享與實踐。 請在後臺回覆關鍵字下載相關資料。相關學習交流群已經成立,歡迎加入~