《數據資產管理核心技術與應用》是清華大學出版社出版的一本圖書,全書共分10章,第1章主要讓讀者認識數據資產,瞭解數據資產相關的基礎概念,以及數據資產的發展情況。第2~8章主要介紹大數據時代數據資產管理所涉及的核心技術,內容包括元數據的採集與存儲、數據血緣、數據質量、數據監控與告警、數據服務、數據許可權 ...
《數據資產管理核心技術與應用》是清華大學出版社出版的一本圖書,全書共分10章,第1章主要讓讀者認識數據資產,瞭解數據資產相關的基礎概念,以及數據資產的發展情況。第2~8章主要介紹大數據時代數據資產管理所涉及的核心技術,內容包括元數據的採集與存儲、數據血緣、數據質量、數據監控與告警、數據服務、數據許可權與安全、數據資產管理架構等。第9~10章主要從實戰的角度介紹數據資產管理技術的應用實踐,包括如何對元數據進行管理以發揮出數據資產的更大潛力,以及如何對數據進行建模以挖掘出數據中更大的價值。
圖書介紹:數據資產管理核心技術與應用
今天主要是給大家分享一下第四章的內容:
第四章的標題為數據質量的技術實現
內容思維導圖如下:
本文是接著
《數據資產管理核心技術與應用》讀書筆記-第四章:數據質量的技術實現(二)
繼續往下介紹
4、 常見的開源數據質量管理平臺
4.1、 Apache Griffin
Apache Griffin 是一個開源的大數據質量管理系統,底層是基於Hadoop和Spark實現的,支持批處理和流處理模式兩種數據質量檢測方式,官方網址為:https://griffin.apache.org/,如下圖所示,是Apache Griffin 官方地址https://griffin.apache.org/docs/quickstart-cn.html中提供的架構圖。
Apache Griffin 的源代碼github地址為https://github.com/apache/griffin 《數據資產管理核心技術與應用》是清華大學出版社出版的一本圖書,作者為張永清等著
從架構圖中可以看到
- Apache Griffin 在做數據質量檢測時,是基於Spark 實現的,以Spark任務的形式對定義的待採集數據質量的數據源進數據採集。
- 在架構圖中,Define主要用於數據質量的維度定義,也就是我們說的數據質量規則的定義。
- Measure負責數據質量任務的執行以及生成數據質量的結果數據。《數據資產管理核心技術與應用》是清華大學出版社出版的一本圖書,作者為張永清等著
- Analyze主要負責結果數據的存儲以及呈現。
如下圖所示,Apache Griffin 的架構圖剛好是可以對應到我們前面的數據質量採集流程的。
另外Apache Griffin 也是支持容器化部署的,相關部署介紹請參考:https://github.com/apache/griffin/blob/master/griffin-doc/docker/griffin-docker-guide.md
Apache Griffin 的主要技術棧和開發語言包括
- 後端:Java和Scala,其API服務主要是由Java 語言開發,基於Http協議和GRPC協議做數據通信。其任務的執行主要是基於Scala語言開發,用於Spark任務的提交、運行等。
- 前端:TypeScript、Html、Css
其核心技術架構如下圖所示。《數據資產管理核心技術與應用》是清華大學出版社出版的一本圖書,作者為張永清等著
從圖中可以看到其核心技術是通過SpringBoot+Spark來實現的。
4.2、 Qualitis
Qualitis是一個支持多種異構數據源的數據質量監測平臺,其設計初衷是用於解決業務系統運行、數據中心建設及數據治理過程中的遇到的各種數據質量問題。
如下圖所示,是Qualitis官方地址https://github.com/WeBankFinTech/Qualitis/blob/master/docs/zh_CN/ch1/%E6%9E%B6%E6%9E%84%E8%AE%BE%E8%AE%A1%E6%96%87%E6%A1%A3.md#21-%E6%80%BB%E4%BD%93%E6%9E%B6%E6%9E%84%E8%AE%BE%E8%AE%A1中提供的架構圖。
從架構圖中可以看到也是包含了質量規則配置、質量任務管理和質量數據採集、質量數據存儲和分析等這些核心模塊。
在Qualitis官方網址中也提供了總體模塊設計圖,其模塊設計圖也是剛好可以對應到我們前面的數據質量採集流程,如下圖所示。《數據資產管理核心技術與應用》是清華大學出版社出版的一本圖書,作者為張永清等著
可以看到數據質量採集的流程其實不管在哪個開源的數據質量平臺中,都幾乎是一樣的,都需要包括
- 質量規則的配置和管理:主要是配置規則和維護規則。
- 定時job定時去執行質量規則抓取原始的數據質量數據。《數據資產管理核心技術與應用》是清華大學出版社出版的一本圖書,作者為張永清等著
- 質量的數據處理和分析:對抓取到的原始質量數據進行處理,然後通過質量數據的分析來優化質量規則的配置,形成一個閉環的鏈路,如下圖所示
- 質量結果數據的存儲Qualitis的安裝和部署,可以參考https://github.com/WeBankFinTech/Qualitis/blob/master/docs/zh_CN/ch1/%E5%BF%AB%E9%80%9F%E6%90%AD%E5%BB%BA%E6%89%8B%E5%86%8C%E2%80%94%E2%80%94HA%E7%89%88.md 中的部署說明。《數據資產管理核心技術與應用》是清華大學出版社出版的一本圖書,作者為張永清等著