摘要:本文主要介紹基於源碼部署 Datavines 和執行檢查作業,內容主要分為以下幾個部分: 平臺介紹 快速部署 運行數據質量檢查作業 Datavines 的目標是成為更好的數據可觀測性領域的開源項目,為更多的用戶去解決元數據管理和數據質量管理中遇到的問題。在此我們真誠歡迎更多的貢獻者參與到社區建 ...
摘要:本文主要介紹基於源碼部署 Datavines 和執行檢查作業,內容主要分為以下幾個部分:
- 平臺介紹
- 快速部署
- 運行數據質量檢查作業
Datavines 的目標是成為更好的數據可觀測性領域的開源項目,為更多的用戶去解決元數據管理和數據質量管理中遇到的問題。在此我們真誠歡迎更多的貢獻者參與到社區建設中來,和我們一起成長,攜手共建更好的社區。
https://github.com/datavane/datavines
https://github.com/datavane/datavines/issues
https://github.com/datavane/datavines/pulls
平臺介紹
Datavines
是一站式開源數據可觀測性平臺,提供元數據管理、數據概覽報告、數據質量管理,數據分佈查詢、數據趨勢洞察等核心能力,致力於幫助用戶全面地瞭解和掌管數據,讓您做到心中有數.
快速部署
環境準備
在安裝 Datavines
之前請確保你的伺服器上已經安裝下麵軟體
Git
,確保git clone
的順利執行JDK
,確保jdk >= 8
Maven
, 確保項目的順利打包(當然你也可以在本地打包以後上傳至伺服器)MySQL
, 確保版本>=5.7
下載代碼
git clone https://github.com/datavane/datavines.git
cd datavines
資料庫準備
Datavines
的元數據是存儲在關係型資料庫中,目前支持 MySQL
,下麵以 MySQL
為例說明安裝步驟:
- 創建資料庫
datavines
- 執行
script/sql/datavines-mysql.sql
腳本進行資料庫的初始化
項目構建
打包並解壓
mvn clean package -Prelease
cd datavines-dist/target
tar -zxvf datavines-1.0.0-SNAPSHOT-bin.tar.gz
解壓完成以後進入目錄
cd datavines-1.0.0-SNAPSHOT-bin
編輯配置信息
cd conf
vi application.yaml
修改資料庫信息
spring:
datasource:
driver-class-name: com.mysql.cj.jdbc.Driver
url: jdbc:mysql://127.0.0.1:3306/datavines?useUnicode=true&characterEncoding=UTF-8
username: root
password: 123456
如果你是使用 Spark
做為執行引擎,並且是提交到 yarn
上面去執行的,那麼需要在 common.properties
中配置 yarn
相關的信息
- standalone 模式
yarn.mode=standalone
yarn.application.status.address=http://%s:%s/ws/v1/cluster/apps/%s #第一個%s需要被替換成yarn的ip地址
yarn.resource.manager.http.address.port=8088
- ha 模式
yarn.mode=ha
yarn.application.status.address=http://%s:%s/ws/v1/cluster/apps/%s
yarn.resource.manager.http.address.port=8088
yarn.resource.manager.ha.ids=192.168.0.1,192.168.0.2
啟動服務
cd bin
sh datavines-daemon.sh start mysql
查看日誌,如果日誌裡面沒有報錯信息,並且能看到
[INFO] 2022-04-10 12:29:05.447 io.datavines.server.DatavinesServer:[61] - Started DatavinesServer in 3.97 seconds (JVM running for 4.69)
的時候,證明服務已經成功啟動。
訪問前端頁面
在瀏覽器輸入: 伺服器IP:5600
,就會跳轉至登錄界面,輸入賬號密碼 admin/123456
運行數據質量檢查作業
創建數據源
進入首頁後,點擊右上角 創建數據源
按鈕,輸入數據源的名稱,然後選擇數據源類型。以 MySQL
為例,輸入 MySQL
的連接信息,點擊 測試連接
按鈕。如果成功,請單擊 保存
。
進入數據源
點擊併進入數據源,找到 作業管理 頁面
創建檢查作業
-
點擊
創建規則作業
按鈕,選擇數據質量作業
-
進入規則的配置頁面
-
進行規則配置
- 選擇
枚舉值[不在]檢查
規則 - 依次選擇資料庫、表和列
- 輸入枚舉數組
[0,1]
- 選擇
-
進行期望值配置
- 如果沒有期望值則選擇
無
- 如果沒有期望值則選擇
-
進行校驗配置
- 選擇
實際值
檢查公式、>
比較符並輸入閾值10
- 這樣就構成
【實際值 > 10】
公式 ,公式成立時表示檢查結果為成功,否則是失敗。
- 選擇
-
進行錯誤數據配置
- 選擇保存在源數據源中,填寫已創建好的資料庫
-
完成配置後點擊
保存並運行
來執行檢查作業。
查看規則作業的信息
在 作業列表
找到剛剛創建並執行的檢查作業。
點擊 執行記錄
頁面, 你可以看到執行歷史列表。
點擊 日誌
按鈕,你可以看到規則執行的日誌信息。
點擊 結果
按鈕,你可以看到規則執行的檢查結果。
點擊 錯誤數據
按鈕,你可以看到規則執行的錯誤數據。
結束語
本文詳細介紹了Datavines平臺的部署安裝到運行的整個過程,每個環節圖文並茂,相信很多小伙伴都躍躍欲試了,動起來吧,更多精彩等著你來挖掘。
關於Datavane
Datavane 是一個專註於大數據領域的開源組織(社區),由一群大數據領域優秀的開源項目作者共同創建,旨在幫助開源項目作者更好的建設項目、為大眾提供高質量的開源軟體,宗旨是:只為做一個好軟體。目前已經聚集了一批優質的開源項目,涉及到數據集成、大數據組件管理、數據質量等。
在 Datavane 社區中,所有的項目都是開源開放的,代碼質量和架構設計優質的潛力項目。社區保持開放中立、協作創造、堅持精品,鼓勵所有的開發者、用戶和貢獻者積极參与我們的社區、共同合作,創新創造,建設一個更加強大的開源社區。
官 網: http://www.datavane.org/
Github : https://github.com/datavane