入門指南 | Datavines 安裝部署篇

来源:https://www.cnblogs.com/simple-focus/p/18401422
-Advertisement-
Play Games

摘要:本文主要介紹基於源碼部署 Datavines 和執行檢查作業,內容主要分為以下幾個部分: 平臺介紹 快速部署 運行數據質量檢查作業 Datavines 的目標是成為更好的數據可觀測性領域的開源項目,為更多的用戶去解決元數據管理和數據質量管理中遇到的問題。在此我們真誠歡迎更多的貢獻者參與到社區建 ...


摘要:本文主要介紹基於源碼部署 Datavines 和執行檢查作業,內容主要分為以下幾個部分:

  • 平臺介紹
  • 快速部署
  • 運行數據質量檢查作業

Datavines 的目標是成為更好的數據可觀測性領域的開源項目,為更多的用戶去解決元數據管理和數據質量管理中遇到的問題。在此我們真誠歡迎更多的貢獻者參與到社區建設中來,和我們一起成長,攜手共建更好的社區。

https://github.com/datavane/datavines
https://github.com/datavane/datavines/issues
https://github.com/datavane/datavines/pulls


平臺介紹

Datavines 是一站式開源數據可觀測性平臺,提供元數據管理、數據概覽報告、數據質量管理,數據分佈查詢、數據趨勢洞察等核心能力,致力於幫助用戶全面地瞭解和掌管數據,讓您做到心中有數.

快速部署

環境準備

在安裝 Datavines 之前請確保你的伺服器上已經安裝下麵軟體

  • Git,確保 git clone的順利執行
  • JDK,確保 jdk >= 8
  • Maven, 確保項目的順利打包(當然你也可以在本地打包以後上傳至伺服器)
  • MySQL, 確保版本 >=5.7

下載代碼

git clone https://github.com/datavane/datavines.git
cd datavines

資料庫準備

Datavines 的元數據是存儲在關係型資料庫中,目前支持 MySQL ,下麵以 MySQL 為例說明安裝步驟:

  • 創建資料庫 datavines
  • 執行 script/sql/datavines-mysql.sql 腳本進行資料庫的初始化

項目構建

打包並解壓

mvn clean package -Prelease
cd datavines-dist/target
tar -zxvf datavines-1.0.0-SNAPSHOT-bin.tar.gz

解壓完成以後進入目錄

cd datavines-1.0.0-SNAPSHOT-bin

編輯配置信息

cd conf
vi application.yaml

修改資料庫信息

spring:
 datasource:
   driver-class-name: com.mysql.cj.jdbc.Driver
   url: jdbc:mysql://127.0.0.1:3306/datavines?useUnicode=true&characterEncoding=UTF-8
   username: root
   password: 123456

如果你是使用 Spark 做為執行引擎,並且是提交到 yarn 上面去執行的,那麼需要在 common.properties 中配置 yarn 相關的信息

  • standalone 模式
yarn.mode=standalone
yarn.application.status.address=http://%s:%s/ws/v1/cluster/apps/%s #第一個%s需要被替換成yarn的ip地址
yarn.resource.manager.http.address.port=8088
  • ha 模式
yarn.mode=ha
yarn.application.status.address=http://%s:%s/ws/v1/cluster/apps/%s
yarn.resource.manager.http.address.port=8088
yarn.resource.manager.ha.ids=192.168.0.1,192.168.0.2

啟動服務

cd bin
sh datavines-daemon.sh start mysql

查看日誌,如果日誌裡面沒有報錯信息,並且能看到
[INFO] 2022-04-10 12:29:05.447 io.datavines.server.DatavinesServer:[61] - Started DatavinesServer in 3.97 seconds (JVM running for 4.69) 的時候,證明服務已經成功啟動。

訪問前端頁面

在瀏覽器輸入: 伺服器IP:5600 ,就會跳轉至登錄界面,輸入賬號密碼 admin/123456

運行數據質量檢查作業

創建數據源

進入首頁後,點擊右上角 創建數據源 按鈕,輸入數據源的名稱,然後選擇數據源類型。以 MySQL 為例,輸入 MySQL 的連接信息,點擊 測試連接 按鈕。如果成功,請單擊 保存

進入數據源

點擊併進入數據源,找到 作業管理 頁面

創建檢查作業

  • 點擊 創建規則作業 按鈕,選擇 數據質量作業

  • 進入規則的配置頁面

  • 進行規則配置

    • 選擇 枚舉值[不在]檢查 規則
    • 依次選擇資料庫、表和列
    • 輸入枚舉數組 [0,1]
  • 進行期望值配置

    • 如果沒有期望值則選擇
  • 進行校驗配置

    • 選擇 實際值 檢查公式、 > 比較符並輸入閾值 10
    • 這樣就構成 【實際值 > 10】 公式 ,公式成立時表示檢查結果為成功,否則是失敗。
  • 進行錯誤數據配置

    • 選擇保存在源數據源中,填寫已創建好的資料庫
  • 完成配置後點擊 保存並運行 來執行檢查作業。

查看規則作業的信息

作業列表 找到剛剛創建並執行的檢查作業。

點擊 執行記錄 頁面, 你可以看到執行歷史列表。

點擊 日誌 按鈕,你可以看到規則執行的日誌信息。

點擊 結果 按鈕,你可以看到規則執行的檢查結果。

點擊 錯誤數據 按鈕,你可以看到規則執行的錯誤數據。

結束語

本文詳細介紹了Datavines平臺的部署安裝到運行的整個過程,每個環節圖文並茂,相信很多小伙伴都躍躍欲試了,動起來吧,更多精彩等著你來挖掘。

關於Datavane

Datavane 是一個專註於大數據領域的開源組織(社區),由一群大數據領域優秀的開源項目作者共同創建,旨在幫助開源項目作者更好的建設項目、為大眾提供高質量的開源軟體,宗旨是:只為做一個好軟體。目前已經聚集了一批優質的開源項目,涉及到數據集成、大數據組件管理、數據質量等。

在 Datavane 社區中,所有的項目都是開源開放的,代碼質量和架構設計優質的潛力項目。社區保持開放中立、協作創造、堅持精品,鼓勵所有的開發者、用戶和貢獻者積极參与我們的社區、共同合作,創新創造,建設一個更加強大的開源社區。

官 網: http://www.datavane.org/
Github : https://github.com/datavane


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • tcp mem 相關 net.ipv4.tcp_rmem = 4096 131072 6291456 讀取緩衝區,單位位元組 net.ipv4.tcp_wmem = 4096 16384 4194304 發送緩衝區,單位位元組 net.ipv4.tcp_mem = 760707 1014278 1521 ...
  • 導讀:數據同步方式的重要性對於數據集成領域的興從業者不言而喻,選擇正確的數據同步方式能讓數據同步工作的成果事半功倍。目市面上的數據同步工具很多,提供的數據同步方式也有多種,不同的數據同步方式有什麼區別?如何選擇適合自己業務需求的數據同步方式呢?本文將對此進行深入分析,並深入剖析WhaleTunnel ...
  • 《數據資產管理核心技術與應用》是清華大學出版社出版的一本圖書,全書共分10章,第1章主要讓讀者認識數據資產,瞭解數據資產相關的基礎概念,以及數據資產的發展情況。第2~8章主要介紹大數據時代數據資產管理所涉及的核心技術,內容包括元數據的採集與存儲、數據血緣、數據質量、數據監控與告警、數據服務、數據許可權 ...
  • 介紹: MyBatis-Plus 是基於 MyBatis 框架的一個增強工具,主要目的是簡化 MyBatis 的開發過程,提供更加簡潔、方便的 CRUD 操作。它是在保留 MyBatis 強大功能的基礎上,通過封裝和優化一些常見操作來提高開發效率。 MyBatis-Plus 提供了許多開箱即用的功能 ...
  • 時空人工智慧 時空人工智慧是AI領域的新型創新應用技術,定義為以時空為‘索引’對多源異構數據進行時空化治理和融合,並借力知識工程和AI演算法進行智能化分析,從而挖掘知識和輔助決策。時空AI是地理空間智能、城市空間智能和時空大數據智能等的統一表示,包括從時空感知、認知到決策預知的多項核心技術。其應用生態 ...
  • 在用鍵值對RDD進行操作時,經常會遇到不知道如何篩選出想要數據的情況,這裡提供了一些解決方法 目錄1、對固定的Key數據進行查詢2、對不固定的Key數據進行模糊查詢 1、對固定的Key數據進行查詢 代碼說明: SparkConf:配置 Spark 應用程式的一些基本信息。 SparkContext: ...
  • 寫在前面 今天學習hadoop部分的知識。 Hadoop 概述 Hadoop 是一個適合海量數據的分散式存儲和分散式計算的平臺。Hadoop 的處理思想是“分而治之”。它起源於 Google 的三篇文章:Google FS(GFS),MapReduce,BigTable。Hadoop 主要包含三個核 ...
  • 本系列文章是 DolphinScheduler 由淺入深的教程,涵蓋搭建、二開迭代、核心原理解讀、運維和管理等一系列內容。適用於想對 DolphinScheduler瞭解或想要加深理解的讀者。 推薦閱讀: 海豚調度監控:使用圖關係解決核心鏈路告警問題,減輕任務運維負擔,用戶五星好評! 海豚調度 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...