Apache DolphinScheduler數倉任務管理規範

来源:https://www.cnblogs.com/DolphinScheduler/p/18021313
-Advertisement-
Play Games

前言: 大數據領域對多種任務都有調度需求,以離線數倉的任務應用最多,許多團隊在調研開源產品後,選擇Apache DolphinScheduler(以下簡稱DS)作為調度場景的技術選型。得益於DS優秀的特性,在對數倉任務做運維和管理的時候,往往比較隨意,或將所有任務節點寫到一個工作流里,或將每個邏輯節 ...


前言: 大數據領域對多種任務都有調度需求,以離線數倉的任務應用最多,許多團隊在調研開源產品後,選擇Apache DolphinScheduler(以下簡稱DS)作為調度場景的技術選型。得益於DS優秀的特性,在對數倉任務做運維和管理的時候,往往比較隨意,或將所有任務節點寫到一個工作流里,或將每個邏輯節點單獨定義一個工作流, 缺少與數倉建模對應的任務管理規範;

這造成了數據管理困難和異常容錯繁瑣等痛點,本文基於數倉建模標準的方法論,構建一套用於DS管理數倉任務的規範,避免以上痛點。

海豚調度數倉任務現狀分析

本文緣起社區負責人的痛點定位;在使用DS做數倉任務管理時,數據建模分層落地到調度上缺少規範,社區用戶用起來比較亂,基於這個原因,寫了這篇文章。

file

在使用調度能力的時候,一些常見的場景如下:

一個任務流構建數倉所有的邏輯節點

Apache DolphinScheduler里有任務血緣的概念,這個概念和數據血緣有許多類似的地方;在構建調度任務的時候,用戶容易將任務血緣和數據血緣混淆,希望在構建數倉生命周期的時候,通過任務血緣呈現出數據血緣的關係,這導致丟失了數據建模規範的分層管理。

類似例子如下:

單個工作流:

file

包含所有計算邏輯:

file

優點:這樣做的好處是可以在一個工作流里直觀的復現數據建模;

缺點:對於數據管理困難,只能人為的觀察定位數據情況;

任務運行異常後,容錯困難,要排查所有邏輯節點,並將計算邏輯回滾,這是特別繁瑣的過程;

每個邏輯節點構建一個任務流

除了將整個數倉的邏輯包裝到一個工作流,還有另外一種方式:將每個邏輯節點包裝成一個工作流;這種能很好的將計算邏輯解耦,任務運行異常的時候邏輯回歸也清晰簡單;但是依舊沒有做到合理的數倉建模分層管理,且操作繁瑣,面對超大量任務時,創建工作流將成為一種負擔。

類似例子如下:

file

優點:優秀的異常容錯,任務出現異常計算的時候,前後任務邏輯就能異常回滾重跑;

缺點:任務流創建繁瑣,且沒有做好數倉規範的數據分層管理。

數倉任務管理調度****需求分析

從數倉的視角,任務調度核心需求是:任務類型、依賴關係、定時調度、任務優先順序,以及數倉分層管理,層級依賴(調度系統的視角,還有高可用、告警、資源管理、用戶安全、易用性、可擴展等能力)。

任務類型、依賴關係、定時調度、任務優先順序是系統提供的能力,數倉分層管理和層級依賴是調度能力之上的任務管理規範。這裡參考數據建模規範構建與之對應的任務管理規範。

數據建模架構如下:

file

數據建模到數倉開發過程中需要關註4點:

  1. 邏輯開發:數據需求的實現;

  2. 數據管理:各層級數據劃分;

  3. 開發依賴:數據層級依賴實現;

  4. 異常容錯:異常任務定位和數據複原重跑。

構建在調度系統之上的數倉任務編排規範,需要滿足以上要求。

數倉開發任務管理規範

為了和數據建模規範保持一致,我們按照數據建模的分層理論,設計調度任務的編排規範。

從頂層設計上將工作流定義為3類:

  • 數倉分層工作流:ODS、DIM、DW、ADS每層一個工作流;DW層可以根據業務需求,細分出三個DWD、DWM、DWS等好實現業務需求的單獨任務流管理;

  • 數倉任務Master管理工作流:將數倉分層,按照開發依賴串聯到一個工作流中統一管理;

  • 異常容錯工作流:數倉運行過程中,中途出錯或者結果異常,需要數據環境複原,就可以將中間表清理邏輯包裝在異常容錯工作流,做統一數據清理,然後再從頭跑數倉任務。

數倉開發工作流規範如下:

file

數倉每層工作流只關註每層的邏輯;以ODS層為例,該層提供多個數據應用方數據支持,所以在這個任務工作流里,構建這一層的所有邏輯節點:

file

運行任務管理Master工作流,節點佈局規範如下:

file

異常容錯工作流:

這一個工作流,主要是為了在任務運行異常時,刪除中間表計算的新增結果;

依據數據模型的表設計,想將DS的任務血緣當簡單數據血緣使用需求的,可以在這一個工作流里將節點關聯,數據清理和任務血緣不衝突,還可以順便檢測數據清理情況。

結語

除此之外,數倉還有一些局部概念需要在任務編排上做規範,比如需要將DS項目和數倉映射,一個DS項目管理一個數倉;需要將數據集市和工作流映射,ADS層有多種數據應用場景就拆分成多個工作流等;本文的規範是以數倉標準數據模型構建的,如果有特殊需求,可以在這個任務管理規範基礎上做相應調整。

如果這份博客對大家有幫助,希望各位給i7楊一個免費的點贊

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 隨著現代軟體對性能和響應速度的要求越來越高,非同步編程已經成為許多開發者必須掌握的技能。C# 提供了多種實現非同步編程的方式,每種方式都有其特定的適用場景和優缺點。本文將詳細介紹 C# 中實現非同步編程的常用方式,幫助讀者更好地理解並選擇合適的非同步編程方法。 一、Task 和 Task C# 5.0 引入 ...
  • 0.前言 哥們馬上就要被裁了,總得整理一下技術方面的積累,準備開始下一輪的面試和找工作之旅了。。。。 1.概述 通用串列匯流排(USB)是主機和外圍設備之間的一種連接。 從拓撲上來看,是一顆由幾個點對點的連接構建而成的樹。這些連接是連接設備和集線器(hub)的四線電纜(底線、電源線和兩根信號線)。US ...
  • 大家好,我是知微! 雖然現在網上的技術文章非常多,但缺點是知識點太零散。 書籍是經過精心整理和編排的,仍舊是非常優秀的學習資料。下麵一起來看看本文推薦的10本書吧! 《啊哈C語言》 這本書物融合了生動活潑的漫畫、風趣幽默的文字,以淺顯易懂的方式探討編程思維。 特別適合想要掌握C語言基礎的初學者小伙伴 ...
  • 一、準備“武器” 本文是通過虛擬機搭建 OOS 測試環境的,4567是3的前提,武器提取 le73 1、VMWare Workstation 17 Player 2、Windows Server 2016 鏡像(需要 Office Online Server 2017 年 4 月或更高版本) 3、O ...
  • 新版的 Windows 經常會自動檢查更新,然後在某個夜深人靜的晚上幫你自動更新。 對於自動更新,一般的解決方案是直接禁用 Windows 更新服務。這種方式雖然關閉了自動更新,但會影響手動更新。Windows 的設置中可以設置暫停自動更新,但是最長只能設置暫停一周。下麵介紹一種延長暫停自動更新時間 ...
  • Linux 命令基礎 命令基礎格式 command [-options] [parameter] command:命令本身 -options:[可選,非必填]命令的一些選項,可以通過選項控制命令的行為細節 parameter:[可選,非必填]命令的參數,多數用於命令的指向目標等 示例: ls -l ...
  • 前言: 如果你想在 VMware 虛擬機裡面多開玩游戲的話,但是現在大多數網游都會檢測是否虛擬機,進入游戲被檢測到在虛擬機中運行,游戲可能直接閃退。所以就得對 VMware 虛擬機進行去除虛擬化。 原理就是通過十六進位工具對 VMware 虛擬機程式進行修改硬體的信息,分別把硬碟、音效卡、網卡、主板芯 ...
  • GaussDB(for MySQL) Serverless集群,可根據客戶業務實時負載,集群資源秒級動態彈降,結合內核深度優化,在各種場景下做到對上層業務透明無感。 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...