Apache DolphinScheduler數倉任務管理規範

来源:https://www.cnblogs.com/DolphinScheduler/p/18021313
-Advertisement-
Play Games

前言: 大數據領域對多種任務都有調度需求,以離線數倉的任務應用最多,許多團隊在調研開源產品後,選擇Apache DolphinScheduler(以下簡稱DS)作為調度場景的技術選型。得益於DS優秀的特性,在對數倉任務做運維和管理的時候,往往比較隨意,或將所有任務節點寫到一個工作流里,或將每個邏輯節 ...


前言: 大數據領域對多種任務都有調度需求,以離線數倉的任務應用最多,許多團隊在調研開源產品後,選擇Apache DolphinScheduler(以下簡稱DS)作為調度場景的技術選型。得益於DS優秀的特性,在對數倉任務做運維和管理的時候,往往比較隨意,或將所有任務節點寫到一個工作流里,或將每個邏輯節點單獨定義一個工作流, 缺少與數倉建模對應的任務管理規範;

這造成了數據管理困難和異常容錯繁瑣等痛點,本文基於數倉建模標準的方法論,構建一套用於DS管理數倉任務的規範,避免以上痛點。

海豚調度數倉任務現狀分析

本文緣起社區負責人的痛點定位;在使用DS做數倉任務管理時,數據建模分層落地到調度上缺少規範,社區用戶用起來比較亂,基於這個原因,寫了這篇文章。

file

在使用調度能力的時候,一些常見的場景如下:

一個任務流構建數倉所有的邏輯節點

Apache DolphinScheduler里有任務血緣的概念,這個概念和數據血緣有許多類似的地方;在構建調度任務的時候,用戶容易將任務血緣和數據血緣混淆,希望在構建數倉生命周期的時候,通過任務血緣呈現出數據血緣的關係,這導致丟失了數據建模規範的分層管理。

類似例子如下:

單個工作流:

file

包含所有計算邏輯:

file

優點:這樣做的好處是可以在一個工作流里直觀的復現數據建模;

缺點:對於數據管理困難,只能人為的觀察定位數據情況;

任務運行異常後,容錯困難,要排查所有邏輯節點,並將計算邏輯回滾,這是特別繁瑣的過程;

每個邏輯節點構建一個任務流

除了將整個數倉的邏輯包裝到一個工作流,還有另外一種方式:將每個邏輯節點包裝成一個工作流;這種能很好的將計算邏輯解耦,任務運行異常的時候邏輯回歸也清晰簡單;但是依舊沒有做到合理的數倉建模分層管理,且操作繁瑣,面對超大量任務時,創建工作流將成為一種負擔。

類似例子如下:

file

優點:優秀的異常容錯,任務出現異常計算的時候,前後任務邏輯就能異常回滾重跑;

缺點:任務流創建繁瑣,且沒有做好數倉規範的數據分層管理。

數倉任務管理調度****需求分析

從數倉的視角,任務調度核心需求是:任務類型、依賴關係、定時調度、任務優先順序,以及數倉分層管理,層級依賴(調度系統的視角,還有高可用、告警、資源管理、用戶安全、易用性、可擴展等能力)。

任務類型、依賴關係、定時調度、任務優先順序是系統提供的能力,數倉分層管理和層級依賴是調度能力之上的任務管理規範。這裡參考數據建模規範構建與之對應的任務管理規範。

數據建模架構如下:

file

數據建模到數倉開發過程中需要關註4點:

  1. 邏輯開發:數據需求的實現;

  2. 數據管理:各層級數據劃分;

  3. 開發依賴:數據層級依賴實現;

  4. 異常容錯:異常任務定位和數據複原重跑。

構建在調度系統之上的數倉任務編排規範,需要滿足以上要求。

數倉開發任務管理規範

為了和數據建模規範保持一致,我們按照數據建模的分層理論,設計調度任務的編排規範。

從頂層設計上將工作流定義為3類:

  • 數倉分層工作流:ODS、DIM、DW、ADS每層一個工作流;DW層可以根據業務需求,細分出三個DWD、DWM、DWS等好實現業務需求的單獨任務流管理;

  • 數倉任務Master管理工作流:將數倉分層,按照開發依賴串聯到一個工作流中統一管理;

  • 異常容錯工作流:數倉運行過程中,中途出錯或者結果異常,需要數據環境複原,就可以將中間表清理邏輯包裝在異常容錯工作流,做統一數據清理,然後再從頭跑數倉任務。

數倉開發工作流規範如下:

file

數倉每層工作流只關註每層的邏輯;以ODS層為例,該層提供多個數據應用方數據支持,所以在這個任務工作流里,構建這一層的所有邏輯節點:

file

運行任務管理Master工作流,節點佈局規範如下:

file

異常容錯工作流:

這一個工作流,主要是為了在任務運行異常時,刪除中間表計算的新增結果;

依據數據模型的表設計,想將DS的任務血緣當簡單數據血緣使用需求的,可以在這一個工作流里將節點關聯,數據清理和任務血緣不衝突,還可以順便檢測數據清理情況。

結語

除此之外,數倉還有一些局部概念需要在任務編排上做規範,比如需要將DS項目和數倉映射,一個DS項目管理一個數倉;需要將數據集市和工作流映射,ADS層有多種數據應用場景就拆分成多個工作流等;本文的規範是以數倉標準數據模型構建的,如果有特殊需求,可以在這個任務管理規範基礎上做相應調整。

如果這份博客對大家有幫助,希望各位給i7楊一個免費的點贊

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 隨著現代軟體對性能和響應速度的要求越來越高,非同步編程已經成為許多開發者必須掌握的技能。C# 提供了多種實現非同步編程的方式,每種方式都有其特定的適用場景和優缺點。本文將詳細介紹 C# 中實現非同步編程的常用方式,幫助讀者更好地理解並選擇合適的非同步編程方法。 一、Task 和 Task C# 5.0 引入 ...
  • 0.前言 哥們馬上就要被裁了,總得整理一下技術方面的積累,準備開始下一輪的面試和找工作之旅了。。。。 1.概述 通用串列匯流排(USB)是主機和外圍設備之間的一種連接。 從拓撲上來看,是一顆由幾個點對點的連接構建而成的樹。這些連接是連接設備和集線器(hub)的四線電纜(底線、電源線和兩根信號線)。US ...
  • 大家好,我是知微! 雖然現在網上的技術文章非常多,但缺點是知識點太零散。 書籍是經過精心整理和編排的,仍舊是非常優秀的學習資料。下麵一起來看看本文推薦的10本書吧! 《啊哈C語言》 這本書物融合了生動活潑的漫畫、風趣幽默的文字,以淺顯易懂的方式探討編程思維。 特別適合想要掌握C語言基礎的初學者小伙伴 ...
  • 一、準備“武器” 本文是通過虛擬機搭建 OOS 測試環境的,4567是3的前提,武器提取 le73 1、VMWare Workstation 17 Player 2、Windows Server 2016 鏡像(需要 Office Online Server 2017 年 4 月或更高版本) 3、O ...
  • 新版的 Windows 經常會自動檢查更新,然後在某個夜深人靜的晚上幫你自動更新。 對於自動更新,一般的解決方案是直接禁用 Windows 更新服務。這種方式雖然關閉了自動更新,但會影響手動更新。Windows 的設置中可以設置暫停自動更新,但是最長只能設置暫停一周。下麵介紹一種延長暫停自動更新時間 ...
  • Linux 命令基礎 命令基礎格式 command [-options] [parameter] command:命令本身 -options:[可選,非必填]命令的一些選項,可以通過選項控制命令的行為細節 parameter:[可選,非必填]命令的參數,多數用於命令的指向目標等 示例: ls -l ...
  • 前言: 如果你想在 VMware 虛擬機裡面多開玩游戲的話,但是現在大多數網游都會檢測是否虛擬機,進入游戲被檢測到在虛擬機中運行,游戲可能直接閃退。所以就得對 VMware 虛擬機進行去除虛擬化。 原理就是通過十六進位工具對 VMware 虛擬機程式進行修改硬體的信息,分別把硬碟、音效卡、網卡、主板芯 ...
  • GaussDB(for MySQL) Serverless集群,可根據客戶業務實時負載,集群資源秒級動態彈降,結合內核深度優化,在各種場景下做到對上層業務透明無感。 ...
一周排行
    -Advertisement-
    Play Games
  • 前言 微服務架構已經成為搭建高效、可擴展系統的關鍵技術之一,然而,現有許多微服務框架往往過於複雜,使得我們普通開發者難以快速上手並體驗到微服務帶了的便利。為瞭解決這一問題,於是作者精心打造了一款最接地氣的 .NET 微服務框架,幫助我們輕鬆構建和管理微服務應用。 本框架不僅支持 Consul 服務註 ...
  • 先看一下效果吧: 如果不會寫動畫或者懶得寫動畫,就直接交給Blend來做吧; 其實Blend操作起來很簡單,有點類似於在操作PS,我們只需要設置關鍵幀,滑鼠點來點去就可以了,Blend會自動幫我們生成我們想要的動畫效果. 第一步:要創建一個空的WPF項目 第二步:右鍵我們的項目,在最下方有一個,在B ...
  • Prism:框架介紹與安裝 什麼是Prism? Prism是一個用於在 WPF、Xamarin Form、Uno 平臺和 WinUI 中構建鬆散耦合、可維護和可測試的 XAML 應用程式框架 Github https://github.com/PrismLibrary/Prism NuGet htt ...
  • 在WPF中,屏幕上的所有內容,都是通過畫筆(Brush)畫上去的。如按鈕的背景色,邊框,文本框的前景和形狀填充。藉助畫筆,可以繪製頁面上的所有UI對象。不同畫筆具有不同類型的輸出( 如:某些畫筆使用純色繪製區域,其他畫筆使用漸變、圖案、圖像或繪圖)。 ...
  • 前言 嗨,大家好!推薦一個基於 .NET 8 的高併發微服務電商系統,涵蓋了商品、訂單、會員、服務、財務等50多種實用功能。 項目不僅使用了 .NET 8 的最新特性,還集成了AutoFac、DotLiquid、HangFire、Nlog、Jwt、LayUIAdmin、SqlSugar、MySQL、 ...
  • 本文主要介紹攝像頭(相機)如何採集數據,用於類似攝像頭本地顯示軟體,以及流媒體數據傳輸場景如傳屏、視訊會議等。 攝像頭採集有多種方案,如AForge.NET、WPFMediaKit、OpenCvSharp、EmguCv、DirectShow.NET、MediaCaptre(UWP),網上一些文章以及 ...
  • 前言 Seal-Report 是一款.NET 開源報表工具,擁有 1.4K Star。它提供了一個完整的框架,使用 C# 編寫,最新的版本採用的是 .NET 8.0 。 它能夠高效地從各種資料庫或 NoSQL 數據源生成日常報表,並支持執行複雜的報表任務。 其簡單易用的安裝過程和直觀的設計界面,我們 ...
  • 背景需求: 系統需要對接到XXX官方的API,但因此官方對接以及管理都十分嚴格。而本人部門的系統中包含諸多子系統,系統間為了穩定,程式間多數固定Token+特殊驗證進行調用,且後期還要提供給其他兄弟部門系統共同調用。 原則上:每套系統都必須單獨接入到官方,但官方的接入複雜,還要官方指定機構認證的證書 ...
  • 本文介紹下電腦設備關機的情況下如何通過網路喚醒設備,之前電源S狀態 電腦Power電源狀態- 唐宋元明清2188 - 博客園 (cnblogs.com) 有介紹過遠程喚醒設備,後面這倆天瞭解多了點所以單獨加個隨筆 設備關機的情況下,使用網路喚醒的前提條件: 1. 被喚醒設備需要支持這WakeOnL ...
  • 前言 大家好,推薦一個.NET 8.0 為核心,結合前端 Vue 框架,實現了前後端完全分離的設計理念。它不僅提供了強大的基礎功能支持,如許可權管理、代碼生成器等,還通過採用主流技術和最佳實踐,顯著降低了開發難度,加快了項目交付速度。 如果你需要一個高效的開發解決方案,本框架能幫助大家輕鬆應對挑戰,實 ...