Apache DolphinScheduler數倉任務管理規範

-Advertisement-

前言：大數據領域對多種任務都有調度需求，以離線數倉的任務應用最多，許多團隊在調研開源產品後，選擇Apache DolphinScheduler（以下簡稱DS）作為調度場景的技術選型。得益於DS優秀的特性，在對數倉任務做運維和管理的時候，往往比較隨意，或將所有任務節點寫到一個工作流里，或將每個邏輯節 ...

前言： 大數據領域對多種任務都有調度需求，以離線數倉的任務應用最多，許多團隊在調研開源產品後，選擇Apache DolphinScheduler（以下簡稱DS）作為調度場景的技術選型。得益於DS優秀的特性，在對數倉任務做運維和管理的時候，往往比較隨意，或將所有任務節點寫到一個工作流里，或將每個邏輯節點單獨定義一個工作流，缺少與數倉建模對應的任務管理規範；

這造成了數據管理困難和異常容錯繁瑣等痛點，本文基於數倉建模標準的方法論，構建一套用於DS管理數倉任務的規範，避免以上痛點。

海豚調度數倉任務現狀分析

本文緣起社區負責人的痛點定位；在使用DS做數倉任務管理時，數據建模分層落地到調度上缺少規範，社區用戶用起來比較亂，基於這個原因，寫了這篇文章。

file

在使用調度能力的時候，一些常見的場景如下：

一個任務流構建數倉所有的邏輯節點

Apache DolphinScheduler里有任務血緣的概念，這個概念和數據血緣有許多類似的地方；在構建調度任務的時候，用戶容易將任務血緣和數據血緣混淆，希望在構建數倉生命周期的時候，通過任務血緣呈現出數據血緣的關係，這導致丟失了數據建模規範的分層管理。

類似例子如下：

單個工作流：

file

包含所有計算邏輯：

file

優點：這樣做的好處是可以在一個工作流里直觀的復現數據建模；

缺點：對於數據管理困難，只能人為的觀察定位數據情況；

任務運行異常後，容錯困難，要排查所有邏輯節點，並將計算邏輯回滾，這是特別繁瑣的過程；

每個邏輯節點構建一個任務流

除了將整個數倉的邏輯包裝到一個工作流，還有另外一種方式：將每個邏輯節點包裝成一個工作流；這種能很好的將計算邏輯解耦，任務運行異常的時候邏輯回歸也清晰簡單；但是依舊沒有做到合理的數倉建模分層管理，且操作繁瑣，面對超大量任務時，創建工作流將成為一種負擔。

類似例子如下：

file

優點：優秀的異常容錯，任務出現異常計算的時候，前後任務邏輯就能異常回滾重跑；

缺點：任務流創建繁瑣，且沒有做好數倉規範的數據分層管理。

數倉任務管理調度****需求分析

從數倉的視角，任務調度核心需求是：任務類型、依賴關係、定時調度、任務優先順序，以及數倉分層管理，層級依賴（調度系統的視角，還有高可用、告警、資源管理、用戶安全、易用性、可擴展等能力）。

任務類型、依賴關係、定時調度、任務優先順序是系統提供的能力，數倉分層管理和層級依賴是調度能力之上的任務管理規範。這裡參考數據建模規範構建與之對應的任務管理規範。

數據建模架構如下：

file

數據建模到數倉開發過程中需要關註4點：

邏輯開發：數據需求的實現；
數據管理：各層級數據劃分；
開發依賴：數據層級依賴實現；
異常容錯：異常任務定位和數據複原重跑。

構建在調度系統之上的數倉任務編排規範，需要滿足以上要求。

數倉開發任務管理規範

為了和數據建模規範保持一致，我們按照數據建模的分層理論，設計調度任務的編排規範。

從頂層設計上將工作流定義為3類：

數倉分層工作流：ODS、DIM、DW、ADS每層一個工作流；DW層可以根據業務需求，細分出三個DWD、DWM、DWS等好實現業務需求的單獨任務流管理；
數倉任務Master管理工作流：將數倉分層，按照開發依賴串聯到一個工作流中統一管理；
異常容錯工作流：數倉運行過程中，中途出錯或者結果異常，需要數據環境複原，就可以將中間表清理邏輯包裝在異常容錯工作流，做統一數據清理，然後再從頭跑數倉任務。

數倉開發工作流規範如下：

file

數倉每層工作流只關註每層的邏輯；以ODS層為例，該層提供多個數據應用方數據支持，所以在這個任務工作流里，構建這一層的所有邏輯節點：

file

運行任務管理Master工作流，節點佈局規範如下：

file

異常容錯工作流：

這一個工作流，主要是為了在任務運行異常時，刪除中間表計算的新增結果；

依據數據模型的表設計，想將DS的任務血緣當簡單數據血緣使用需求的，可以在這一個工作流里將節點關聯，數據清理和任務血緣不衝突，還可以順便檢測數據清理情況。

結語

除此之外，數倉還有一些局部概念需要在任務編排上做規範，比如需要將DS項目和數倉映射，一個DS項目管理一個數倉；需要將數據集市和工作流映射，ADS層有多種數據應用場景就拆分成多個工作流等；本文的規範是以數倉標準數據模型構建的，如果有特殊需求，可以在這個任務管理規範基礎上做相應調整。

如果這份博客對大家有幫助，希望各位給i7楊一個免費的點贊

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

C#實現非同步編程的常用方式總結

隨著現代軟體對性能和響應速度的要求越來越高，非同步編程已經成為許多開發者必須掌握的技能。C# 提供了多種實現非同步編程的方式，每種方式都有其特定的適用場景和優缺點。本文將詳細介紹 C# 中實現非同步編程的常用方式，幫助讀者更好地理解並選擇合適的非同步編程方法。一、Task 和 Task C# 5.0 引入 ...
嵌入式Linux開發-USB驅動

0.前言哥們馬上就要被裁了，總得整理一下技術方面的積累，準備開始下一輪的面試和找工作之旅了。。。。 1.概述通用串列匯流排(USB)是主機和外圍設備之間的一種連接。從拓撲上來看，是一顆由幾個點對點的連接構建而成的樹。這些連接是連接設備和集線器(hub)的四線電纜(底線、電源線和兩根信號線)。US ...
嵌入式軟體必讀10本書_單片機篇

大家好，我是知微！雖然現在網上的技術文章非常多，但缺點是知識點太零散。書籍是經過精心整理和編排的，仍舊是非常優秀的學習資料。下麵一起來看看本文推薦的10本書吧！《啊哈C語言》這本書物融合了生動活潑的漫畫、風趣幽默的文字，以淺顯易懂的方式探討編程思維。特別適合想要掌握C語言基礎的初學者小伙伴 ...
Office Online Server Windows Server 2016 部署

一、準備“武器” 本文是通過虛擬機搭建 OOS 測試環境的，4567是3的前提，武器提取 le73 1、VMWare Workstation 17 Player 2、Windows Server 2016 鏡像（需要 Office Online Server 2017 年 4 月或更高版本） 3、O ...
禁用Windows自動更新並允許手動更新

新版的 Windows 經常會自動檢查更新，然後在某個夜深人靜的晚上幫你自動更新。對於自動更新，一般的解決方案是直接禁用 Windows 更新服務。這種方式雖然關閉了自動更新，但會影響手動更新。Windows 的設置中可以設置暫停自動更新，但是最長只能設置暫停一周。下麵介紹一種延長暫停自動更新時間 ...
第二十三天：mysql數據備份及還原

Linux 命令基礎命令基礎格式 command [-options] [parameter] command：命令本身 -options：[可選,非必填]命令的一些選項,可以通過選項控制命令的行為細節 parameter：[可選,非必填]命令的參數,多數用於命令的指向目標等示例: ls -l ...
VMware 虛擬機一鍵去虛擬化工具

前言：如果你想在 VMware 虛擬機裡面多開玩游戲的話，但是現在大多數網游都會檢測是否虛擬機，進入游戲被檢測到在虛擬機中運行，游戲可能直接閃退。所以就得對 VMware 虛擬機進行去除虛擬化。原理就是通過十六進位工具對 VMware 虛擬機程式進行修改硬體的信息，分別把硬碟、音效卡、網卡、主板芯 ...
GaussDB(for MySQL) Serverless全面商用：無感彈性，極致性價比

GaussDB(for MySQL) Serverless集群，可根據客戶業務實時負載，集群資源秒級動態彈降，結合內核深度優化，在各種場景下做到對上層業務透明無感。 ...