Apache DolphinScheduler數倉任務管理規範

来源:https://www.cnblogs.com/DolphinScheduler/p/18021313
-Advertisement-
Play Games

前言: 大數據領域對多種任務都有調度需求,以離線數倉的任務應用最多,許多團隊在調研開源產品後,選擇Apache DolphinScheduler(以下簡稱DS)作為調度場景的技術選型。得益於DS優秀的特性,在對數倉任務做運維和管理的時候,往往比較隨意,或將所有任務節點寫到一個工作流里,或將每個邏輯節 ...


前言: 大數據領域對多種任務都有調度需求,以離線數倉的任務應用最多,許多團隊在調研開源產品後,選擇Apache DolphinScheduler(以下簡稱DS)作為調度場景的技術選型。得益於DS優秀的特性,在對數倉任務做運維和管理的時候,往往比較隨意,或將所有任務節點寫到一個工作流里,或將每個邏輯節點單獨定義一個工作流, 缺少與數倉建模對應的任務管理規範;

這造成了數據管理困難和異常容錯繁瑣等痛點,本文基於數倉建模標準的方法論,構建一套用於DS管理數倉任務的規範,避免以上痛點。

海豚調度數倉任務現狀分析

本文緣起社區負責人的痛點定位;在使用DS做數倉任務管理時,數據建模分層落地到調度上缺少規範,社區用戶用起來比較亂,基於這個原因,寫了這篇文章。

file

在使用調度能力的時候,一些常見的場景如下:

一個任務流構建數倉所有的邏輯節點

Apache DolphinScheduler里有任務血緣的概念,這個概念和數據血緣有許多類似的地方;在構建調度任務的時候,用戶容易將任務血緣和數據血緣混淆,希望在構建數倉生命周期的時候,通過任務血緣呈現出數據血緣的關係,這導致丟失了數據建模規範的分層管理。

類似例子如下:

單個工作流:

file

包含所有計算邏輯:

file

優點:這樣做的好處是可以在一個工作流里直觀的復現數據建模;

缺點:對於數據管理困難,只能人為的觀察定位數據情況;

任務運行異常後,容錯困難,要排查所有邏輯節點,並將計算邏輯回滾,這是特別繁瑣的過程;

每個邏輯節點構建一個任務流

除了將整個數倉的邏輯包裝到一個工作流,還有另外一種方式:將每個邏輯節點包裝成一個工作流;這種能很好的將計算邏輯解耦,任務運行異常的時候邏輯回歸也清晰簡單;但是依舊沒有做到合理的數倉建模分層管理,且操作繁瑣,面對超大量任務時,創建工作流將成為一種負擔。

類似例子如下:

file

優點:優秀的異常容錯,任務出現異常計算的時候,前後任務邏輯就能異常回滾重跑;

缺點:任務流創建繁瑣,且沒有做好數倉規範的數據分層管理。

數倉任務管理調度****需求分析

從數倉的視角,任務調度核心需求是:任務類型、依賴關係、定時調度、任務優先順序,以及數倉分層管理,層級依賴(調度系統的視角,還有高可用、告警、資源管理、用戶安全、易用性、可擴展等能力)。

任務類型、依賴關係、定時調度、任務優先順序是系統提供的能力,數倉分層管理和層級依賴是調度能力之上的任務管理規範。這裡參考數據建模規範構建與之對應的任務管理規範。

數據建模架構如下:

file

數據建模到數倉開發過程中需要關註4點:

  1. 邏輯開發:數據需求的實現;

  2. 數據管理:各層級數據劃分;

  3. 開發依賴:數據層級依賴實現;

  4. 異常容錯:異常任務定位和數據複原重跑。

構建在調度系統之上的數倉任務編排規範,需要滿足以上要求。

數倉開發任務管理規範

為了和數據建模規範保持一致,我們按照數據建模的分層理論,設計調度任務的編排規範。

從頂層設計上將工作流定義為3類:

  • 數倉分層工作流:ODS、DIM、DW、ADS每層一個工作流;DW層可以根據業務需求,細分出三個DWD、DWM、DWS等好實現業務需求的單獨任務流管理;

  • 數倉任務Master管理工作流:將數倉分層,按照開發依賴串聯到一個工作流中統一管理;

  • 異常容錯工作流:數倉運行過程中,中途出錯或者結果異常,需要數據環境複原,就可以將中間表清理邏輯包裝在異常容錯工作流,做統一數據清理,然後再從頭跑數倉任務。

數倉開發工作流規範如下:

file

數倉每層工作流只關註每層的邏輯;以ODS層為例,該層提供多個數據應用方數據支持,所以在這個任務工作流里,構建這一層的所有邏輯節點:

file

運行任務管理Master工作流,節點佈局規範如下:

file

異常容錯工作流:

這一個工作流,主要是為了在任務運行異常時,刪除中間表計算的新增結果;

依據數據模型的表設計,想將DS的任務血緣當簡單數據血緣使用需求的,可以在這一個工作流里將節點關聯,數據清理和任務血緣不衝突,還可以順便檢測數據清理情況。

結語

除此之外,數倉還有一些局部概念需要在任務編排上做規範,比如需要將DS項目和數倉映射,一個DS項目管理一個數倉;需要將數據集市和工作流映射,ADS層有多種數據應用場景就拆分成多個工作流等;本文的規範是以數倉標準數據模型構建的,如果有特殊需求,可以在這個任務管理規範基礎上做相應調整。

如果這份博客對大家有幫助,希望各位給i7楊一個免費的點贊

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 隨著現代軟體對性能和響應速度的要求越來越高,非同步編程已經成為許多開發者必須掌握的技能。C# 提供了多種實現非同步編程的方式,每種方式都有其特定的適用場景和優缺點。本文將詳細介紹 C# 中實現非同步編程的常用方式,幫助讀者更好地理解並選擇合適的非同步編程方法。 一、Task 和 Task C# 5.0 引入 ...
  • 0.前言 哥們馬上就要被裁了,總得整理一下技術方面的積累,準備開始下一輪的面試和找工作之旅了。。。。 1.概述 通用串列匯流排(USB)是主機和外圍設備之間的一種連接。 從拓撲上來看,是一顆由幾個點對點的連接構建而成的樹。這些連接是連接設備和集線器(hub)的四線電纜(底線、電源線和兩根信號線)。US ...
  • 大家好,我是知微! 雖然現在網上的技術文章非常多,但缺點是知識點太零散。 書籍是經過精心整理和編排的,仍舊是非常優秀的學習資料。下麵一起來看看本文推薦的10本書吧! 《啊哈C語言》 這本書物融合了生動活潑的漫畫、風趣幽默的文字,以淺顯易懂的方式探討編程思維。 特別適合想要掌握C語言基礎的初學者小伙伴 ...
  • 一、準備“武器” 本文是通過虛擬機搭建 OOS 測試環境的,4567是3的前提,武器提取 le73 1、VMWare Workstation 17 Player 2、Windows Server 2016 鏡像(需要 Office Online Server 2017 年 4 月或更高版本) 3、O ...
  • 新版的 Windows 經常會自動檢查更新,然後在某個夜深人靜的晚上幫你自動更新。 對於自動更新,一般的解決方案是直接禁用 Windows 更新服務。這種方式雖然關閉了自動更新,但會影響手動更新。Windows 的設置中可以設置暫停自動更新,但是最長只能設置暫停一周。下麵介紹一種延長暫停自動更新時間 ...
  • Linux 命令基礎 命令基礎格式 command [-options] [parameter] command:命令本身 -options:[可選,非必填]命令的一些選項,可以通過選項控制命令的行為細節 parameter:[可選,非必填]命令的參數,多數用於命令的指向目標等 示例: ls -l ...
  • 前言: 如果你想在 VMware 虛擬機裡面多開玩游戲的話,但是現在大多數網游都會檢測是否虛擬機,進入游戲被檢測到在虛擬機中運行,游戲可能直接閃退。所以就得對 VMware 虛擬機進行去除虛擬化。 原理就是通過十六進位工具對 VMware 虛擬機程式進行修改硬體的信息,分別把硬碟、音效卡、網卡、主板芯 ...
  • GaussDB(for MySQL) Serverless集群,可根據客戶業務實時負載,集群資源秒級動態彈降,結合內核深度優化,在各種場景下做到對上層業務透明無感。 ...
一周排行
    -Advertisement-
    Play Games
  • 通過WPF的按鈕、文本輸入框實現了一個簡單的SpinBox數字輸入用戶組件並可以通過數據綁定數值和步長。本文中介紹了通過Xaml代碼實現自定義組件的佈局,依賴屬性的定義和使用等知識點。 ...
  • 以前,我看到一個朋友在對一個系統做初始化的時候,通過一組魔幻般的按鍵,調出來一個隱藏的系統設置界面,這個界面在常規的菜單或者工具欄是看不到的,因為它是一個後臺設置的關鍵界面,不公開,同時避免常規用戶的誤操作,它是作為一個超級管理員的入口功能,這個是很不錯的思路。其實Winform做這樣的處理也是很容... ...
  • 一:背景 1. 講故事 前些天有位朋友找到我,說他的程式每次關閉時就會自動崩潰,一直找不到原因讓我幫忙看一下怎麼回事,這位朋友應該是第二次找我了,分析了下 dump 還是挺經典的,拿出來給大家分享一下吧。 二:WinDbg 分析 1. 為什麼會崩潰 找崩潰原因比較簡單,用 !analyze -v 命 ...
  • 在一些報表模塊中,需要我們根據用戶操作的名稱,來動態根據人員姓名,更新報表的簽名圖片,也就是電子手寫簽名效果,本篇隨筆介紹一下使用FastReport報表動態更新人員簽名圖片。 ...
  • 最新內容優先發佈於個人博客:小虎技術分享站,隨後逐步搬運到博客園。 創作不易,如果覺得有用請在Github上為博主點亮一顆小星星吧! 博主開始學習編程於11年前,年少時還只會使用cin 和cout ,給單片機點點燈。那時候,類似async/await 和future/promise 模型的認知還不是 ...
  • 之前在阿裡雲ECS 99元/年的活動實例上搭建了一個測試用的MINIO服務,以前都是直接當基礎設施來使用的,這次準備自己學一下S3相容API相關的對象存儲開發,因此有了這個小工具。目前僅包含上傳功能,後續計劃開發一個類似圖床的對象存儲應用。 ...
  • 目錄簡介快速入門安裝 NuGet 包實體類User資料庫類DbFactory增刪改查InsertSelectUpdateDelete總結 簡介 NPoco 是 PetaPoco 的一個分支,具有一些額外的功能,截至現在 github 星數 839。NPoco 中文資料沒多少,我是被博客園群友推薦的, ...
  • 前言 前面使用 Admin.Core 的代碼生成器生成了通用代碼生成器的基礎模塊 分組,模板,項目,項目模型,項目欄位的基礎功能,本篇繼續完善,實現最核心的模板生成功能,並提供生成預覽及代碼文件壓縮下載 準備 首先清楚幾個模塊的關係,如何使用,簡單畫一個流程圖 前面完成了基礎的模板組,模板管理,項目 ...
  • 假設需要實現一個圖標和文本結合的按鈕 ,普通做法是 直接重寫該按鈕的模板; 如果想作為通用的呢? 兩種做法: 附加屬性 自定義控制項 推薦使用附加屬性的形式 第一種:附加屬性 創建Button的附加屬性 ButtonExtensions 1 public static class ButtonExte ...
  • 在C#中,委托是一種引用類型的數據類型,允許我們封裝方法的引用。通過使用委托,我們可以將方法作為參數傳遞給其他方法,或者將多個方法組合在一起,從而實現更靈活的編程模式。委托類似於函數指針,但提供了類型安全和垃圾回收等現代語言特性。 基本概念 定義委托 定義委托需要指定它所代表的方法的原型,包括返回類 ...