Apache DolphinScheduler即將迎來3.3.0版本的發佈,屆時將有一系列重要的更新和改進。在近期的社區5月份用戶線上分享會上,項目PMC 阮文俊為大家介紹了3.3.0版本將帶來的主要更新和改進,併為大家指出瞭如何參與社區的方式。 什麼是DolphinScheduler? Dolph ...
Apache DolphinScheduler即將迎來3.3.0版本的發佈,屆時將有一系列重要的更新和改進。在近期的社區5月份用戶線上分享會上,項目PMC 阮文俊為大家介紹了3.3.0版本將帶來的主要更新和改進,併為大家指出瞭如何參與社區的方式。
什麼是DolphinScheduler?
DolphinScheduler是一個開源的項目,主要用來進行工作流編排、運行和管理。
它有四個重要的特點:
- 工作流是基本單位,所有的功能設計都是圍繞工作流
- 這是一個低代碼平臺,可以不用代碼,或用少量的代碼來完成工作流相關的工作
- 不用數據遷移即可進行伺服器節點的擴縮容
- 採用插件化架構
工作流是基本單位
- 工作流可以包含任務和子工作流,每個任務都需要屬於一個工作流。
- 工作流可以依賴其他工作流,工作流是最小的執行單元。
- 工作流的執行支持手動或自動觸發。
無/低代碼操作
- 可以在UI門戶,通過頁面托拉拽的交互方式完成工作流的定義和管控操作;
- 也可以通過OpenAPI或PyDolphinScheduler來完成對工作流的相關操作。
無需數據遷移進行擴縮容
- 元數據存儲在共用的關係資料庫中,無需數據遷移即可擴展系統。
- 服務上線時自動註冊到集群,服務下線時,運行中的任務自動轉移,無需人工介入。
插件化架構
- 工作流引擎之外的組件以插件形式實現。
- 報警插件:Email、Http、微信、Slack等
- 任務插件:Shell, SQL, Spark, K8s等
- 數據源插件:Mysql, PG, Oracle等
- 支持Zookeeper、JDBC、ETCD作為註冊中心
- 支持HDFS、S3、OSS等存儲系統
接下來看一下3.3.0版本中有哪些新的變化。
3.3.0版本更新一覽
架構更新
3.3.0版本在整體架構和部署方式上沒有太大的變化,依然是三個核心服務:API主要用來做一些源數據的管理和授權方面的事情,Master主要是用來做工作流的編排和執行,Worker主要用來做任務的執行和管控。大部份核心組件通過插件的方式被載入。
新版中的一些重大變化包括:
新的任務插件介面
之前的版本在任務插件定義上有著如下問題:
- 任務插件中的方法與生命周期不匹配,在任務插件定義上沒有暴露生命周期的方法,導致任務插件實現時會缺失,暫停、容錯等控制方法。。
- 目前的任務插件介面過於複雜,任務插件介面包含很多子插件的方法,導致任務插件介面越來越膨脹。
3.3.0版本將引入新的任務插件定義介面(V2版本)來管理任務插件實例的生命周期。任務插件實例的生命周期管理包括運行、暫停、殺死、容錯、成功和失敗狀態。
新的任務插件介面會更加清晰明瞭:
- 增加ITaskApplicationContext:表示任務插件實例運行的上下文信息,例如 processId、applicationId
- 增加ITaskListenerManager:可以註冊用於偵聽任務插件實例的信息更改,便於對任務執行流程進行擴展
容錯改進
- Master容錯:
- 對下線的Master節點持有的工作流程進行容錯
- 插入工作流容錯命令
- 工作流容錯將從Worker伺服器接管正在運行的任務
- Worker容錯:
- 處理下線的Worker節點運行的任務
- 把容錯任務分發給新的Worker節點
- 不同的任務插件的容錯行為可能會不同
- 支持精確一次(exactly-once)、至少一次(at-least-once)、至多一次(at-most-once)的容錯行為
參數優先順序統一
此前,DolphinScheduler中有多重參數類型,包括啟動參數、工作流定義參數、任務定義參數、租戶參數等,但存在的問題是這些參數沒有統一的優先順序,有些參數在運行時無法更改。
在3.3.0版本中,我們對參數優先順序進行了優化:
- 統一了參數優先順序,遵循就近原則,如啟動參數 > 任務定義參數 > 工作流定義參數。
- 啟動參數優先順序最高,其他參數可被啟動參數覆蓋,解決了參數優先順序不一致以及某些參數無法在運行時更改的問題。
工作流觸發解耦
目前,DolphinScheduler中所有工作流觸發都通過命令表示。目前的方式存在以下弊端:
- 只能在資料庫中插入觸發命令,trigger與資料庫嚴格綁定
- 沒有觸發命令的schema,難以擴展新的觸發
新版本對工作流觸發進行瞭解耦,並可以通過消息中間件來進行工作流觸發:
- 提供了標準的Trigger schema,方便擴展trigger
- 引入CommandEngine組件來探測待處理的命令
- 命令的repository不再僅限於關係型資料庫,支持從流式系統(如Kafka)中消費命令
事件線程模型改進
當前,DolphinScheduler Master中存在兩個事件線程池,分別處理工作流事件和任務狀態變更事件。這樣的模型導致運行中很難協調這兩個線程池,而且事件的順序可能會丟失,並且用戶也很難去設置這兩個線程池的大小。
為了改變這一點,3.3.0中做了以下優化:
- 合併兩個事件線程池,一個工作流中的所有事件按FIFO順序在事件隊列中處理
- 提供了更多的事件指標和事件查詢介面,便於監控和管理工作流事件
支持接入多個Hadoop/S3集群
3.3.0之前版本中,噹噹資源中心配置HDFS/S3,配置第三方系統任務時只能通過配置文件去進行配置,這就導致在運行時不能新增Hadoop集群或S3集群。而且配置文件過大。
新版本中這一塊有了變化:
- 允許在元數據存儲中進行配置
- 支持多個集群
- 支持在運行時添加新集群
- 不同任務可以使用不同的集群
AlertServer改進
AlertServer通過HA實現了高可用,使用單線程發送警報。這就導致需要使用額外的機器來部署AlertServer。
新版本中,允許用戶將AlertServer嵌入API伺服器,並採用多線程模型發送警報,提高了效率。
以上為Apache DolphinScheduler 3.3.0版本將帶來的新功能與優化項參考,具體更新內容請關註官網和GitHub發佈消息。
如何參與社區
- 郵件:是討論問題的首選方式,包括用戶和開發者郵件列表,用來討論使用問題、設計方案、新的想法等,以及新版本發佈投票。
- 用戶組郵件:[email protected]
- 開發者郵件:[email protected]
- GitHub:是參與項目最簡單的方式,包括DolphinScheduler的多個GitHub倉庫
- 通過DSIP引入新功能是惟一的渠道
- 提bug和修bug同樣重要
- PR越簡單越好
- https://github.com/apache/dolphinscheduler
- https://github.com/apache/dolphinscheduler-website
- https://github.com/apache/dolphinscheduler-operator
- https://github.com/apache/dolphinscheduler-sdk-python
- https://github.com/apache/dolphinscheduler
- 註意事項:
- 通過DSIP引入新功能是唯一的渠道
- 彙報bug和修bug同樣重要
- PR越簡單越好
結語
Apache DolphinScheduler 3.3.0版本帶來了多項重要更新,增強了系統的穩定性、擴展性和易用性。我們鼓勵社區成員積极參与,共同推動項目的發展。
嘉賓簡介
- 姓名:阮文俊
- Title:Apache DolphinScheduler/SeaTunnel/EventMesh PMC 成員
- GitHub:ruanwenjun
- 就職經歷:白鯨開源/eBay/拼多多
- 專業領域:專註於分散式系統和微服務中間件
本文由 白鯨開源 提供發佈支持!