項目背景 數字金融是數字經濟的重要支撐和驅動力。近年來,我國針對數字金融的發展政策頻頻出台,《金融科技發展規劃 (2022-2025年)》、《“十四五”數字經濟發展規劃》、《關於銀行業保險業數字化轉型的指導意見》、《金融標準化“十 四五”發展規劃》等相繼發佈,頂層設計逐步完善。 2024年,政府工作 ...
項目背景
數字金融是數字經濟的重要支撐和驅動力。近年來,我國針對數字金融的發展政策頻頻出台,《金融科技發展規劃 (2022-2025年)》、《“十四五”數字經濟發展規劃》、《關於銀行業保險業數字化轉型的指導意見》、《金融標準化“十 四五”發展規劃》等相繼發佈,頂層設計逐步完善。
2024年,政府工作報告也提出要大力發展科技金融、綠色金融、 普惠金融、養老金融、數字金融,未來數字金融是我國金融發展重點之一。
我國金融業正在步入數字化轉型的關鍵階段,同時在發展中面臨著諸多挑戰與難點,如數字基礎設施建設不足、數字安全保障機制不健全等。
某國有銀行地區性分行(以下簡稱“銀行”)主動融入數字經濟新浪潮,搶抓機遇、乘勢而上,不斷深化數字化轉型升級,積極加快金融產品融合創新,但是在發展中仍面臨顯著困難。
痛點與挑戰
具體到業務上,銀行需要對總行分發的數據進行載入和轉換,每日任務約 3000。隨著新業務不斷增加,任務總量在 1 萬左右。銀行的業務場景涉及到接收上游系統提供的文件數據,並將數據導入到 GreenPlum 等分析資料庫中進行數據分析。此前,銀行使用自研的調度系統來進行任務的調度,但隨著數據量急劇增長和全新業務場景的出現,這個調度系統陳舊、性能不夠的缺點暴露出來。
總的來說,銀行在數據調度上面臨著以下痛點問題:
- 前期自研系統系統靈活性較差,系統維護工作量巨大,跑批出現問題時對業務正常開展產生影響的風險較大,且對於新支持新增業務的需求,需要投入研發人員定製開發;
- 不支持分散式系統,擴展性能差,面對急劇增長的數據量無法快速完成擴容;
- 業務方涉及不同部門,對程式理解不同,使用習慣也不同,難以滿足所有業務部門的使用需求;
- 上游文件數量多,來源廣,並且到達時間不定,需要隨時監控數據到達情況,併在發生異常情況時及時發出告警;
- 跨部門使用場景多,需要跨項目依賴和準確的影響分析查詢,便於追溯完整的上下游關係;
- 多業務部門使用調度時,無法高效復用已有調度,並限制相關許可權;
- 銀行對於信創環境支持的需求越來越緊迫,但苦於原系統無法進行改造以支持信創操作系統、信創伺服器、信創資料庫等信創環境。
項目需求
銀行將緊跟總行的企架各批次分行特色系統建設計劃,推進信創化建設,併發揮科技賦能作用。目標是滿足公司數據體系建設中數據處理任務的統一調度和監控需求,同時推動建設信創下的統一調度管理平臺。
為了實現這一目標,銀行將建立每日流水線任務的集中定義和集中控制機制,允許用戶靈活地配置多種類型的作業任務,並統一調度和監控運維。這個統一調度管理平臺需要具備高性能、高可靠性,同時易於擴展的特點,以滿足銀行在多樣化功能上的開發需求。
最重要的是,流水線任務統一調度管理平臺使銀行能夠全面監控和跟蹤管理各數據加工節點的處理過程,幫助銀行更有效地管理數據處理任務,實現對任務的全面掌控。
針對這些需求,調度系統需要滿足以下要求:
-
支持分散式的架構及資源控制等方法,實現高可靠性,高處理性能。
-
支持多種豐富的任務類型,包括Shell、MR、Spark等。
-
具有良好的管理介面,易於管理,達到簡單易用,使得用戶有流暢的產品體驗。
-
提供強大的任務執行功能,支持指定任務的運行、空跑測試功能等能力。
-
提供參數管理和數據源的統一維護能力及日曆管理能力和工作流配置管理能力。
-
提供完善的監控和告警能力,支持工作流和任務的運行情況統計和監控、任務日誌線上查看、伺服器資源監控、數據質量檢測和告警。
-
提供監控和統計以及許可權管理功能,支持統一的數據監控、運維服務需求等。
除此之外,調度系統還需要支持用戶的個性化需求,比如通過產品的多樣化結構配置,滿足對接銀行行內登錄、許可權組件、簡訊介面、行信介面、個性化展示頁面,以及20條存量工作流遷移等工作需求。
WhaleScheduler解決方案
白鯨開源自主研發的WhaleScheduler國產信創化調度平臺可支持銀行在數據體系建設中不同場景的任務調度需求,滿足金融行業企業級用戶對系統的穩定性、可靠性、合規性、高性能、支持信創環境等要求。WhaleScheduler為銀行批處理任務制定統一的開發規範、運維方法,對各系統的批量任務進行統一管理、調度和監控,符合銀行不同業務應用環境的性能需求,並提供了私有化部署和開發支持。
01 無中心化架構設計
白鯨開源WhaleScheduler採用先進的無中心架構的設計思想,通過註冊中心發現服務,服務之間可以互為備份,保證了系統的高可靠性的同時,也可以做到水平擴展服務數量,以保持銀行業務的穩定性,很好地支持千萬級別的任務數量。
WhaleScheduler 架構圖
02 分散式部署
WhaleScheduler為銀行提供的所有服務均採用分散式部署,支持高穩定性、高性能和高容錯性,保證提供可持續使用的服務。
集群部署架構圖
03 多種任務類型
WhaleScheduler支持包括Shell、MR、Spark、SQL(MySQL、PostgreSQL、Hive、SparkSQL)、Python、Sub_Process、Procedure等任務類型,同時具備跨項目依賴和補數功能。
04 全模式DAG開發能力
系統採用全“所見即所得”設計模式,用戶可以通過拖拽,快速生成複雜的DAG任務工作流,而無需掌握大量代碼和大數據底層知識。
05 強大的任務執行功能
支持指定任務的運行、空跑測試功能,支持日期參數的輸入,支持多個前置任務狀態的邏輯判斷或前置任務的輸出參數判斷,支持SSH遠程登錄目標伺服器併在其上執行任務等能力。
06 豐富的工作流配置管理能力
支持工作流Excel文件的導入導出、模板與實例分離、多種環境運行任務、靈活的參數定義和傳參功能,以及工作流詳情展示和多種運行策略。
07 監控本地/遠程伺服器文件
系統通過Trigger任務類型支持監控本地/遠程伺服器文件到達事件、資料庫條件成立事件,並提供全局Dashboard,項目Dashboard,支持工作流和任務的運行情況統計和監控、任務日誌線上查看、伺服器資源監控,數據質量檢測,以及郵件、釘釘、企業微信、HTTP、腳本等十餘種告警方式,自定義告警類型也可以輕鬆做到。
08 多樣化的日曆功能
WhaleScheduler提供強大的日曆管理功能,支持不同項目配置獨立的日曆。可視化日曆配置和模板導入導出的維護方式對於銀行工作人員的用戶體驗來說也是非常友好的,創建、編輯、刪除、導入導出等操作方式一目瞭然。如果有需要,用戶還可以按日曆進行調度,也可以基於日曆或翻牌任務獲取日期數據。
09 任務級血緣分析
銀行跨部門的使用場景需要跨項目依賴和準確的影響分析查詢,這一點非常重要。對此,WhaleScheduler提供了完善的系統影響分析功能,可以分析任務級的血緣,血緣分析包括工作流、任務,工作中的子流程,以及子流程中嵌套的依賴等,讓用戶可以查看完整的任務上下游關係。
10 數據質量檢測
銀行的上游數據類型多,來源複雜,數據質量檢測是重要的一環。WhaleScheduler支持數據質量檢測,檢測規則包括不限於空值檢測、枚舉值檢測、表行數校驗、兩表值比對校驗等檢測規則。如果檢測錯誤的數據條數超過閾值,需要告警出來或者工作流失敗停止,用戶可以設置超過閾值告警或讓工作流失敗。
11 用戶角色菜單許可權管控
支持用戶操作審計,設置用戶、角色、資源、許可權來設計不同部門的功能許可權,滿足銀行對安全與許可權的特殊需求。
12 高可伸縮性支持
調度集群能夠隨任務量的增加及時增加資源,持續提供服務。
13 任務維護人員配置
系統設計有完整的用戶管理體系,可以進行任務維護人員的添加、修改和刪除等配置圖片
同時,針對銀行提出的個性化功能開發,包括對接行內登錄、許可權組件、簡訊介面、行信介面、個性化展示頁面以及20條存量工作流遷移等工作和現場安裝、調試等工作,白鯨開源派出項目經驗豐富的團隊,採用符合PMI標準的項目管理制度,以滿足銀行不同業務應用環境對性能的需求。
白鯨開源WhaleScheduler為銀行提供了高可靠性、高性能、多場景支持、支持全站華部署運行的強大調度功能,不但可以到銀行各規模、各層次的高可靠性、高安全性、可擴展性和可管理性的要求,還充分考慮到銀行未來3-5年的發展需要,可適應銀行不斷發展的業務和管理需求。
白鯨開源
白鯨開源科技是一家由多名 Apache Software Foundation Member, Apache DolphinScheduler 和 Apache SeaTunnel 核心成員組建的公司。我們致力於打造下一代雲原生 DataOps 平臺,助力企業在大數據和雲時代,智能化地完成海量數據的處理、調度和治理,以提高企業解決數據問題的效率,提升企業分析洞察能力和決策能力。
本文由 白鯨開源 提供發佈支持!