原文鏈接:實時開發平臺建設實踐,深入釋放實時數據價值 視頻回顧:點擊這裡 課件獲取:點擊這裡 一、實時數倉建設背景 隨著整體行業的數字化轉型不斷深入以及技術能力的不斷提高,傳統的 T+1 式(隔日)的離線大數據模式越來越無法滿足新興業務的發展需求,開展實時化的大數據業務,是企業深入挖掘數據價值的一條 ...
視頻回顧:點擊這裡
課件獲取:點擊這裡
一、實時數倉建設背景
隨著整體行業的數字化轉型不斷深入以及技術能力的不斷提高,傳統的 T+1 式(隔日)的離線大數據模式越來越無法滿足新興業務的發展需求,開展實時化的大數據業務,是企業深入挖掘數據價值的一條必經之路。
面對數字化轉型下的數據快速產生、“小步快跑”的精細化運營及實時化和自動化的決策需求,如何提高實時數據處理能力將成為企業提升競爭力的一大因素。
而企業在建設實時數據應用時,又往往面臨諸多困難:
-
實時開發技術門檻高,學習難度大,開發過程依賴各種引擎,鏈路複雜
-
開發數據效率低,代碼調試複雜
-
建設成本、使用成本高
-
數據建模及開發規範不統一,問題難監控,管理困難
為瞭解決這些問題,我們在實時建設過程中需要確定建設方式和建設目標,幫助企業更好的實現實時數倉建設。
二、實時數倉建設方法論
如何幫助企業建設實時數倉,我們主要從以下四個步驟入手:
1、明確需求
企業進行實時數倉建設的第一步是明確需求,需求需要業務需求和技術需求想結合。
1)業務需求方面:
-
詳細梳理各類實時計算應用場景
-
詳細梳理每個實時指標的具體需求
2)技術需求方面:
- 詳細梳理每個實時指標的數據來源信息
2、技術選型
第二步技術選型階段,技術選型包括四個方面的選型:
a、整體技術路線
b、採集工具
c、消息中間件+計算引擎及
d、維表、結果表的存儲資料庫
3、數倉設計與開發
第三步是數倉設計與開發,包含一下三個方面:
a、實時數倉分層設計
b、開發規範
c、代碼開發與調試
4、管理與監控
第四步是管理與監控,可以從任務發佈、運行監控與告警、實時數據治理這3個部分入手。
三、基於數棧實時開發平臺建設實時數倉
分享完實時數倉的建設方法論,接下來來為大家分享實時數倉的建設流程。
第一步:實時採集
基於Chunjun(原FlinkX)對資料庫進行CDC採集,實現採集工具化,可對主流數據源進行CDC(日誌數據)和通過JDBC(間隔輪詢)兩種實時採集方式。
1、CDC讀取
讀取資料庫日誌的方式,對源庫無壓力
2、JDBC讀取
面向不開放資料庫日誌的場景,通過高頻率的JDBC輪詢讀取數據,要求有自增欄位
第二步:數據開發
1、數據開發基礎功能
現在展示的是數據開發的一些基礎功能,包括:WEB SQL IDE、可視化建表、維表緩存策略及系統&自定義函數,豐富的底層組件封裝,界面化操作,降低開發門檻,使開發人員專註於業務邏輯處理。
2、數據開發高階功能
除了數據開發的基礎功能之外,還有面向特定行業或場景的高階配置,包括自動重試、自動啟停、臟數據管理。
第三步:發佈上線
開發完畢之後就是任務的發佈上線,發佈上線包括任務調試和任務導入導出兩個方面。
第四步:任務運維
任務運維就是全局掌控任務的運行,對於一些異常或緊急情況進行處理的過程。
上述的實時數倉建設過程,其實正是袋鼠雲自研的數棧實時開發StreamWorks產品的落地實踐過程。
雲原生一站式大數實時開發平臺(StreamWorks),面向實時數倉構建的雲原生一站式大數據實時開發平臺,實現從實時數據採集、實時數據處理、任務監控運維的全鏈路覆蓋。支持Flink多版本引擎、Kubernetes資源調度,提供豐富的運維監控曲線,助力企業實時化轉型。
圖片
同時產品具備以下特點:
- 採集+計算+運維一體化
內含實時開發全鏈路工具,採集、計算、運維一體,降低客戶使用成本,降低實時計算門檻。
- 統一元數據管理
支持輸出自研Hadoop集群,同時可對接CDH、HDP、TDH等多集群及Oracle、TiDB等多引擎;節點資源可根據計算存儲需求快速彈性伸縮,業務需求穩定響應。
- 批流一體
支持Flink批流一體式採集+開發, 集成Iceberg,賦能一體式湖倉建設模式。
- 功能豐富
平臺提供任務跨環境發佈、代碼調試、SQL校驗、提交檢查、自動啟停、批量連接現存任務等豐富功能
- 雲原生支持
在支持YARN+HDFS的基礎上,同時支持Kubernetes資源調度、MinIO、OSS等對象存儲
同時產品具備3大價值:
- 降低開發門檻
相容了多版本引擎、適配多種數據源,封裝集成為可視化操作界面。基於Web IDE,圖像化配置表信息並使用SQL語言進行開發,降低整體上手門檻
- 全面運維保障
提供任務全生命周期的可視化運維。全鏈路拓撲、豐富Metirc曲線展示、多方式多渠道任務告警,幫助用戶搭建全面運維體系,提高運維保障。
- 促進數據規範
協助企業構建實時數倉,建設實時數據標準及規範。搭建一套實時任務調度、任務運行監控及實時任務可靠恢復機制於一體的實時數據平臺,保障數據質量,提供統一標準的數據出口。
四、實時數倉建設案例
接下來我們分享兩個使用客戶的實際案例,為大家介紹實時開發平臺如何切實的幫助客戶解決問題。
- 某國有專業經濟信息服務機構
- 某證券客戶
五、數棧批流一體架構解析
最後我們為大家介紹一段拓展資料,關於數棧批流一體架構的解析。
- 批流一體整體架構
- 批流一體核心價值
- 批流一體數據建設鏈路
- 批流一體採集技術架構
原文來源:VX公眾號“數棧研習社”
袋鼠雲開源框架釘釘技術交流群(30537511),歡迎對大數據開源項目有興趣的同學加入交流最新技術信息,開源項目庫地址:https://github.com/DTStack