在這個數據驅動的大模型時代,數據集成的作用和意義愈發重要。數據不僅僅是信息的載體,更是推動企業決策和創新的關鍵因素。作為全球最流行的批流一體數據集成工具,WhaleTunnel隨著WhaleStudio 2.6版本正式發佈,帶來了多項功能增強和新特性,性能大幅提升,連接器和功能方面也有大量更新。 上 ...
在這個數據驅動的大模型時代,數據集成的作用和意義愈發重要。數據不僅僅是信息的載體,更是推動企業決策和創新的關鍵因素。作為全球最流行的批流一體數據集成工具,WhaleTunnel隨著WhaleStudio 2.6版本正式發佈,帶來了多項功能增強和新特性,性能大幅提升,連接器和功能方面也有大量更新。
上周,關於數據調度平臺WhaleScheduler的更新狀況在《WhaleStudio 2.6重磅發佈!調度模塊WhaleScheduler更新78項核心功能》中已有介紹,點擊鏈接瞭解詳情。
WhaleTunnel
WhaleTunnel是基於白鯨開源主導的Apache SeaTunnel之上精心打磨的商業級的數據集成工具,擁有數據傳輸速度快、準確率高、穩定性強等技術特點,幫助企業完成內部EtLT中數據集成EtL部分,支持百餘種連接器類型,滿足用戶離線全量同步、離線增量同步、實時增量同步、變化數據捕捉(即CDC)、資料庫同步備份等需求。快速產品以代碼形式面向數據開發工程師以及任何需要數據集成服務的用戶,同時也提供可視化拖拽界面給數據科學家、數據分析師、產品經理等業務用戶,支持全流程可視化的任務定義、調用、監控和管理。
數據源更新(部分)
2.6版本新增了多種數據源,數據源支持數量已經達到了188個,部分增加的數據源如下:
信創ARM CPU優化
在WhaleTunnel 2.6版本當中,Zeta Engine針對以ARM內核的CPU進行了引擎層面的深度優化,性能提升數倍(相關性能POC報告後續發佈)。
- 記憶體映射文件和零拷貝技術: 為了最大限度地減少I/O開銷,Zeta Engine採用了記憶體映射(mmap)技術和零拷貝(zero-copy)技術,直接在記憶體中操作文件數據。這樣不僅加快了數據處理速度,還降低了系統資源的消耗。
- 記憶體對齊:Zeta Engine確保數據結構在記憶體中的對齊性,有效減少了記憶體訪問的開銷。記憶體對齊優化不僅提高了記憶體訪問的效率,還提升了數據處理的整體性能。
- 高效演算法: Zeta Engine使用了適合ARM架構的高效演算法,減少不必要的計算和數據移動。通過高效的排序和過濾演算法,顯著提升數據轉換和處理的效率。Zeta Engine演算法優化確保了在數據密集型任務中,系統能夠保持卓越的性能。
- 多核架構利用: Zeta Engine充分利用ARM CPU的多核架構,將ETL任務分解為更小的任務,進行多線程或多進程並行執行。通過並行化處理,顯著縮短了數據處理的時間,提升了系統的吞吐量。
數據模型及自動建表能力加強
- 自動建表、已有數據處理: 除了文件類型的數據源外,所有數據源現支持自動建表。無論是已有表結構還是已有數據處理,WhaleTunnel都能輕鬆應對。同時,目標端支持自定義表名策略。無需手動處理複雜的表結構,極大地減少了數據集成的時間和人工成本。
-
數據模型推演: 在任務保存時自動觸發,自動檢查source、transform、sink中的配置是否合法;在任務重同步表發生表結構變化時,檢查其變化可能導致的配置項非法問題。確保數據流的穩定性和一致性,減少因配置錯誤導致的數據同步失敗。在運行數據集成任務之前,就可以自動識別潛在的問題並提前修複。
圖片 -
數據類型自動映射: 數據源到目標端的數據類型自動映射。自動適配不同的數據類型,減少手動調整的麻煩。從不同資料庫遷移數據時,無需擔心類型不匹配的問題。
與WhaleScheduler全面集成
- 增量同步和參數傳遞: WhaleTunnel與WhaleScheduler緊密集成,根據調度中的日曆、業務日期(牌)以及上下游參數進行增量同步或者參數傳遞來進行數據內容控制,進一步提高數據同步的靈活性和準確性。例如,在券商監管報表生成時,能夠自動獲取符合上報規則交易日期的數據,確保數據的準確性。
- 獨立同步調度任務組件: WhaleTunnel擁有獨立的CDC實時調度組件和批量調度組件,可以在WhaleScheduler成為獨立任務組件被上下游進行觸發等工作,實現更靈活的任務調度和管理。在數據集成之後,進行相關數據加工,或者自定義微批任務,實現微批任務的串列等待等。
- 增量數據參數傳遞: 離線全量Source支持根據自定義where條件讀取,可以使用調度傳遞的參數變數實現增量數據參數傳遞,精準控制數據同步範圍,實現增量/批量/微批的多場景控制,提升整體數據批量和CDC實時處理能力。
加強可觀測性與監控告警
-
離線同步新增支持失敗、超時告警, 提前預警潛在問題,減少數據同步失敗帶來的影響。舉例來說,在夜間批處理任務中,能夠及時發現並處理異常,確保數據同步的順利進行。
-
實時同步新增失敗告警、實時同步新增DDL變更事件告警:實時監控數據同步狀態,快速響應和處理異常情況。例如,電商平臺可以及時發現和修正訂單數據同步中的問題,確保業務的連續性,可以讓用戶快速收到DDL變更情況,從而更早的手工干預。
通過虛擬表支持非結構化數據可視化轉化
-
文件數據源: 新增支持 CSV文件類型以壓縮格式讀寫,支持讀取時跳過表頭和寫入時寫入表頭設置,支持新的文件格式:DBF, Debezium-Json, 更靈活地處理不同格式的文件數據,提高數據導入導出的效率。
-
No-SQL數據源支持: 創建虛擬表時支持配置主鍵,且sink自動建表時使用該主鍵建表,提高數據一致性和查詢效率。例如,在處理NoSQL數據時,可以更好地管理和索引數據。
3. 虛擬表支持設置索引
4. HTTP數據源虛擬表優化: 優化數據源和虛擬表配置,token、路徑、請求參數等支持填寫參數變數,更靈活地集成和管理HTTP數據源,提高數據獲取的靈活性和效率。
CDC同步增強功能
-
唯一索引表同步: CDC同步源表現支持擁有唯一索引的表同步,確保數據的唯一性和完整性。例如,在用戶信息同步時,可以確保用戶ID的唯一性,避免數據重覆和衝突。
-
無主鍵表同步: CDC同步源表支持無主鍵表的同步,提供更廣泛的數據同步支持,適應更多樣化的資料庫設計。例如,在某些歷史數據表中,可能沒有主鍵的設計,但仍然可以實現高效的數據同步。
小結
WhaleTunnel 2.6版本功能非常強大,涵蓋了從數據模型設計、自動化建表,到高效的數據同步和監控告警,以及多樣化的數據源支持。無論您的數據集成需求是簡單的數據傳輸還是複雜的實時分析,WhaleTunnel都能為您提供定製化的解決方案,幫助您實現數據驅動的業務成功。
我們期待與您一同迎接數據集成的新時代!如果您對WhaleTunnel 2.6版本有任何疑問或想瞭解更多信息,請隨時聯繫我們的客戶服務團隊。感謝您對WhaleTunnel的信任和支持!
白鯨開源
白鯨開源是一家開源原生的DataOps商業公司,是國家高新技術企業,由多個Apache Foundation Member成立,80%員工都是 Apache Committer,運營2個全球Apache開源項目(DolphinScheduler, SeaTunnel)。白鯨開源已根據全球最佳實踐發佈商業版產品WhaleStudio(含白鯨數據調度平臺WhaleScheduler和白鯨數據集成平臺WhaleTunnel)。我們致力於打造下一代開源原生的DataOps 平臺,助力企業在大數據和雲時代,智能化地完成多數據源、多雲及信創環境的數據集成、調度開發和治理,以提高企業解決數據問題的效率,提升企業分析洞察能力和決策能力。
聯繫方式
- 公司網站: www.whaleops.com
- 聯繫郵箱: [email protected]
如果您希望深入瞭解我們的其他功能,或者討論如何將 WhaleStudio 與你的業務流程相結合,我們非常願意為你提供幫助。歡迎您首先試用白鯨調度系統(WhaleScheduler),開始您的大數據之旅。
本文由 白鯨開源 提供發佈支持!