WhaleStudio 2.6正式發佈,WhaleTunnel同步性能與連接器數量再創新高!

来源:https://www.cnblogs.com/seatunnel/p/18277952
-Advertisement-
Play Games

在這個數據驅動的大模型時代,數據集成的作用和意義愈發重要。數據不僅僅是信息的載體,更是推動企業決策和創新的關鍵因素。作為全球最流行的批流一體數據集成工具,WhaleTunnel隨著WhaleStudio 2.6版本正式發佈,帶來了多項功能增強和新特性,性能大幅提升,連接器和功能方面也有大量更新。 上 ...


file

在這個數據驅動的大模型時代,數據集成的作用和意義愈發重要。數據不僅僅是信息的載體,更是推動企業決策和創新的關鍵因素。作為全球最流行的批流一體數據集成工具,WhaleTunnel隨著WhaleStudio 2.6版本正式發佈,帶來了多項功能增強和新特性,性能大幅提升,連接器和功能方面也有大量更新。

上周,關於數據調度平臺WhaleScheduler的更新狀況在《WhaleStudio 2.6重磅發佈!調度模塊WhaleScheduler更新78項核心功能》中已有介紹,點擊鏈接瞭解詳情。

WhaleTunnel

WhaleTunnel是基於白鯨開源主導的Apache SeaTunnel之上精心打磨的商業級的數據集成工具,擁有數據傳輸速度快、準確率高、穩定性強等技術特點,幫助企業完成內部EtLT中數據集成EtL部分,支持百餘種連接器類型,滿足用戶離線全量同步、離線增量同步、實時增量同步、變化數據捕捉(即CDC)、資料庫同步備份等需求。快速產品以代碼形式面向數據開發工程師以及任何需要數據集成服務的用戶,同時也提供可視化拖拽界面給數據科學家、數據分析師、產品經理等業務用戶,支持全流程可視化的任務定義、調用、監控和管理。

數據源更新(部分)

2.6版本新增了多種數據源,數據源支持數量已經達到了188個,部分增加的數據源如下:

file

信創ARM CPU優化

在WhaleTunnel 2.6版本當中,Zeta Engine針對以ARM內核的CPU進行了引擎層面的深度優化,性能提升數倍(相關性能POC報告後續發佈)。

  1. 記憶體映射文件和零拷貝技術: 為了最大限度地減少I/O開銷,Zeta Engine採用了記憶體映射(mmap)技術和零拷貝(zero-copy)技術,直接在記憶體中操作文件數據。這樣不僅加快了數據處理速度,還降低了系統資源的消耗。
  2. 記憶體對齊:Zeta Engine確保數據結構在記憶體中的對齊性,有效減少了記憶體訪問的開銷。記憶體對齊優化不僅提高了記憶體訪問的效率,還提升了數據處理的整體性能。
  3. 高效演算法: Zeta Engine使用了適合ARM架構的高效演算法,減少不必要的計算和數據移動。通過高效的排序和過濾演算法,顯著提升數據轉換和處理的效率。Zeta Engine演算法優化確保了在數據密集型任務中,系統能夠保持卓越的性能。
  4. 多核架構利用: Zeta Engine充分利用ARM CPU的多核架構,將ETL任務分解為更小的任務,進行多線程或多進程並行執行。通過並行化處理,顯著縮短了數據處理的時間,提升了系統的吞吐量。

數據模型及自動建表能力加強

  1. 自動建表、已有數據處理: 除了文件類型的數據源外,所有數據源現支持自動建表。無論是已有表結構還是已有數據處理,WhaleTunnel都能輕鬆應對。同時,目標端支持自定義表名策略。無需手動處理複雜的表結構,極大地減少了數據集成的時間和人工成本。

file

  1. 數據模型推演: 在任務保存時自動觸發,自動檢查source、transform、sink中的配置是否合法;在任務重同步表發生表結構變化時,檢查其變化可能導致的配置項非法問題。確保數據流的穩定性和一致性,減少因配置錯誤導致的數據同步失敗。在運行數據集成任務之前,就可以自動識別潛在的問題並提前修複。
    圖片

  2. 數據類型自動映射: 數據源到目標端的數據類型自動映射。自動適配不同的數據類型,減少手動調整的麻煩。從不同資料庫遷移數據時,無需擔心類型不匹配的問題。

file

與WhaleScheduler全面集成

  1. 增量同步和參數傳遞: WhaleTunnel與WhaleScheduler緊密集成,根據調度中的日曆、業務日期(牌)以及上下游參數進行增量同步或者參數傳遞來進行數據內容控制,進一步提高數據同步的靈活性和準確性。例如,在券商監管報表生成時,能夠自動獲取符合上報規則交易日期的數據,確保數據的準確性。

file

  1. 獨立同步調度任務組件: WhaleTunnel擁有獨立的CDC實時調度組件和批量調度組件,可以在WhaleScheduler成為獨立任務組件被上下游進行觸發等工作,實現更靈活的任務調度和管理。在數據集成之後,進行相關數據加工,或者自定義微批任務,實現微批任務的串列等待等。

file

  1. 增量數據參數傳遞: 離線全量Source支持根據自定義where條件讀取,可以使用調度傳遞的參數變數實現增量數據參數傳遞,精準控制數據同步範圍,實現增量/批量/微批的多場景控制,提升整體數據批量和CDC實時處理能力。

加強可觀測性與監控告警

  1. 離線同步新增支持失敗、超時告警, 提前預警潛在問題,減少數據同步失敗帶來的影響。舉例來說,在夜間批處理任務中,能夠及時發現並處理異常,確保數據同步的順利進行。
    file

  2. 實時同步新增失敗告警、實時同步新增DDL變更事件告警:實時監控數據同步狀態,快速響應和處理異常情況。例如,電商平臺可以及時發現和修正訂單數據同步中的問題,確保業務的連續性,可以讓用戶快速收到DDL變更情況,從而更早的手工干預。

file

通過虛擬表支持非結構化數據可視化轉化

  1. 文件數據源: 新增支持 CSV文件類型以壓縮格式讀寫,支持讀取時跳過表頭和寫入時寫入表頭設置,支持新的文件格式:DBF, Debezium-Json, 更靈活地處理不同格式的文件數據,提高數據導入導出的效率。

  2. No-SQL數據源支持: 創建虛擬表時支持配置主鍵,且sink自動建表時使用該主鍵建表,提高數據一致性和查詢效率。例如,在處理NoSQL數據時,可以更好地管理和索引數據。

file
3. 虛擬表支持設置索引

file
4. HTTP數據源虛擬表優化: 優化數據源和虛擬表配置,token、路徑、請求參數等支持填寫參數變數,更靈活地集成和管理HTTP數據源,提高數據獲取的靈活性和效率。

CDC同步增強功能

  1. 唯一索引表同步: CDC同步源表現支持擁有唯一索引的表同步,確保數據的唯一性和完整性。例如,在用戶信息同步時,可以確保用戶ID的唯一性,避免數據重覆和衝突。

  2. 無主鍵表同步: CDC同步源表支持無主鍵表的同步,提供更廣泛的數據同步支持,適應更多樣化的資料庫設計。例如,在某些歷史數據表中,可能沒有主鍵的設計,但仍然可以實現高效的數據同步。

小結

WhaleTunnel 2.6版本功能非常強大,涵蓋了從數據模型設計、自動化建表,到高效的數據同步和監控告警,以及多樣化的數據源支持。無論您的數據集成需求是簡單的數據傳輸還是複雜的實時分析,WhaleTunnel都能為您提供定製化的解決方案,幫助您實現數據驅動的業務成功。

我們期待與您一同迎接數據集成的新時代!如果您對WhaleTunnel 2.6版本有任何疑問或想瞭解更多信息,請隨時聯繫我們的客戶服務團隊。感謝您對WhaleTunnel的信任和支持!

白鯨開源

白鯨開源是一家開源原生的DataOps商業公司,是國家高新技術企業,由多個Apache Foundation Member成立,80%員工都是 Apache Committer,運營2個全球Apache開源項目(DolphinScheduler, SeaTunnel)。白鯨開源已根據全球最佳實踐發佈商業版產品WhaleStudio(含白鯨數據調度平臺WhaleScheduler和白鯨數據集成平臺WhaleTunnel)。我們致力於打造下一代開源原生的DataOps 平臺,助力企業在大數據和雲時代,智能化地完成多數據源、多雲及信創環境的數據集成、調度開發和治理,以提高企業解決數據問題的效率,提升企業分析洞察能力和決策能力。

聯繫方式

如果您希望深入瞭解我們的其他功能,或者討論如何將 WhaleStudio 與你的業務流程相結合,我們非常願意為你提供幫助。歡迎您首先試用白鯨調度系統(WhaleScheduler),開始您的大數據之旅。

本文由 白鯨開源 提供發佈支持!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 今天我在安裝qview並運行時時,遇到了這個問題。 我在網上查找了許多解決方案,但它們大多都說是某些dll缺失或錯誤引起的。 這些說法應該是正確的,但我用了dll修複工具後,一點用都沒有。 後來搗鼓半天後,我發現很可能是visual c++出了問題。後來的事實證明,確實是這樣。 我在微軟官網下載了最 ...
  • 目錄TTL、RS232、RS485三種協議介紹TTL(Transistor-Transistor Logic)串口通信協議工作原理:TTL電平標準:特點:優勢:缺點:TTL協議混淆點澄清:擴展學習:COMS技術CMOS技術的工作方式:主要特點:CMOS技術的局限性:RS232協議工作原理:特點:優勢 ...
  • 設備採用晶元:STM32F407ZET6 4個LED燈,網路標號分別為LED0 ,LED1,FSMC D10,FSMC D11。對應的引腳號分別為PF9,PF10,PE12,PE13。 GPIO外設基本概念 General-Purpose Input Output,通用型輸入輸出的,也簡稱I/O口, ...
  • 目錄操作系統,啟動!大致過程重要程式bootsect.ssetup.shead.s 操作系統,啟動! 大致過程 ​ 電腦的工作方式是取指執行,而執行其的前提是記憶體中有代碼。操作系統剛開始並不是在記憶體中,而是在磁碟上,因此第一步需要將其以一定的方式從磁碟讀入記憶體。 (1)x86PC剛開機時CPU處於 ...
  • 在 CentOS 上安裝 Git 可以通過以下幾個步驟來完成: 1. 使用 YUM 安裝 Git(一般這種情況已經可以滿足) 這是最簡單的方法,使用 CentOS 自帶的 YUM 包管理器。 更新 YUM 包索引: sudo yum update 安裝 Git: sudo yum install g ...
  • 表格示意: 標準 邏輯電平0 邏輯電平1 是否全雙工 抗干擾能力 TTL 輸出低電平<0.4V, 輸入低電平<=0.8V 輸出高電平>2.4V,輸入高電平>=2.0V 全雙工 差 RS232 +3~+15V -3~-15V 全雙工 強 RS485 +2V~+6V - 6V~- 2V 半雙工 很強 電 ...
  • 寫這個方法是因為需要向一臺沒有外網的伺服器上安裝gcc,各種百度找到了相關依賴、依賴的依賴。。。。。。的rpm包,林林總總近100個rpm,拷貝到目標伺服器上安裝的時候發現這些rpm包的安裝順序完全靠猜測,安裝就報:有依賴需要提前安裝。這時候感謝百度大模型文心一言的幫助,找到了可以使用本地倉庫來管理 ...
  • 切換分支的時候,需要更新所有的子模塊,可以編寫 Shell 代碼簡化這一過程。 本教程適用於 mac 系統,終端使用 zsh。 ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...