WhaleStudio 2.6正式發佈,WhaleTunnel同步性能與連接器數量再創新高!

来源:https://www.cnblogs.com/seatunnel/p/18277952
-Advertisement-
Play Games

在這個數據驅動的大模型時代,數據集成的作用和意義愈發重要。數據不僅僅是信息的載體,更是推動企業決策和創新的關鍵因素。作為全球最流行的批流一體數據集成工具,WhaleTunnel隨著WhaleStudio 2.6版本正式發佈,帶來了多項功能增強和新特性,性能大幅提升,連接器和功能方面也有大量更新。 上 ...


file

在這個數據驅動的大模型時代,數據集成的作用和意義愈發重要。數據不僅僅是信息的載體,更是推動企業決策和創新的關鍵因素。作為全球最流行的批流一體數據集成工具,WhaleTunnel隨著WhaleStudio 2.6版本正式發佈,帶來了多項功能增強和新特性,性能大幅提升,連接器和功能方面也有大量更新。

上周,關於數據調度平臺WhaleScheduler的更新狀況在《WhaleStudio 2.6重磅發佈!調度模塊WhaleScheduler更新78項核心功能》中已有介紹,點擊鏈接瞭解詳情。

WhaleTunnel

WhaleTunnel是基於白鯨開源主導的Apache SeaTunnel之上精心打磨的商業級的數據集成工具,擁有數據傳輸速度快、準確率高、穩定性強等技術特點,幫助企業完成內部EtLT中數據集成EtL部分,支持百餘種連接器類型,滿足用戶離線全量同步、離線增量同步、實時增量同步、變化數據捕捉(即CDC)、資料庫同步備份等需求。快速產品以代碼形式面向數據開發工程師以及任何需要數據集成服務的用戶,同時也提供可視化拖拽界面給數據科學家、數據分析師、產品經理等業務用戶,支持全流程可視化的任務定義、調用、監控和管理。

數據源更新(部分)

2.6版本新增了多種數據源,數據源支持數量已經達到了188個,部分增加的數據源如下:

file

信創ARM CPU優化

在WhaleTunnel 2.6版本當中,Zeta Engine針對以ARM內核的CPU進行了引擎層面的深度優化,性能提升數倍(相關性能POC報告後續發佈)。

  1. 記憶體映射文件和零拷貝技術: 為了最大限度地減少I/O開銷,Zeta Engine採用了記憶體映射(mmap)技術和零拷貝(zero-copy)技術,直接在記憶體中操作文件數據。這樣不僅加快了數據處理速度,還降低了系統資源的消耗。
  2. 記憶體對齊:Zeta Engine確保數據結構在記憶體中的對齊性,有效減少了記憶體訪問的開銷。記憶體對齊優化不僅提高了記憶體訪問的效率,還提升了數據處理的整體性能。
  3. 高效演算法: Zeta Engine使用了適合ARM架構的高效演算法,減少不必要的計算和數據移動。通過高效的排序和過濾演算法,顯著提升數據轉換和處理的效率。Zeta Engine演算法優化確保了在數據密集型任務中,系統能夠保持卓越的性能。
  4. 多核架構利用: Zeta Engine充分利用ARM CPU的多核架構,將ETL任務分解為更小的任務,進行多線程或多進程並行執行。通過並行化處理,顯著縮短了數據處理的時間,提升了系統的吞吐量。

數據模型及自動建表能力加強

  1. 自動建表、已有數據處理: 除了文件類型的數據源外,所有數據源現支持自動建表。無論是已有表結構還是已有數據處理,WhaleTunnel都能輕鬆應對。同時,目標端支持自定義表名策略。無需手動處理複雜的表結構,極大地減少了數據集成的時間和人工成本。

file

  1. 數據模型推演: 在任務保存時自動觸發,自動檢查source、transform、sink中的配置是否合法;在任務重同步表發生表結構變化時,檢查其變化可能導致的配置項非法問題。確保數據流的穩定性和一致性,減少因配置錯誤導致的數據同步失敗。在運行數據集成任務之前,就可以自動識別潛在的問題並提前修複。
    圖片

  2. 數據類型自動映射: 數據源到目標端的數據類型自動映射。自動適配不同的數據類型,減少手動調整的麻煩。從不同資料庫遷移數據時,無需擔心類型不匹配的問題。

file

與WhaleScheduler全面集成

  1. 增量同步和參數傳遞: WhaleTunnel與WhaleScheduler緊密集成,根據調度中的日曆、業務日期(牌)以及上下游參數進行增量同步或者參數傳遞來進行數據內容控制,進一步提高數據同步的靈活性和準確性。例如,在券商監管報表生成時,能夠自動獲取符合上報規則交易日期的數據,確保數據的準確性。

file

  1. 獨立同步調度任務組件: WhaleTunnel擁有獨立的CDC實時調度組件和批量調度組件,可以在WhaleScheduler成為獨立任務組件被上下游進行觸發等工作,實現更靈活的任務調度和管理。在數據集成之後,進行相關數據加工,或者自定義微批任務,實現微批任務的串列等待等。

file

  1. 增量數據參數傳遞: 離線全量Source支持根據自定義where條件讀取,可以使用調度傳遞的參數變數實現增量數據參數傳遞,精準控制數據同步範圍,實現增量/批量/微批的多場景控制,提升整體數據批量和CDC實時處理能力。

加強可觀測性與監控告警

  1. 離線同步新增支持失敗、超時告警, 提前預警潛在問題,減少數據同步失敗帶來的影響。舉例來說,在夜間批處理任務中,能夠及時發現並處理異常,確保數據同步的順利進行。
    file

  2. 實時同步新增失敗告警、實時同步新增DDL變更事件告警:實時監控數據同步狀態,快速響應和處理異常情況。例如,電商平臺可以及時發現和修正訂單數據同步中的問題,確保業務的連續性,可以讓用戶快速收到DDL變更情況,從而更早的手工干預。

file

通過虛擬表支持非結構化數據可視化轉化

  1. 文件數據源: 新增支持 CSV文件類型以壓縮格式讀寫,支持讀取時跳過表頭和寫入時寫入表頭設置,支持新的文件格式:DBF, Debezium-Json, 更靈活地處理不同格式的文件數據,提高數據導入導出的效率。

  2. No-SQL數據源支持: 創建虛擬表時支持配置主鍵,且sink自動建表時使用該主鍵建表,提高數據一致性和查詢效率。例如,在處理NoSQL數據時,可以更好地管理和索引數據。

file
3. 虛擬表支持設置索引

file
4. HTTP數據源虛擬表優化: 優化數據源和虛擬表配置,token、路徑、請求參數等支持填寫參數變數,更靈活地集成和管理HTTP數據源,提高數據獲取的靈活性和效率。

CDC同步增強功能

  1. 唯一索引表同步: CDC同步源表現支持擁有唯一索引的表同步,確保數據的唯一性和完整性。例如,在用戶信息同步時,可以確保用戶ID的唯一性,避免數據重覆和衝突。

  2. 無主鍵表同步: CDC同步源表支持無主鍵表的同步,提供更廣泛的數據同步支持,適應更多樣化的資料庫設計。例如,在某些歷史數據表中,可能沒有主鍵的設計,但仍然可以實現高效的數據同步。

小結

WhaleTunnel 2.6版本功能非常強大,涵蓋了從數據模型設計、自動化建表,到高效的數據同步和監控告警,以及多樣化的數據源支持。無論您的數據集成需求是簡單的數據傳輸還是複雜的實時分析,WhaleTunnel都能為您提供定製化的解決方案,幫助您實現數據驅動的業務成功。

我們期待與您一同迎接數據集成的新時代!如果您對WhaleTunnel 2.6版本有任何疑問或想瞭解更多信息,請隨時聯繫我們的客戶服務團隊。感謝您對WhaleTunnel的信任和支持!

白鯨開源

白鯨開源是一家開源原生的DataOps商業公司,是國家高新技術企業,由多個Apache Foundation Member成立,80%員工都是 Apache Committer,運營2個全球Apache開源項目(DolphinScheduler, SeaTunnel)。白鯨開源已根據全球最佳實踐發佈商業版產品WhaleStudio(含白鯨數據調度平臺WhaleScheduler和白鯨數據集成平臺WhaleTunnel)。我們致力於打造下一代開源原生的DataOps 平臺,助力企業在大數據和雲時代,智能化地完成多數據源、多雲及信創環境的數據集成、調度開發和治理,以提高企業解決數據問題的效率,提升企業分析洞察能力和決策能力。

聯繫方式

如果您希望深入瞭解我們的其他功能,或者討論如何將 WhaleStudio 與你的業務流程相結合,我們非常願意為你提供幫助。歡迎您首先試用白鯨調度系統(WhaleScheduler),開始您的大數據之旅。

本文由 白鯨開源 提供發佈支持!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 今天我在安裝qview並運行時時,遇到了這個問題。 我在網上查找了許多解決方案,但它們大多都說是某些dll缺失或錯誤引起的。 這些說法應該是正確的,但我用了dll修複工具後,一點用都沒有。 後來搗鼓半天後,我發現很可能是visual c++出了問題。後來的事實證明,確實是這樣。 我在微軟官網下載了最 ...
  • 目錄TTL、RS232、RS485三種協議介紹TTL(Transistor-Transistor Logic)串口通信協議工作原理:TTL電平標準:特點:優勢:缺點:TTL協議混淆點澄清:擴展學習:COMS技術CMOS技術的工作方式:主要特點:CMOS技術的局限性:RS232協議工作原理:特點:優勢 ...
  • 設備採用晶元:STM32F407ZET6 4個LED燈,網路標號分別為LED0 ,LED1,FSMC D10,FSMC D11。對應的引腳號分別為PF9,PF10,PE12,PE13。 GPIO外設基本概念 General-Purpose Input Output,通用型輸入輸出的,也簡稱I/O口, ...
  • 目錄操作系統,啟動!大致過程重要程式bootsect.ssetup.shead.s 操作系統,啟動! 大致過程 ​ 電腦的工作方式是取指執行,而執行其的前提是記憶體中有代碼。操作系統剛開始並不是在記憶體中,而是在磁碟上,因此第一步需要將其以一定的方式從磁碟讀入記憶體。 (1)x86PC剛開機時CPU處於 ...
  • 在 CentOS 上安裝 Git 可以通過以下幾個步驟來完成: 1. 使用 YUM 安裝 Git(一般這種情況已經可以滿足) 這是最簡單的方法,使用 CentOS 自帶的 YUM 包管理器。 更新 YUM 包索引: sudo yum update 安裝 Git: sudo yum install g ...
  • 表格示意: 標準 邏輯電平0 邏輯電平1 是否全雙工 抗干擾能力 TTL 輸出低電平<0.4V, 輸入低電平<=0.8V 輸出高電平>2.4V,輸入高電平>=2.0V 全雙工 差 RS232 +3~+15V -3~-15V 全雙工 強 RS485 +2V~+6V - 6V~- 2V 半雙工 很強 電 ...
  • 寫這個方法是因為需要向一臺沒有外網的伺服器上安裝gcc,各種百度找到了相關依賴、依賴的依賴。。。。。。的rpm包,林林總總近100個rpm,拷貝到目標伺服器上安裝的時候發現這些rpm包的安裝順序完全靠猜測,安裝就報:有依賴需要提前安裝。這時候感謝百度大模型文心一言的幫助,找到了可以使用本地倉庫來管理 ...
  • 切換分支的時候,需要更新所有的子模塊,可以編寫 Shell 代碼簡化這一過程。 本教程適用於 mac 系統,終端使用 zsh。 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...