Apache SeaTunnel 2.3.7發佈:全新支持大型語言模型數據轉換

来源:https://www.cnblogs.com/seatunnel/p/18393095
-Advertisement-
Play Games

我們欣喜地宣佈,Apache SeaTunnel 2.3.7 版本現已正式發佈!作為一個廣受歡迎的下一代開源數據集成工具,Apache SeaTunnel 一直致力於為用戶提供更加靈活、高效的數據同步和集成能力。此次版本更新不僅引入瞭如 LLM(大型語言模型)數據轉換支持、增強的 SQL 支持和新連 ...


file

我們欣喜地宣佈,Apache SeaTunnel 2.3.7 版本現已正式發佈!作為一個廣受歡迎的下一代開源數據集成工具,Apache SeaTunnel 一直致力於為用戶提供更加靈活、高效的數據同步和集成能力。此次版本更新不僅引入瞭如 LLM(大型語言模型)數據轉換支持、增強的 SQL 支持和新連接器支持等多個新特性,還對現有功能進行了優化和改進,並修複了多個發現的問題。本文將詳細介紹 Apache SeaTunnel 2.3.7 版本中的關鍵更新內容,並邀請更多的開發者和用戶參與到我們的開源社區中來。

新增功能亮點

  1. LLM 數據轉換支持:2.3.7 新版本中增加了對 LLM(大語言模型)數據轉換的支持。這一特性將顯著提升 Apache SeaTunnel 在處理複雜文本數據和自然語言處理任務中的應用能力,為前沿數據處理領域的用戶提供了更大的便利。
    值得一提的是,我們在 2.3.6 版本添加了向量類型支持向量資料庫寫入,可加速人工智慧應用程式的開發,並簡化由 AI 驅動的應用程式工作負載的運作,已成為大模型時代的得力助手。為更好地支持 AI 開發,Apache SeaTunnel 2.3.6 版本添加了對向量資料庫 Milvus的支持。這是 Apache SeaTunnel 支持的首個向量資料庫,後續將擴展對其他向量資料庫的支持,具體可參考《2.3.6版本發佈!Apache SeaTunnel Zeta引擎迎來新架構!》。

  2. 增強的 SQL 支持:此次版本為 SQL 增加了 CAST TO BYTES 功能,使數據類型轉換更加靈活,用戶在處理不同數據格式時,將擁有更多的選擇,提升了數據處理的靈活性和可操作性。

  3. 阿裡雲 SLS 連接器支持: 此次更新新增了阿裡雲 SLS(阿裡雲日誌服務)連接器。通過此功能,用戶可以將數據直接導入到阿裡雲日誌服務中,利用其強大的日誌管理和分析能力。這一特性特別適用於需要實時日誌監控和分析的用戶場景。

  4. ActiveMQ Sink 連接器支持:支持 ActiveMQ 作為 Sink,進一步擴展了 SeaTunnel 的消息隊列集成能力。ActiveMQ 是一個高性能的消息代理系統,此次新增的支持使得 Apache SeaTunnel 用戶能夠更方便地與 ActiveMQ 進行數據交換,尤其適合於數據流處理和實時數據分析的場景。

改進和優化

在功能優化方面,Apache SeaTunnel 2.3.7 同樣帶來了諸多改進,旨在提升系統的性能和穩定性。

  • Flink API 方法命名優化:改進了 Flink API 的方法命名規範,使得代碼更加易讀、易理解。這項優化不僅提升了開發體驗,也減少了開發人員在使用 Flink 時可能遇到的困惑。

  • 增強的 API 合法性檢查:新版增加了對 API 輸入參數的合法性檢查,確保了用戶輸入的配置和參數符合預期要求。這一改進減少了因配置錯誤導致的運行時異常,提升了系統的整體穩定性。

  • 多表 Sink 配置優化:對於需要處理多表輸出的場景,2.3.7 進一步優化了 Sink 選項配置,使得用戶在配置多表輸出時更加便捷和高效。

  • OceanBase 支持優化:修複了 OceanBase 相關的相容性問題,提升了 Apache SeaTunnel 在處理 OceanBase 資料庫時的性能和穩定性。

關鍵問題修複

本次版本更新修複了多個關鍵問題,顯著提升了系統的穩定性和用戶體驗。

  • MySQL-CDC 連接器修複:修複了在特定情況下,MySQL-CDC 連接器無法正常同步數據的問題。這個修複確保了使用 MySQL 數據源的用戶能夠更加可靠地進行數據同步操作。

  • Doris 連接器修複:解決了 Doris 連接器的一些關鍵性問題,增強了 Apache SeaTunnel 與 Doris 資料庫的相容性和性能,為使用 Doris 作為數據存儲的用戶提供了更好的支持。

  • Zeta 引擎任務停止問題修複:此次更新解決了 Zeta 引擎在某些情況下無法正常停止任務的 bug。這一改進防止了資源泄漏問題的發生,提高了系統的整體穩定性。

文檔和社區貢獻

我們深知,優秀的文檔是用戶成功使用 Apache SeaTunnel 的關鍵。在 2.3.7 版本中,我們對多個模塊的文檔進行了更新和修正,確保用戶能夠獲得最準確和易懂的使用指南。

  • 文檔更新和修正:此次版本更新對多個文檔進行了修正,特別是 Oracle-CDC 等模塊的使用文檔。我們不僅修複了之前版本中存在的錯誤描述,還增加了更多的使用案例和操作指南,幫助用戶更好地理解和使用 SeaTunnel。

  • 感謝社區貢獻者:此次版本更新離不開社區的支持和貢獻。我們特別感謝所有為 SeaTunnel 2.3.7 版本提交代碼、報告問題和提出建議的貢獻者。正是因為你們的無私奉獻,Apache SeaTunnel 才能不斷進步和成長。

本次具體更新如下:

新功能

Transforms-V2

  • [Feature] 拆分變換並將 JAR 移動到 connectors 目錄 (#7218)
  • [Feature][LLM] 添加 LLM 變換 (#7303)
  • [Feature][SQL] 支持 SQL 的 cast to bytes 函數 (#7284)

Connector-V2

  • [Feature][Aliyun SLS] 添加阿裡雲 SLS 連接器 (#3733) (#7348)
  • [Feature][Activemq] 添加 ActiveMQ 連接器 (#7251)

功能改進

Core

  • [Improve][Flink] 優化方法名稱 (#7372)
  • [Improve][API] 在發送到下游之前檢查 catalog 表欄位名的合法性 (#7358)
  • [Improve][Flink] 重構 Flink 代理源/匯 (#7355)
  • [Improve][API] 確保 TablePath 中的表名不為 null (#7252)
  • [Improve][Core] 基於插件名稱改進查找策略 (#7278)

Connector-V2

  • [Improve][multi-table] 增加多表匯的選項檢查 (#7360)
  • [Improve][Console] 更新 ConsoleSinkFactory.java (#7350)
  • [Improve][Jdbc] 自動創建表時跳過所有索引以提高寫入性能 (#7288)
  • [Improve][Doris] 改進 Doris 錯誤信息 (#7343)
  • [Improve][Jdbc] 刪除 JdbcDialect 中的 MysqlType 引用 (#7333)
  • [Improve][Jdbc] 創建表時合併用戶配置的主鍵 (#7313)
  • [Improve][Jdbc] 優化檢查資料庫和表是否存在的方式 (#7261)

Transforms-V2

  • [Improve][DynamicCompile] 改進 DynamicCompile 變換 (#7319)
  • [Improve][SQL] 從輸出欄位中移除轉義標識符 (#7297)
  • [Improve][DynamicCompile] 改進 DynamicCompile 變換 (#7264)

E2E

  • [Improve][Improve] 啟用 Spark/Flink 的 fakesource E2E 測試 (#7325)
  • [Improve][Improve] 啟用 JdbcPostgresIdentifierIT (#7326)
  • [Improve][Improve] 支持 Windows 上的 Paimon E2E 測試 (#7329)

Bug 修複

Connector-V2

  • [Hotfix][MySQL-CDC] 修複 MySQL binlog 讀取時的 ArrayIndexOutOfBoundsException 異常 (#7381)
  • [Fix][Doris] 修複 Doris 主鍵順序與欄位順序不一致的問題 (#7377)
  • [Bugfix][Doris] 修複 JSON 序列化時,空值導致的數據錯誤問題 (#7379)
  • [Hotfix][Jdbc] 修複 JDBC 編譯錯誤 (#7359)
  • [Fix][OceanBase] 移除 OceanBase catalog 對 MySQL 驅動的依賴 (#7311)
  • [Fix][Tdengine] 修複連接 Taos 讀取數據時的 SQL 異常和 ConcurrentModifyException 異常 (#6088)
  • [Hotfix][Kafka] 修複 Kafka 消費者日誌的下次啟動偏移量問題 (#7312)
  • [Fix][Doris] 修複 CDC 場景下刪除數據的異常問題 (#7315)
  • [Hotfix][Hbase] 修複和優化 HBase 源問題 (#7148)
  • [Fix][Iceberg] 修複無法為標識符 'Iceberg' 創建源的問題 (#7182) (#7279)

Zeta(ST-Engine)

  • [Fix][Zeta] 修複由於鎖定指標失敗導致任務無法結束的問題 (#7357)
  • [Hotfix][Zeta] 修複系統繁忙時任務無法停止的問題 (#7292)
  • [Hotfix][Zeta] 修複系統繁忙時任務無法停止的問題 (#7280)

E2E

  • [Fix][Http] 修複 HTTP E2E 測試用例 (#7356)

文檔

  • [Docs] 在 setup.md 中更改棄用的連接器名稱 (#7366)
  • [Docs] 修複 SFTP 匯文檔中的用戶名參數錯誤 (#7334)
  • [Docs] 修複選擇 OSS 作為檢查點時的配置問題 (#7332)
  • [Docs] 修複 sidebars 中缺失的 sink-options-placeholders.md (#7310)
  • [Docs] 更新 Oracle-CDC.md (#7285)
  • [Docs] 修複混合集群部署文檔顯示錯誤 (#7306)
  • [Docs] 將事件監聽器文檔翻譯成中文 (#7274)

其他

  • 更新 org.apache.activemq:activemq-client (#7323)
  • [Improve] 移除未使用的代碼 (#7324)
  • [Improve] 更新快照版本至 2.3.7 (#7305)

貢獻者名單

特別感謝 wuchunfu 的主持發版工作,感謝下列社區成員對本次發版工作的貢獻:

Carl-Zhou-CN
Hisoka-X
Jarvis
OswinWu
TyrantLucifer
XenosK
alextinng
asapekia
chaos-cn
corgy-w
dailai
dependabot[bot]
gdliu3
hailin0
hawk9821
jackyyyyyssss
liugddx
luzongzhu
q3356564
virvle
whhe
wuchunfu
xxsc0529
zhangshenghang

總結

Apache SeaTunnel 2.3.7 的發佈,是我們持續提升產品性能和用戶體驗的重要一步。通過新增功能、優化現有功能以及修複已知問題,我們希望為用戶提供更好的數據集成和處理體驗。同時,我們也期待有更多的用戶和開發者加入到 SeaTunnel 社區中來,共同推動這個開源項目的發展。

歡迎下載 SeaTunnel 2.3.7 版本,體驗最新功能和改進。如果您在使用過程中有任何問題或建議,歡迎隨時與我們聯繫。讓我們一起,共同構建一個更加開放、強大、靈活的數據集成工具!

  • 如何參與貢獻:您可以通過提交代碼、報告問題、撰寫文檔等多種方式參與到 SeaTunnel 的開源社區中來。我們的 GitHub 頁面上有詳細的貢獻指南,幫助您快速入門。

  • 加入我們的討論:我們非常重視社區的聲音,並鼓勵大家在 GitHub Issue 頁面、郵件列表和其他討論渠道中分享您的想法和建議。您的每一個建議,都是我們改進和提升 Apache SeaTunnel 的寶貴財富。

本文由 白鯨開源 提供發佈支持!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 嵌入式STM32單片機開發環境配置教學Win/Mac · 本教程支持Windows和Mac · Windows可選的開發軟體為Keil、Clion、STM32CubeMX,可自由選擇開發方式 · Mac的開發環境為(Clion+OpenOCD+STM32CubeMX),僅支持HAL庫 · 本博客同步 ...
  • Multipass 虛擬機 ssh 登錄(密碼方式) [!NOTE] 以 Ubuntu 24,04 LTS 為例 準備工作 為了演示新建一個示例虛擬機。 multipass launch --name vm01 -c 4 -m 4G -d 100G --network bridged 操作步驟 進入 ...
  • 實踐環境 CentOS-7-x86_64-DVD-2009 簡介 Firewalld是一種簡單的、有狀態的、基於區域(zone-based)的防火牆。策略和區域用於組織防火牆規則。網路在邏輯上被劃分為多個區域,它們之間的流量可以通過策略進行管理。 查看防火牆狀態 # service firewall ...
  • STM32 與 linux 雙向串口通信實驗 本文記錄STM32 與 linux 雙向串口通信,包含stm32發送、Linux阻塞式接收;Linux發送,STM32阻塞式接收;本實驗的目的在於調通數據鏈路,為之後使用奠定基礎。 實驗平臺為: STM32方面用的是STM32H723ZGT6為核心的開發 ...
  • Linux 腳本文件 shebang (!#) 行最大為何只有 128 位元組?為何最多只能指定一個參數?如何將這些參數排列在參數列表前面?本文通過閱讀 Linux 內核源碼,一一為你揭秘 ...
  • 前言 將一個處於睡眠狀態或者新創建的進程加入就緒隊列時會產生喚醒搶占檢查,被喚醒的任務一般期望能夠立刻執行,發生搶占能夠滿足被喚醒任務的實時性需求。CFS調度器的喚醒搶占能否成功會受到sysctl_sched_wakeup_granularity的影響,該參數能控制喚醒搶占發生的概率。頻繁的搶占有可 ...
  • FFmpeg是一個開源的多媒體框架,它可以處理各種音頻和視頻格式的轉換、解碼、編碼和流處理。它提供了一套豐富的庫和工具,廣泛應用於視頻點播、直播、多媒體處理、游戲開發等領域。 FFmpeg的主要組件包括: libavformat - 用於音頻和視頻的多媒體容器的多路復用和解復用。支持多種格式,如MP ...
  • 寫在前面 今天繼續學習redis後面的知識。 Redis 哨兵機制 哨兵 Sentinel 機制 Sentinel(哨兵)是 Redis 的高可用性解決方案。由一個或多個 Sentinel 實例組成的 Sentinel 系統可以監視任意多個主伺服器,以及這些主伺服器屬下的所有從伺服器。當被監視的主服 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...