Apache SeaTunnel 2.3.7發佈:全新支持大型語言模型數據轉換

来源:https://www.cnblogs.com/seatunnel/p/18393095
-Advertisement-
Play Games

我們欣喜地宣佈,Apache SeaTunnel 2.3.7 版本現已正式發佈!作為一個廣受歡迎的下一代開源數據集成工具,Apache SeaTunnel 一直致力於為用戶提供更加靈活、高效的數據同步和集成能力。此次版本更新不僅引入瞭如 LLM(大型語言模型)數據轉換支持、增強的 SQL 支持和新連 ...


file

我們欣喜地宣佈,Apache SeaTunnel 2.3.7 版本現已正式發佈!作為一個廣受歡迎的下一代開源數據集成工具,Apache SeaTunnel 一直致力於為用戶提供更加靈活、高效的數據同步和集成能力。此次版本更新不僅引入瞭如 LLM(大型語言模型)數據轉換支持、增強的 SQL 支持和新連接器支持等多個新特性,還對現有功能進行了優化和改進,並修複了多個發現的問題。本文將詳細介紹 Apache SeaTunnel 2.3.7 版本中的關鍵更新內容,並邀請更多的開發者和用戶參與到我們的開源社區中來。

新增功能亮點

  1. LLM 數據轉換支持:2.3.7 新版本中增加了對 LLM(大語言模型)數據轉換的支持。這一特性將顯著提升 Apache SeaTunnel 在處理複雜文本數據和自然語言處理任務中的應用能力,為前沿數據處理領域的用戶提供了更大的便利。
    值得一提的是,我們在 2.3.6 版本添加了向量類型支持向量資料庫寫入,可加速人工智慧應用程式的開發,並簡化由 AI 驅動的應用程式工作負載的運作,已成為大模型時代的得力助手。為更好地支持 AI 開發,Apache SeaTunnel 2.3.6 版本添加了對向量資料庫 Milvus的支持。這是 Apache SeaTunnel 支持的首個向量資料庫,後續將擴展對其他向量資料庫的支持,具體可參考《2.3.6版本發佈!Apache SeaTunnel Zeta引擎迎來新架構!》。

  2. 增強的 SQL 支持:此次版本為 SQL 增加了 CAST TO BYTES 功能,使數據類型轉換更加靈活,用戶在處理不同數據格式時,將擁有更多的選擇,提升了數據處理的靈活性和可操作性。

  3. 阿裡雲 SLS 連接器支持: 此次更新新增了阿裡雲 SLS(阿裡雲日誌服務)連接器。通過此功能,用戶可以將數據直接導入到阿裡雲日誌服務中,利用其強大的日誌管理和分析能力。這一特性特別適用於需要實時日誌監控和分析的用戶場景。

  4. ActiveMQ Sink 連接器支持:支持 ActiveMQ 作為 Sink,進一步擴展了 SeaTunnel 的消息隊列集成能力。ActiveMQ 是一個高性能的消息代理系統,此次新增的支持使得 Apache SeaTunnel 用戶能夠更方便地與 ActiveMQ 進行數據交換,尤其適合於數據流處理和實時數據分析的場景。

改進和優化

在功能優化方面,Apache SeaTunnel 2.3.7 同樣帶來了諸多改進,旨在提升系統的性能和穩定性。

  • Flink API 方法命名優化:改進了 Flink API 的方法命名規範,使得代碼更加易讀、易理解。這項優化不僅提升了開發體驗,也減少了開發人員在使用 Flink 時可能遇到的困惑。

  • 增強的 API 合法性檢查:新版增加了對 API 輸入參數的合法性檢查,確保了用戶輸入的配置和參數符合預期要求。這一改進減少了因配置錯誤導致的運行時異常,提升了系統的整體穩定性。

  • 多表 Sink 配置優化:對於需要處理多表輸出的場景,2.3.7 進一步優化了 Sink 選項配置,使得用戶在配置多表輸出時更加便捷和高效。

  • OceanBase 支持優化:修複了 OceanBase 相關的相容性問題,提升了 Apache SeaTunnel 在處理 OceanBase 資料庫時的性能和穩定性。

關鍵問題修複

本次版本更新修複了多個關鍵問題,顯著提升了系統的穩定性和用戶體驗。

  • MySQL-CDC 連接器修複:修複了在特定情況下,MySQL-CDC 連接器無法正常同步數據的問題。這個修複確保了使用 MySQL 數據源的用戶能夠更加可靠地進行數據同步操作。

  • Doris 連接器修複:解決了 Doris 連接器的一些關鍵性問題,增強了 Apache SeaTunnel 與 Doris 資料庫的相容性和性能,為使用 Doris 作為數據存儲的用戶提供了更好的支持。

  • Zeta 引擎任務停止問題修複:此次更新解決了 Zeta 引擎在某些情況下無法正常停止任務的 bug。這一改進防止了資源泄漏問題的發生,提高了系統的整體穩定性。

文檔和社區貢獻

我們深知,優秀的文檔是用戶成功使用 Apache SeaTunnel 的關鍵。在 2.3.7 版本中,我們對多個模塊的文檔進行了更新和修正,確保用戶能夠獲得最準確和易懂的使用指南。

  • 文檔更新和修正:此次版本更新對多個文檔進行了修正,特別是 Oracle-CDC 等模塊的使用文檔。我們不僅修複了之前版本中存在的錯誤描述,還增加了更多的使用案例和操作指南,幫助用戶更好地理解和使用 SeaTunnel。

  • 感謝社區貢獻者:此次版本更新離不開社區的支持和貢獻。我們特別感謝所有為 SeaTunnel 2.3.7 版本提交代碼、報告問題和提出建議的貢獻者。正是因為你們的無私奉獻,Apache SeaTunnel 才能不斷進步和成長。

本次具體更新如下:

新功能

Transforms-V2

  • [Feature] 拆分變換並將 JAR 移動到 connectors 目錄 (#7218)
  • [Feature][LLM] 添加 LLM 變換 (#7303)
  • [Feature][SQL] 支持 SQL 的 cast to bytes 函數 (#7284)

Connector-V2

  • [Feature][Aliyun SLS] 添加阿裡雲 SLS 連接器 (#3733) (#7348)
  • [Feature][Activemq] 添加 ActiveMQ 連接器 (#7251)

功能改進

Core

  • [Improve][Flink] 優化方法名稱 (#7372)
  • [Improve][API] 在發送到下游之前檢查 catalog 表欄位名的合法性 (#7358)
  • [Improve][Flink] 重構 Flink 代理源/匯 (#7355)
  • [Improve][API] 確保 TablePath 中的表名不為 null (#7252)
  • [Improve][Core] 基於插件名稱改進查找策略 (#7278)

Connector-V2

  • [Improve][multi-table] 增加多表匯的選項檢查 (#7360)
  • [Improve][Console] 更新 ConsoleSinkFactory.java (#7350)
  • [Improve][Jdbc] 自動創建表時跳過所有索引以提高寫入性能 (#7288)
  • [Improve][Doris] 改進 Doris 錯誤信息 (#7343)
  • [Improve][Jdbc] 刪除 JdbcDialect 中的 MysqlType 引用 (#7333)
  • [Improve][Jdbc] 創建表時合併用戶配置的主鍵 (#7313)
  • [Improve][Jdbc] 優化檢查資料庫和表是否存在的方式 (#7261)

Transforms-V2

  • [Improve][DynamicCompile] 改進 DynamicCompile 變換 (#7319)
  • [Improve][SQL] 從輸出欄位中移除轉義標識符 (#7297)
  • [Improve][DynamicCompile] 改進 DynamicCompile 變換 (#7264)

E2E

  • [Improve][Improve] 啟用 Spark/Flink 的 fakesource E2E 測試 (#7325)
  • [Improve][Improve] 啟用 JdbcPostgresIdentifierIT (#7326)
  • [Improve][Improve] 支持 Windows 上的 Paimon E2E 測試 (#7329)

Bug 修複

Connector-V2

  • [Hotfix][MySQL-CDC] 修複 MySQL binlog 讀取時的 ArrayIndexOutOfBoundsException 異常 (#7381)
  • [Fix][Doris] 修複 Doris 主鍵順序與欄位順序不一致的問題 (#7377)
  • [Bugfix][Doris] 修複 JSON 序列化時,空值導致的數據錯誤問題 (#7379)
  • [Hotfix][Jdbc] 修複 JDBC 編譯錯誤 (#7359)
  • [Fix][OceanBase] 移除 OceanBase catalog 對 MySQL 驅動的依賴 (#7311)
  • [Fix][Tdengine] 修複連接 Taos 讀取數據時的 SQL 異常和 ConcurrentModifyException 異常 (#6088)
  • [Hotfix][Kafka] 修複 Kafka 消費者日誌的下次啟動偏移量問題 (#7312)
  • [Fix][Doris] 修複 CDC 場景下刪除數據的異常問題 (#7315)
  • [Hotfix][Hbase] 修複和優化 HBase 源問題 (#7148)
  • [Fix][Iceberg] 修複無法為標識符 'Iceberg' 創建源的問題 (#7182) (#7279)

Zeta(ST-Engine)

  • [Fix][Zeta] 修複由於鎖定指標失敗導致任務無法結束的問題 (#7357)
  • [Hotfix][Zeta] 修複系統繁忙時任務無法停止的問題 (#7292)
  • [Hotfix][Zeta] 修複系統繁忙時任務無法停止的問題 (#7280)

E2E

  • [Fix][Http] 修複 HTTP E2E 測試用例 (#7356)

文檔

  • [Docs] 在 setup.md 中更改棄用的連接器名稱 (#7366)
  • [Docs] 修複 SFTP 匯文檔中的用戶名參數錯誤 (#7334)
  • [Docs] 修複選擇 OSS 作為檢查點時的配置問題 (#7332)
  • [Docs] 修複 sidebars 中缺失的 sink-options-placeholders.md (#7310)
  • [Docs] 更新 Oracle-CDC.md (#7285)
  • [Docs] 修複混合集群部署文檔顯示錯誤 (#7306)
  • [Docs] 將事件監聽器文檔翻譯成中文 (#7274)

其他

  • 更新 org.apache.activemq:activemq-client (#7323)
  • [Improve] 移除未使用的代碼 (#7324)
  • [Improve] 更新快照版本至 2.3.7 (#7305)

貢獻者名單

特別感謝 wuchunfu 的主持發版工作,感謝下列社區成員對本次發版工作的貢獻:

Carl-Zhou-CN
Hisoka-X
Jarvis
OswinWu
TyrantLucifer
XenosK
alextinng
asapekia
chaos-cn
corgy-w
dailai
dependabot[bot]
gdliu3
hailin0
hawk9821
jackyyyyyssss
liugddx
luzongzhu
q3356564
virvle
whhe
wuchunfu
xxsc0529
zhangshenghang

總結

Apache SeaTunnel 2.3.7 的發佈,是我們持續提升產品性能和用戶體驗的重要一步。通過新增功能、優化現有功能以及修複已知問題,我們希望為用戶提供更好的數據集成和處理體驗。同時,我們也期待有更多的用戶和開發者加入到 SeaTunnel 社區中來,共同推動這個開源項目的發展。

歡迎下載 SeaTunnel 2.3.7 版本,體驗最新功能和改進。如果您在使用過程中有任何問題或建議,歡迎隨時與我們聯繫。讓我們一起,共同構建一個更加開放、強大、靈活的數據集成工具!

  • 如何參與貢獻:您可以通過提交代碼、報告問題、撰寫文檔等多種方式參與到 SeaTunnel 的開源社區中來。我們的 GitHub 頁面上有詳細的貢獻指南,幫助您快速入門。

  • 加入我們的討論:我們非常重視社區的聲音,並鼓勵大家在 GitHub Issue 頁面、郵件列表和其他討論渠道中分享您的想法和建議。您的每一個建議,都是我們改進和提升 Apache SeaTunnel 的寶貴財富。

本文由 白鯨開源 提供發佈支持!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 嵌入式STM32單片機開發環境配置教學Win/Mac · 本教程支持Windows和Mac · Windows可選的開發軟體為Keil、Clion、STM32CubeMX,可自由選擇開發方式 · Mac的開發環境為(Clion+OpenOCD+STM32CubeMX),僅支持HAL庫 · 本博客同步 ...
  • Multipass 虛擬機 ssh 登錄(密碼方式) [!NOTE] 以 Ubuntu 24,04 LTS 為例 準備工作 為了演示新建一個示例虛擬機。 multipass launch --name vm01 -c 4 -m 4G -d 100G --network bridged 操作步驟 進入 ...
  • 實踐環境 CentOS-7-x86_64-DVD-2009 簡介 Firewalld是一種簡單的、有狀態的、基於區域(zone-based)的防火牆。策略和區域用於組織防火牆規則。網路在邏輯上被劃分為多個區域,它們之間的流量可以通過策略進行管理。 查看防火牆狀態 # service firewall ...
  • STM32 與 linux 雙向串口通信實驗 本文記錄STM32 與 linux 雙向串口通信,包含stm32發送、Linux阻塞式接收;Linux發送,STM32阻塞式接收;本實驗的目的在於調通數據鏈路,為之後使用奠定基礎。 實驗平臺為: STM32方面用的是STM32H723ZGT6為核心的開發 ...
  • Linux 腳本文件 shebang (!#) 行最大為何只有 128 位元組?為何最多只能指定一個參數?如何將這些參數排列在參數列表前面?本文通過閱讀 Linux 內核源碼,一一為你揭秘 ...
  • 前言 將一個處於睡眠狀態或者新創建的進程加入就緒隊列時會產生喚醒搶占檢查,被喚醒的任務一般期望能夠立刻執行,發生搶占能夠滿足被喚醒任務的實時性需求。CFS調度器的喚醒搶占能否成功會受到sysctl_sched_wakeup_granularity的影響,該參數能控制喚醒搶占發生的概率。頻繁的搶占有可 ...
  • FFmpeg是一個開源的多媒體框架,它可以處理各種音頻和視頻格式的轉換、解碼、編碼和流處理。它提供了一套豐富的庫和工具,廣泛應用於視頻點播、直播、多媒體處理、游戲開發等領域。 FFmpeg的主要組件包括: libavformat - 用於音頻和視頻的多媒體容器的多路復用和解復用。支持多種格式,如MP ...
  • 寫在前面 今天繼續學習redis後面的知識。 Redis 哨兵機制 哨兵 Sentinel 機制 Sentinel(哨兵)是 Redis 的高可用性解決方案。由一個或多個 Sentinel 實例組成的 Sentinel 系統可以監視任意多個主伺服器,以及這些主伺服器屬下的所有從伺服器。當被監視的主服 ...
一周排行
    -Advertisement-
    Play Games
  • 前言 推薦一款基於.NET 8、WPF、Prism.DryIoc、MVVM設計模式、Blazor以及MySQL資料庫構建的企業級工作流系統的WPF客戶端框架-AIStudio.Wpf.AClient 6.0。 項目介紹 框架採用了 Prism 框架來實現 MVVM 模式,不僅簡化了 MVVM 的典型 ...
  • 先看一下效果吧: 我們直接通過改造一下原版的TreeView來實現上面這個效果 我們先創建一個普通的TreeView 代碼很簡單: <TreeView> <TreeViewItem Header="人事部"/> <TreeViewItem Header="技術部"> <TreeViewItem He ...
  • 1. 生成式 AI 簡介 https://imp.i384100.net/LXYmq3 2. Python 語言 https://imp.i384100.net/5gmXXo 3. 統計和 R https://youtu.be/ANMuuq502rE?si=hw9GT6JVzMhRvBbF 4. 數 ...
  • 本文為大家介紹下.NET解壓/壓縮zip文件。雖然解壓縮不是啥核心技術,但壓縮性能以及進度處理還是需要關註下,針對使用較多的zip開源組件驗證,給大家提供個技術選型參考 之前在《.NET WebSocket高併發通信阻塞問題 - 唐宋元明清2188 - 博客園 (cnblogs.com)》講過,團隊 ...
  • 之前寫過兩篇關於Roslyn源生成器生成源代碼的用例,今天使用Roslyn的代碼修複器CodeFixProvider實現一個cs文件頭部註釋的功能, 代碼修複器會同時涉及到CodeFixProvider和DiagnosticAnalyzer, 實現FileHeaderAnalyzer 首先我們知道修 ...
  • 在軟體行業,經常會聽到一句話“文不如表,表不如圖”說明瞭圖形在軟體應用中的重要性。同樣在WPF開發中,為了程式美觀或者業務需要,經常會用到各種個樣的圖形。今天以一些簡單的小例子,簡述WPF開發中幾何圖形(Geometry)相關內容,僅供學習分享使用,如有不足之處,還請指正。 ...
  • 在 C# 中使用 RabbitMQ 通過簡訊發送重置後的密碼到用戶的手機號上,你可以按照以下步驟進行 1.安裝 RabbitMQ 客戶端庫 首先,確保你已經安裝了 RabbitMQ 客戶端庫。你可以通過 NuGet 包管理器來安裝: dotnet add package RabbitMQ.Clien ...
  • 1.下載 Protocol Buffers 編譯器(protoc) 前往 Protocol Buffers GitHub Releases 頁面。在 "Assets" 下找到適合您系統的壓縮文件,通常為 protoc-{version}-win32.zip 或 protoc-{version}-wi ...
  • 簡介 在現代微服務架構中,服務發現(Service Discovery)是一項關鍵功能。它允許微服務動態地找到彼此,而無需依賴硬編碼的地址。以前如果你搜 .NET Service Discovery,大概率會搜到一大堆 Eureka,Consul 等的文章。現在微軟為我們帶來了一個官方的包:Micr ...
  • ZY樹洞 前言 ZY樹洞是一個基於.NET Core開發的簡單的評論系統,主要用於大家分享自己心中的感悟、經驗、心得、想法等。 好了,不賣關子了,這個項目其實是上班無聊的時候寫的,為什麼要寫這個項目呢?因為我單純的想吐槽一下工作中的不滿而已。 項目介紹 項目很簡單,主要功能就是提供一個簡單的評論系統 ...