Apache SeaTunnel 2.3.8版本即將於大家見面,近日,Apache SeaTunnel PMC Member 範佳在社區的交流會上為大家提前透露了關於這個新版本即將進行的功能與特性更新概況,詳細內容如下: SeaTunnel 簡介 SeaTunnel是一個高性能的開源分散式數據集成系 ...
Apache SeaTunnel 2.3.8版本即將於大家見面,近日,Apache SeaTunnel PMC Member 範佳在社區的交流會上為大家提前透露了關於這個新版本即將進行的功能與特性更新概況,詳細內容如下:
SeaTunnel 簡介
SeaTunnel是一個高性能的開源分散式數據集成系統,支持各種數據源的實時流式和離線批處理,適用於海量數據的集成。它具有以下特點:
- 海量連接器:支持100+種數據源和存儲系統。
- 多引擎支持:相容多種數據處理引擎,包括SeaTunnel Zeta Engine、Spark和Flink。
- HTTP支持:可以通過HTTP介面進行數據集成。
- 流批一體:同時支持流處理和批處理。
- 流速控制:能夠控制數據流的速率。
- 自動建表功能:自動根據數據結構創建表。
2.3.8 版本新功能與特性
在即將發佈的2.3.8版本中,社區將對SeaTunnel進行以下功能和特性的更新:
Docker 鏡像
新版本將提供官方版本的 Docker 鏡像,將包含幾乎所有的 Connector,用戶無需下載安裝包,通過直接通過拉取鏡像,可以更快地運行 SeaTunnel,減輕 SeaTunnel 部署的複雜度。
- 通過命令構建鏡像:對於本地部署,並且有定製化需求的用戶,可以通過命令行構建鏡像;
- 通過命令啟動服務:支持通過命令啟動服務進行分散式部署,以及提交任務和查詢任務狀態等;當然。也可以通過 rest-API 提交任務。
- 通過命令提交服務:
Spark 支持多表
目前,SeaTunnel 僅支持 Zeta Engine 對多表的支持,新版本將增加 Spark 引擎對多表的支持,可以自動識別並自動運行多表任務。
另外,Flink 對於多表的支持已經在推進之中,感興趣的朋友歡迎來 GitHub 參與共建。
Config 參數支持預設值
目前,SeaTunnel 允許在 config 參數進行變數配置,但每個變數需要手動配置。新版本則將允許在配置參數中使用預設值,提高了配置的靈活性。
適配 Prometheus 進行集群監控
此前,SeaTunnel 提供了介面來獲取任務運行的指標,新版本將支持適配 Prometheus 進行集群監控。Prometheus 將定期拉取 SeaTunnel 的集群任務狀態,並以可視化界面展示出來,以更便利地監控集群的狀態,及時發現問題。
Dashboard展示
添加 Embedding transform
通過 Embedding transform,支持將機器學習模型嵌入到數據轉換過程中,把原始欄位轉換成向量值,再存儲到相應的機器學習資料庫。目前,SeaTunnel 支持的機器學習模型提供商包括豆包、千帆、OpenAI。
Job 級別日誌過濾查看
增加了Job級別的日誌過濾和查看功能,可以通過三種方式實現日誌過濾。
第一種是通過把 Job ID 列印到日誌的最前面,用戶可以通過搜索 Job ID 來找到屬於此 Job 的所有日誌,這樣可以把日誌過濾出來,解決當多任務併發時,一旦其中一項任務出錯,通過日誌來排查問題相對比較困難的難題。
第二種是根據 Job ID 拆分文件,通過修改 log 配置文件,很多文件都是配置好的,只需要簡單修改,任務就會在每一個 Job 打一個日誌文件。相同的 Job ID 會被歸類到同一個文件下,這樣就方便大家查找日誌文件。
修改log4j2.properties
配置文件示例:
...
rootLogger.appenderRef.file.ref = routingAppender
...
appender.file.layout.pattern = %d{yyyy-MM-dd HH:mm:ss,SSS} %-5p [%-30.30c{1.}] [%t] - %m%n
...
Kafka 支持讀取/寫入 Protobuf 類型數據
增強了 Kafka 連接器對 Protobuf 數據格式的支持,在 Kafka 連接器下增加對 Protobuf 數據類型的定義,進行數據讀取和寫入。
文件支持讀取壓縮包
增加了對壓縮文件格式的讀取支持,省去瞭解壓縮的步驟。
其他功能
此外,新版本還將移除對系統表的過濾,允許用戶讀取系統表;增強對Paimon流式讀取和動態桶寫入的支持。
如何獲取最新版本和參與貢獻
下載
SeaTunnel 2.3.8 版本預計將於 10 月初發佈,屆時可關註 SeaTunnel 官網下載頁面 獲取最新版本的SeaTunnel。
參與貢獻
-
郵件列表
通過發送郵件到 [email protected] 訂閱SeaTunnel開發郵件列表,參與社區討論和發版投票。 -
GitHub
訪問 Apache SeaTunnel GitHub 倉庫 追蹤社區最新動態,提交bug報告和功能請求。
結語
SeaTunnel 2.3.8 版本的發佈將帶來一系列新功能和改進,使得數據集成更加高效和靈活。感謝所有貢獻者的努力,讓 SeaTunnel 成為一個更加強大的數據集成工具。
更多信息請訪問 SeaTunnel 官網。
本文由 白鯨開源 提供發佈支持!