Docker鏡像、Spark支持多表...Apache SeaTunnel 2.3.8版本將帶來的驚喜

来源:https://www.cnblogs.com/seatunnel/p/18435258
-Advertisement-
Play Games

Apache SeaTunnel 2.3.8版本即將於大家見面,近日,Apache SeaTunnel PMC Member 範佳在社區的交流會上為大家提前透露了關於這個新版本即將進行的功能與特性更新概況,詳細內容如下: SeaTunnel 簡介 SeaTunnel是一個高性能的開源分散式數據集成系 ...


file

Apache SeaTunnel 2.3.8版本即將於大家見面,近日,Apache SeaTunnel PMC Member 範佳在社區的交流會上為大家提前透露了關於這個新版本即將進行的功能與特性更新概況,詳細內容如下:

SeaTunnel 簡介

SeaTunnel是一個高性能的開源分散式數據集成系統,支持各種數據源的實時流式和離線批處理,適用於海量數據的集成。它具有以下特點:

  • 海量連接器:支持100+種數據源和存儲系統。
  • 多引擎支持:相容多種數據處理引擎,包括SeaTunnel Zeta Engine、Spark和Flink。
  • HTTP支持:可以通過HTTP介面進行數據集成。
  • 流批一體:同時支持流處理和批處理。
  • 流速控制:能夠控制數據流的速率。
  • 自動建表功能:自動根據數據結構創建表。

2.3.8 版本新功能與特性

在即將發佈的2.3.8版本中,社區將對SeaTunnel進行以下功能和特性的更新:

Docker 鏡像

新版本將提供官方版本的 Docker 鏡像,將包含幾乎所有的 Connector,用戶無需下載安裝包,通過直接通過拉取鏡像,可以更快地運行 SeaTunnel,減輕 SeaTunnel 部署的複雜度。

file

  • 通過命令構建鏡像:對於本地部署,並且有定製化需求的用戶,可以通過命令行構建鏡像;

file

  • 通過命令啟動服務:支持通過命令啟動服務進行分散式部署,以及提交任務和查詢任務狀態等;當然。也可以通過 rest-API 提交任務。

file

  • 通過命令提交服務

file

Spark 支持多表

目前,SeaTunnel 僅支持 Zeta Engine 對多表的支持,新版本將增加 Spark 引擎對多表的支持,可以自動識別並自動運行多表任務。

file

另外,Flink 對於多表的支持已經在推進之中,感興趣的朋友歡迎來 GitHub 參與共建。

Config 參數支持預設值

目前,SeaTunnel 允許在 config 參數進行變數配置,但每個變數需要手動配置。新版本則將允許在配置參數中使用預設值,提高了配置的靈活性。

file
file

適配 Prometheus 進行集群監控

此前,SeaTunnel 提供了介面來獲取任務運行的指標,新版本將支持適配 Prometheus 進行集群監控。Prometheus 將定期拉取 SeaTunnel 的集群任務狀態,並以可視化界面展示出來,以更便利地監控集群的狀態,及時發現問題。

file

file
Dashboard展示

添加 Embedding transform

通過 Embedding transform,支持將機器學習模型嵌入到數據轉換過程中,把原始欄位轉換成向量值,再存儲到相應的機器學習資料庫。目前,SeaTunnel 支持的機器學習模型提供商包括豆包、千帆、OpenAI。

file
file

Job 級別日誌過濾查看

增加了Job級別的日誌過濾和查看功能,可以通過三種方式實現日誌過濾。

第一種是通過把 Job ID 列印到日誌的最前面,用戶可以通過搜索 Job ID 來找到屬於此 Job 的所有日誌,這樣可以把日誌過濾出來,解決當多任務併發時,一旦其中一項任務出錯,通過日誌來排查問題相對比較困難的難題。

file

第二種是根據 Job ID 拆分文件,通過修改 log 配置文件,很多文件都是配置好的,只需要簡單修改,任務就會在每一個 Job 打一個日誌文件。相同的 Job ID 會被歸類到同一個文件下,這樣就方便大家查找日誌文件。

file

修改log4j2.properties配置文件示例:

...
rootLogger.appenderRef.file.ref = routingAppender
...

appender.file.layout.pattern = %d{yyyy-MM-dd HH:mm:ss,SSS} %-5p [%-30.30c{1.}] [%t] - %m%n
...

Kafka 支持讀取/寫入 Protobuf 類型數據

增強了 Kafka 連接器對 Protobuf 數據格式的支持,在 Kafka 連接器下增加對 Protobuf 數據類型的定義,進行數據讀取和寫入。

file

文件支持讀取壓縮包

增加了對壓縮文件格式的讀取支持,省去瞭解壓縮的步驟。

file

其他功能

此外,新版本還將移除對系統表的過濾,允許用戶讀取系統表;增強對Paimon流式讀取和動態桶寫入的支持。

如何獲取最新版本和參與貢獻

下載

SeaTunnel 2.3.8 版本預計將於 10 月初發佈,屆時可關註 SeaTunnel 官網下載頁面 獲取最新版本的SeaTunnel。

參與貢獻

結語

SeaTunnel 2.3.8 版本的發佈將帶來一系列新功能和改進,使得數據集成更加高效和靈活。感謝所有貢獻者的努力,讓 SeaTunnel 成為一個更加強大的數據集成工具。

更多信息請訪問 SeaTunnel 官網

本文由 白鯨開源 提供發佈支持!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1. 結構化數據 1.1. 結構化數據是數據湖倉中最常見的基礎數據之一 1.1.1. 是技術領域中最早出現的數據環境之一 1.2. 每條記錄的結構都是相同的,即便不同記錄中的內容可能不同,但數據的基本佈局完全一樣 1.3. 結構化數據環境都經過了優化,電腦能以最優的方式處理結構化數據 1.4. 很 ...
  • 本文內容來自YashanDB官網,具體內容請見(https://www.yashandb.com/newsinfo/7488286.html?templateId=1718516) 測試驗證環境說明 測試用例說明 1、相同版本下,新增表數據量,使統計信息失效。優化器優先使用outline的計劃。 2 ...
  • PostgreSQL的流複製,從整體上看,可以粗分為同步與非同步兩種模式,其中涉及的主要參數包括synchronous_commit和synchronous_standby_names 主節點synchronous_commit參數設置 synchronous_commit事務提交模式,類似於MySQ ...
  • 本文是翻譯A graph a day, keeps the doctor away ! – MySQL History List Length[1]這篇文章,翻譯如有不當的地方,敬請諒解,請尊重原創和翻譯勞動成果,轉載的時候請註明出處。謝謝! 這是MySQL趨勢系列文章的第二篇。 正如我之前所寫,了 ...
  • 1. 不同類型的數據 1.1. 不同類型的數據在存儲方面有各自的特性,這些特性極大地影響了數據在數據湖倉中的存儲和使用方式 1.2. 結構化數據 1.2.1. 在企業等組織中,只有少量的數據是結構化數據 1.2.2. 結構化數據是基於事務的數據,是組織日常業務的副產品 1.3. 文本數據 1.3.1 ...
  • 目錄表的增刪改查Create指定列插入單行數據+全列插入多行數據+全列插入插入否則更新替換 (replace)Retrieve標準語法SELECT列全列查詢限制顯示條目 limit (分頁查詢)基本語法:指定列查詢select 查詢欄位為表達式表達式重命名去重WHERE 條件比較運算符邏輯運算符案例 ...
  • 本文內容來自YashanDB官網,具體內容請見https://www.yashandb.com/newsinfo/7488285.html?templateId=1718516 背景 OCI 是Oracle調用介面(Oracle Call Interface 簡稱OCI) 提供了一組對Oracle數 ...
  • 本文內容來自YashanDB官網,具體內容請見https://www.yashandb.com/newsinfo/7459465.html?templateId=1718516 問題現象 某局點yashandb cpu使用率100%,經線上分析是由於幾個sql執行慢,其中一個sql為簡單的單行等值綁 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...