使用Apache SeaTunnel高效集成和管理SftpFile數據源

来源:https://www.cnblogs.com/seatunnel/p/18420053
-Advertisement-
Play Games

本文為Apache SeaTunnel已經支持的SftpFile Source Connector使用文檔,旨在幫助讀者理解如何高效地使用SFTP文件源連接器,以便輕鬆地使用Apache SeaTunnel集成和管理您的SftpFil數據源。 SftpFile 是指通過 SFTP(Secure Fi ...


file

本文為Apache SeaTunnel已經支持的SftpFile Source Connector使用文檔,旨在幫助讀者理解如何高效地使用SFTP文件源連接器,以便輕鬆地使用Apache SeaTunnel集成和管理您的SftpFil數據源。

SftpFile 是指通過 SFTP(Secure File Transfer Protocol)協議進行文件操作的對象或組件。在網路編程和數據集成中,SFTPFile 通常用來表示和操作存儲在遠程 SFTP 伺服器上的文件。SFTP 是一種安全的文件傳輸協議,基於 SSH(Secure Shell)協議,提供了加密的文件傳輸和遠程文件操作功能。

支持的引擎

Spark

Flink

SeaTunnel Zeta

主要特性

描述

從 SFTP 文件伺服器讀取數據。

支持的數據源信息

使用 SftpFile 連接器,需要以下依賴項。可以通過 install-plugin.sh 下載,也可以從 Maven 中央倉庫獲取。

數據源 支持的版本 依賴項
SftpFile 通用 下載
  • 提示

如果你使用的是 Spark/Flink,請確保 Spark/Flink 集群已經集成了 Hadoop。Hadoop 2.x 版本已通過測試。

如果使用 SeaTunnel 引擎,安裝 SeaTunnel 引擎時會自動集成 Hadoop JAR 包。可以在 ${SEATUNNEL_HOME}/lib 目錄下檢查這個 JAR 包是否存在。

為了支持更多的文件類型,我們做了一些妥協,所以在內部訪問 Sftp 時我們使用了 HDFS 協議,這個連接器需要一些 Hadoop 依賴項,且僅支持 Hadoop 版2.9.X+ 版本。

數據類型映射

文件沒有特定的類型列表,我們可以通過在配置中指定模式來指示要將哪個 SeaTunnel 數據類型轉換為相應的數據。

SeaTunnel 數據類型
STRING
SHORT
INT
BIGINT
BOOLEAN
DOUBLE
DECIMAL
FLOAT
DATE
TIME
TIMESTAMP
BYTES
ARRAY
MAP

Source選項

名稱 類型 必填 預設值 描述
host 字元串 - 目標 SFTP 主機地址
port 整數 - 目標 SFTP 埠號
user 字元串 - 目標 SFTP 用戶名
password 字元串 - 目標 SFTP 密碼
path 字元串 - 源文件路徑
file_format_type 字元串 - 請查看下文的 #file_format_type
file_filter_pattern 字元串 - 用於文件過濾的過濾器模式。
delimiter 字元串 \001 欄位分隔符,用於告訴連接器如何在讀取文本文件時切割欄位。預設 \001,與 Hive 的預設分隔符相同。
parse_partition_from_path 布爾型 true 控制是否從文件路徑中解析分區鍵和值。
例如,如果從路徑中讀取文件 oss://hadoop-cluster/tmp/seatunnel/parquet/name=tyrantlucifer/age=26
那麼文件中的每條記錄將添加這兩個欄位:
name age
tyrantlucifer 26
提示:不要在模式選項中定義分區欄位
date_format 字元串 yyyy-MM-dd 日期類型的格式,用於告訴連接器如何將字元串轉換為日期,支持以下格式:
yyyy-MM-dd yyyy.MM.dd yyyy/MM/dd,預設 yyyy-MM-dd
datetime_format 字元串 yyyy-MM-dd HH:mm:ss 日期時間類型的格式,用於告訴連接器如何將字元串轉換為日期時間,支持以下格式:
yyyy-MM-dd HH:mm:ss yyyy.MM.dd HH:mm:ss yyyy/MM/dd HH:mm:ss yyyyMMddHHmmss,預設 yyyy-MM-dd HH:mm:ss
time_format 字元串 HH:mm:ss 時間類型的格式,用於告訴連接器如何將字元串轉換為時間,支持以下格式:
HH:mm:ss HH:mm:ss.SSS,預設 HH:mm:ss
skip_header_row_number 長整型 0 跳過前幾行,僅對 txt 和 csv 文件有效。
例如,設置如下:
skip_header_row_number = 2
那麼 SeaTunnel 將跳過源文件的前兩行。
sheet_name 字元串 - 讀取工作簿的工作表名稱,僅在文件格式為 Excel 時使用。
schema 配置項 - 請查看下文的 #schema
通用選項 - Source 插件通用參數,請參考 Source通用選項 獲取詳細信息。

file_format_type [字元串]

支持以下文件類型:
text csv parquet orc json excel
如果將文件類型指定為 json,需要配置 Schema 模式選項,向連接器說明如何解析數據為你需要所需的 Row。
例如:上游數據如下:

{"code":  200, "data":  "get success", "success":  true}

也可以將多個數據保存在一個文件中,並通過換行符進行分隔:

{"code":  200, "data":  "get success", "success":  true}
{"code":  300, "data":  "get failed", "success":  false}

需要按照以下方式配置 Schema:

schema {
    fields {
        code = int
        data = string
        success = boolean
    }
}

連接器將生成以下數據:

code data success
200 獲取成功 true
如果將文件類型指定為 parquetorc,則無需指定模式選項,連接器可以自動查找上游數據的模式。
如果將文件類型指定為 textcsv,則可以選擇是否指定模式信息或不指定。

例如,上游數據如下:

tyrantlucifer#26#male

如果不配置 Schema,Connector 將這樣處理上游數據:

如果分配數據模式,則除了 CSV 文件類型外,還應分配選項 delimiter。

內容
tyrantlucifer#26#male
如果配置了數據 Schema,除了CSV文件類型,還需要配置選項分隔符。

需要配置 Schema 和分隔符如下:

delimiter = "#"
schema {
    fields {
        name = string
        age = int
        gender = string 
    }
}

連接器將生成以下數據:

姓名 年齡 性別
tyrantlucifer 26

Schema [配置項]

fields [配置項]
上游數據的 Schema。

如何創建 Sftp 數據同步任務

以下示例演示瞭如何創建一個數據同步任務,從 Sftp 讀取數據併在本地客戶端上列印出來:

# 設置要執行的任務的基本配置
env {
  execution.parallelism = 1
  job.mode = "BATCH"
}

# 創建連接到 Sftp 的源
source {
  SftpFile {
    host = "sftp"
    port = 22
    user = seatunnel
    password = pass
    path = "tmp/seatunnel/read/json"
    file_format_type = "json"
    result_table_name = "sftp"
    schema = {
      fields {
        c_map = "map<string, string>"
        c_array = "array<int>"
        c_string = string
        c_boolean = boolean
        c_tinyint = tinyint
        c_smallint = smallint
        c_int = int
        c_bigint = bigint
        c_float = float
        c_double = double
        c_bytes = bytes
        c_date = date
        c_decimal = "decimal(38, 18)"
        c_timestamp = timestamp
        c_row = {
          C_MAP = "map<string, string>"
          C_ARRAY = "array<int>"
          C_STRING = string
          C_BOOLEAN = boolean
          C_TINYINT = tinyint
          C_SMALLINT = smallint
          C_INT = int
          C_BIGINT = bigint
          C_FLOAT = float
          C_DOUBLE = double
          C_BYTES = bytes
          C_DATE = date
          C_DECIMAL = "decimal(38, 18)"
          C_TIMESTAMP = timestamp
        }
      }
    }
  }
}

# 控制台列印讀取的 Sftp 數據
sink {
  Console {
    parallelism = 1
  }
}

本文由 白鯨開源 提供發佈支持!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 目錄使用C語言連接庫的安裝C APImysql_initmysql_real_connectmysql_closemysql_querymysql_set_character_setmysql_store_result 使用C語言連接 mysql操作是線程安全的(事務) 以API路線認識mysql ...
  • 目錄用戶用戶管理查詢所有用戶查看當前用戶查看當前連接數創建用戶刪除用戶修改密碼規則查看規則/策略規則說明臨時設置持久設置修改密碼許可權資料庫提供的 許可權列表查看許可權給用戶授權回收用戶許可權 用戶 用戶管理 mysql用戶管理位於資料庫mysql中的user表中 mysql> show tables; + ...
  • 摘要 在學習MySQL語法之前,我們需要先解決在Ubuntu或CentOs環境下的“軟體安裝”的問題。本文梳理了安裝前後的各個步驟及有關的註意事項,主要涵蓋了安裝前的準備工作、如何安裝mysql,以及安裝之後如何啟動、如何正式使用這幾個方面。建議讀者先瀏覽一遍,留心相關的註意事項,或許能令自己稍後的 ...
  • 目錄MySQL卸載環境查看是否已安裝MySQL卸載mysql服務查看是否卸載乾凈MySQL安裝查看linux版本選擇MySQL版本獲取mysql官方yum源rpm安裝mysql官方yum源安裝mysql服務查看是否安裝成功配置MySQL簡單登錄mysql命令免密登錄配置my.cnf 其他配置項設置開 ...
  • 文章作者:尚志忠 編輯整理:曾輝 行業背景 隨著大數據、雲計算、5G、人工智慧等技術的快速發展,以及醫療信息化建設的不斷深入,數據中台作為打通醫療數據融合壁壘、實現數據互通與共用、構建高效數據應用的關鍵信息平臺,正逐漸成為推動醫療行業數字化轉型和創新發展的重要力量。 星海·濟世醫療數據中台介紹 中國 ...
  • 近日,VLDB 2024(International Conference on Very Large Data Bases)在廣州隆重舉行,全球資料庫領域頂尖學者匯聚一堂,圍繞資料庫行業前沿議題展開探討,帶來一場跨越東西方、覆蓋產學研的交流盛宴。 ...
  • 如果靜態監聽中ORACLE_SID不註意大小寫的話,可能導致資料庫連接不上的問題。如下案例所示: $ sqlplus system/***@GPSUATSQL*Plus: Release 19.0.0.0.0 - Production on Wed Sep 18 15:48:37 2024Versi ...
  • 在使用Apache DolphinScheduler調度執行複雜的HiveSQL時,HQL包含多種海豚無法正確識別的符號,怎麼辦?本文提供了可行的思路和方法,供用戶參考。 一、目的 在Hive中完成複雜JSON,既有對象還有數組而且數組中包含數組的解析後,原本以為沒啥問題了,結果在DolphinSc ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...