使用Apache SeaTunnel高效集成和管理SftpFile數據源

来源:https://www.cnblogs.com/seatunnel/p/18420053
-Advertisement-
Play Games

本文為Apache SeaTunnel已經支持的SftpFile Source Connector使用文檔,旨在幫助讀者理解如何高效地使用SFTP文件源連接器,以便輕鬆地使用Apache SeaTunnel集成和管理您的SftpFil數據源。 SftpFile 是指通過 SFTP(Secure Fi ...


file

本文為Apache SeaTunnel已經支持的SftpFile Source Connector使用文檔,旨在幫助讀者理解如何高效地使用SFTP文件源連接器,以便輕鬆地使用Apache SeaTunnel集成和管理您的SftpFil數據源。

SftpFile 是指通過 SFTP(Secure File Transfer Protocol)協議進行文件操作的對象或組件。在網路編程和數據集成中,SFTPFile 通常用來表示和操作存儲在遠程 SFTP 伺服器上的文件。SFTP 是一種安全的文件傳輸協議,基於 SSH(Secure Shell)協議,提供了加密的文件傳輸和遠程文件操作功能。

支持的引擎

Spark

Flink

SeaTunnel Zeta

主要特性

描述

從 SFTP 文件伺服器讀取數據。

支持的數據源信息

使用 SftpFile 連接器,需要以下依賴項。可以通過 install-plugin.sh 下載,也可以從 Maven 中央倉庫獲取。

數據源 支持的版本 依賴項
SftpFile 通用 下載
  • 提示

如果你使用的是 Spark/Flink,請確保 Spark/Flink 集群已經集成了 Hadoop。Hadoop 2.x 版本已通過測試。

如果使用 SeaTunnel 引擎,安裝 SeaTunnel 引擎時會自動集成 Hadoop JAR 包。可以在 ${SEATUNNEL_HOME}/lib 目錄下檢查這個 JAR 包是否存在。

為了支持更多的文件類型,我們做了一些妥協,所以在內部訪問 Sftp 時我們使用了 HDFS 協議,這個連接器需要一些 Hadoop 依賴項,且僅支持 Hadoop 版2.9.X+ 版本。

數據類型映射

文件沒有特定的類型列表,我們可以通過在配置中指定模式來指示要將哪個 SeaTunnel 數據類型轉換為相應的數據。

SeaTunnel 數據類型
STRING
SHORT
INT
BIGINT
BOOLEAN
DOUBLE
DECIMAL
FLOAT
DATE
TIME
TIMESTAMP
BYTES
ARRAY
MAP

Source選項

名稱 類型 必填 預設值 描述
host 字元串 - 目標 SFTP 主機地址
port 整數 - 目標 SFTP 埠號
user 字元串 - 目標 SFTP 用戶名
password 字元串 - 目標 SFTP 密碼
path 字元串 - 源文件路徑
file_format_type 字元串 - 請查看下文的 #file_format_type
file_filter_pattern 字元串 - 用於文件過濾的過濾器模式。
delimiter 字元串 \001 欄位分隔符,用於告訴連接器如何在讀取文本文件時切割欄位。預設 \001,與 Hive 的預設分隔符相同。
parse_partition_from_path 布爾型 true 控制是否從文件路徑中解析分區鍵和值。
例如,如果從路徑中讀取文件 oss://hadoop-cluster/tmp/seatunnel/parquet/name=tyrantlucifer/age=26
那麼文件中的每條記錄將添加這兩個欄位:
name age
tyrantlucifer 26
提示:不要在模式選項中定義分區欄位
date_format 字元串 yyyy-MM-dd 日期類型的格式,用於告訴連接器如何將字元串轉換為日期,支持以下格式:
yyyy-MM-dd yyyy.MM.dd yyyy/MM/dd,預設 yyyy-MM-dd
datetime_format 字元串 yyyy-MM-dd HH:mm:ss 日期時間類型的格式,用於告訴連接器如何將字元串轉換為日期時間,支持以下格式:
yyyy-MM-dd HH:mm:ss yyyy.MM.dd HH:mm:ss yyyy/MM/dd HH:mm:ss yyyyMMddHHmmss,預設 yyyy-MM-dd HH:mm:ss
time_format 字元串 HH:mm:ss 時間類型的格式,用於告訴連接器如何將字元串轉換為時間,支持以下格式:
HH:mm:ss HH:mm:ss.SSS,預設 HH:mm:ss
skip_header_row_number 長整型 0 跳過前幾行,僅對 txt 和 csv 文件有效。
例如,設置如下:
skip_header_row_number = 2
那麼 SeaTunnel 將跳過源文件的前兩行。
sheet_name 字元串 - 讀取工作簿的工作表名稱,僅在文件格式為 Excel 時使用。
schema 配置項 - 請查看下文的 #schema
通用選項 - Source 插件通用參數,請參考 Source通用選項 獲取詳細信息。

file_format_type [字元串]

支持以下文件類型:
text csv parquet orc json excel
如果將文件類型指定為 json,需要配置 Schema 模式選項,向連接器說明如何解析數據為你需要所需的 Row。
例如:上游數據如下:

{"code":  200, "data":  "get success", "success":  true}

也可以將多個數據保存在一個文件中,並通過換行符進行分隔:

{"code":  200, "data":  "get success", "success":  true}
{"code":  300, "data":  "get failed", "success":  false}

需要按照以下方式配置 Schema:

schema {
    fields {
        code = int
        data = string
        success = boolean
    }
}

連接器將生成以下數據:

code data success
200 獲取成功 true
如果將文件類型指定為 parquetorc,則無需指定模式選項,連接器可以自動查找上游數據的模式。
如果將文件類型指定為 textcsv,則可以選擇是否指定模式信息或不指定。

例如,上游數據如下:

tyrantlucifer#26#male

如果不配置 Schema,Connector 將這樣處理上游數據:

如果分配數據模式,則除了 CSV 文件類型外,還應分配選項 delimiter。

內容
tyrantlucifer#26#male
如果配置了數據 Schema,除了CSV文件類型,還需要配置選項分隔符。

需要配置 Schema 和分隔符如下:

delimiter = "#"
schema {
    fields {
        name = string
        age = int
        gender = string 
    }
}

連接器將生成以下數據:

姓名 年齡 性別
tyrantlucifer 26

Schema [配置項]

fields [配置項]
上游數據的 Schema。

如何創建 Sftp 數據同步任務

以下示例演示瞭如何創建一個數據同步任務,從 Sftp 讀取數據併在本地客戶端上列印出來:

# 設置要執行的任務的基本配置
env {
  execution.parallelism = 1
  job.mode = "BATCH"
}

# 創建連接到 Sftp 的源
source {
  SftpFile {
    host = "sftp"
    port = 22
    user = seatunnel
    password = pass
    path = "tmp/seatunnel/read/json"
    file_format_type = "json"
    result_table_name = "sftp"
    schema = {
      fields {
        c_map = "map<string, string>"
        c_array = "array<int>"
        c_string = string
        c_boolean = boolean
        c_tinyint = tinyint
        c_smallint = smallint
        c_int = int
        c_bigint = bigint
        c_float = float
        c_double = double
        c_bytes = bytes
        c_date = date
        c_decimal = "decimal(38, 18)"
        c_timestamp = timestamp
        c_row = {
          C_MAP = "map<string, string>"
          C_ARRAY = "array<int>"
          C_STRING = string
          C_BOOLEAN = boolean
          C_TINYINT = tinyint
          C_SMALLINT = smallint
          C_INT = int
          C_BIGINT = bigint
          C_FLOAT = float
          C_DOUBLE = double
          C_BYTES = bytes
          C_DATE = date
          C_DECIMAL = "decimal(38, 18)"
          C_TIMESTAMP = timestamp
        }
      }
    }
  }
}

# 控制台列印讀取的 Sftp 數據
sink {
  Console {
    parallelism = 1
  }
}

本文由 白鯨開源 提供發佈支持!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 目錄使用C語言連接庫的安裝C APImysql_initmysql_real_connectmysql_closemysql_querymysql_set_character_setmysql_store_result 使用C語言連接 mysql操作是線程安全的(事務) 以API路線認識mysql ...
  • 目錄用戶用戶管理查詢所有用戶查看當前用戶查看當前連接數創建用戶刪除用戶修改密碼規則查看規則/策略規則說明臨時設置持久設置修改密碼許可權資料庫提供的 許可權列表查看許可權給用戶授權回收用戶許可權 用戶 用戶管理 mysql用戶管理位於資料庫mysql中的user表中 mysql> show tables; + ...
  • 摘要 在學習MySQL語法之前,我們需要先解決在Ubuntu或CentOs環境下的“軟體安裝”的問題。本文梳理了安裝前後的各個步驟及有關的註意事項,主要涵蓋了安裝前的準備工作、如何安裝mysql,以及安裝之後如何啟動、如何正式使用這幾個方面。建議讀者先瀏覽一遍,留心相關的註意事項,或許能令自己稍後的 ...
  • 目錄MySQL卸載環境查看是否已安裝MySQL卸載mysql服務查看是否卸載乾凈MySQL安裝查看linux版本選擇MySQL版本獲取mysql官方yum源rpm安裝mysql官方yum源安裝mysql服務查看是否安裝成功配置MySQL簡單登錄mysql命令免密登錄配置my.cnf 其他配置項設置開 ...
  • 文章作者:尚志忠 編輯整理:曾輝 行業背景 隨著大數據、雲計算、5G、人工智慧等技術的快速發展,以及醫療信息化建設的不斷深入,數據中台作為打通醫療數據融合壁壘、實現數據互通與共用、構建高效數據應用的關鍵信息平臺,正逐漸成為推動醫療行業數字化轉型和創新發展的重要力量。 星海·濟世醫療數據中台介紹 中國 ...
  • 近日,VLDB 2024(International Conference on Very Large Data Bases)在廣州隆重舉行,全球資料庫領域頂尖學者匯聚一堂,圍繞資料庫行業前沿議題展開探討,帶來一場跨越東西方、覆蓋產學研的交流盛宴。 ...
  • 如果靜態監聽中ORACLE_SID不註意大小寫的話,可能導致資料庫連接不上的問題。如下案例所示: $ sqlplus system/***@GPSUATSQL*Plus: Release 19.0.0.0.0 - Production on Wed Sep 18 15:48:37 2024Versi ...
  • 在使用Apache DolphinScheduler調度執行複雜的HiveSQL時,HQL包含多種海豚無法正確識別的符號,怎麼辦?本文提供了可行的思路和方法,供用戶參考。 一、目的 在Hive中完成複雜JSON,既有對象還有數組而且數組中包含數組的解析後,原本以為沒啥問題了,結果在DolphinSc ...
一周排行
    -Advertisement-
    Play Games
  • 前言 本文介紹一款使用 C# 與 WPF 開發的音頻播放器,其界面簡潔大方,操作體驗流暢。該播放器支持多種音頻格式(如 MP4、WMA、OGG、FLAC 等),並具備標記、實時歌詞顯示等功能。 另外,還支持換膚及多語言(中英文)切換。核心音頻處理採用 FFmpeg 組件,獲得了廣泛認可,目前 Git ...
  • OAuth2.0授權驗證-gitee授權碼模式 本文主要介紹如何筆者自己是如何使用gitee提供的OAuth2.0協議完成授權驗證並登錄到自己的系統,完整模式如圖 1、創建應用 打開gitee個人中心->第三方應用->創建應用 創建應用後在我的應用界面,查看已創建應用的Client ID和Clien ...
  • 解決了這個問題:《winForm下,fastReport.net 從.net framework 升級到.net5遇到的錯誤“Operation is not supported on this platform.”》 本文內容轉載自:https://www.fcnsoft.com/Home/Sho ...
  • 國內文章 WPF 從裸 Win 32 的 WM_Pointer 消息獲取觸摸點繪製筆跡 https://www.cnblogs.com/lindexi/p/18390983 本文將告訴大家如何在 WPF 裡面,接收裸 Win 32 的 WM_Pointer 消息,從消息裡面獲取觸摸點信息,使用觸摸點 ...
  • 前言 給大家推薦一個專為新零售快消行業打造了一套高效的進銷存管理系統。 系統不僅具備強大的庫存管理功能,還集成了高性能的輕量級 POS 解決方案,確保頁面載入速度極快,提供良好的用戶體驗。 項目介紹 Dorisoy.POS 是一款基於 .NET 7 和 Angular 4 開發的新零售快消進銷存管理 ...
  • ABP CLI常用的代碼分享 一、確保環境配置正確 安裝.NET CLI: ABP CLI是基於.NET Core或.NET 5/6/7等更高版本構建的,因此首先需要在你的開發環境中安裝.NET CLI。這可以通過訪問Microsoft官網下載並安裝相應版本的.NET SDK來實現。 安裝ABP ...
  • 問題 問題是這樣的:第三方的webapi,需要先調用登陸介面獲取Cookie,訪問其它介面時攜帶Cookie信息。 但使用HttpClient類調用登陸介面,返回的Headers中沒有找到Cookie信息。 分析 首先,使用Postman測試該登陸介面,正常返回Cookie信息,說明是HttpCli ...
  • 國內文章 關於.NET在中國為什麼工資低的分析 https://www.cnblogs.com/thinkingmore/p/18406244 .NET在中國開發者的薪資偏低,主要因市場需求、技術棧選擇和企業文化等因素所致。歷史上,.NET曾因微軟的閉源策略發展受限,儘管後來推出了跨平臺的.NET ...
  • 在WPF開發應用中,動畫不僅可以引起用戶的註意與興趣,而且還使軟體更加便於使用。前面幾篇文章講解了畫筆(Brush),形狀(Shape),幾何圖形(Geometry),變換(Transform)等相關內容,今天繼續講解動畫相關內容和知識點,僅供學習分享使用,如有不足之處,還請指正。 ...
  • 什麼是委托? 委托可以說是把一個方法代入另一個方法執行,相當於指向函數的指針;事件就相當於保存委托的數組; 1.實例化委托的方式: 方式1:通過new創建實例: public delegate void ShowDelegate(); 或者 public delegate string ShowDe ...