ChunJun FTP Connector 功能擴展解讀

来源:https://www.cnblogs.com/DTinsight/archive/2023/06/01/17448235.html
-Advertisement-
Play Games

本文將從 [FTP Connector ](https://www.dtstack.com/resources/1044?src=szsm)的功能詳解,[自定義文件切割](https://www.dtstack.com/resources/1044?src=szsm)及[自定義 FileFormat ...


本文將從 FTP Connector 的功能詳解,自定義文件切割自定義 FileFormat 三個方面為大家帶來 ChunJun FTP Connector 的功能擴展分享。

FTP Connector 詳解

FTP 是用於在網路上進行文件傳輸的一套標準協議,它工作在 OSI 模型的第七層, TCP 模型的第四層, 即應用層,提供一種在伺服器和客戶機之間上傳和下載文件的有效方式。

FTP Connector 基本功能

ChunJun FTP Connector 基本功能如下:

· 支持 FTP 協議 與 SFTP 協議讀寫;

· 支持斷點續傳

· 支持併發讀寫;

· 支持多種文件格式的讀寫。

斷點續傳

主要的類:Position,Data,FtpFileReader,代碼如下:

file
file

併發讀寫

代碼如下:

file

自定義文件切割

ConcurrentFileSplitFactory 像一個工廠,通過這個工廠去創建其他的類,包括 ConcurrentZipCompressSplit、ConcurrentCsvSplit 以及預設的 DefaultFileSplit,類結構如下圖:

file

處理流程

FTP 讀取文件時,通過 ConcurrentFileSplit 對文件進行切割,切割成多個 FTPFileSplit,配置到 Channel 中,最後根據 FileSplit 保存的信息,自定義讀取文件。

file

處理邏輯

· 使用 maxFetchSize 配置,當同步的文件大於這個值時,開啟大文件切割功能

· 對文件進行分析,構建分片,以文件大小1.2G、分片數4舉例,每個分片數處理的數據量約等於1.2G / 4 = 300M

其中使用的分片構建演算法邏輯如下:

1)從第300M偏移量開始讀文件,按單個位元組遍歷文件,記錄下一個'\n'的文件偏移量,如300.1M,第一個分片處理文件的範圍就是0~ 300.1M

2)第二個分片從 300.1M + 300M開始讀文件,遍歷文件,記錄下一個'\n'的文件偏移量,如600.3M,第二個分片處理文件的範圍就是300.1M~ 600.3M

3)以此類推, 構建完所有的分片

· 單個文件的數據在多個通道併發讀取後,寫入目標表時,無法對多個通道的數據按原文件中記錄的順序進行寫入

單個並行度讀取耗時為122s:

file

8個並行度讀取平均耗時為88s:

file

自定義 FileFormat

自定義 FlieFormat 同樣是以工廠模式實現的,ChunJun 目前已實現 Excel、Csv、Text 三種文件結構,當前仍然局限於 FTP,後續會擴展成公共模塊,獨屬於 ChunJun 的 Format。類結構如下圖:

file

ChunJun 設計方案

FTP 增加的功能點如下:

· FTP支持用戶自定義解析方式;

· FTP 支持自定義數據轉換。

針對上述新增功能點 ChunJun 設計方案如下:

· FTP soource 新增參數 customFormatClassName:自定義解析器類名

· 抽象出公共模塊,定義解析器介面 IFileReadFormat ,解析方式由用戶實現以及 ChunJun 自帶的實現

大量具體代碼請看視頻教程⬇️:

視頻課程&PPT獲取

視頻課程:

https://www.bilibili.com/video/BV1Gm4y1a7Fv/?spm_id_from=333.999.0.0

課件獲取:

https://www.dtstack.com/resources/1044

《數棧產品白皮書》:https://www.dtstack.com/resources/1004?src=szsm

《數據治理行業實踐白皮書》下載地址:https://www.dtstack.com/resources/1001?src=szsm

想瞭解或咨詢更多有關袋鼠雲大數據產品、行業解決方案、客戶案例的朋友,瀏覽袋鼠雲官網:https://www.dtstack.com/?src=szbky

同時,歡迎對大數據開源項目有興趣的同學加入「袋鼠雲開源框架釘釘技術qun」,交流最新開源技術信息,qun號碼:30537511,項目地址:https://github.com/DTStack


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Linux技術文檔 1.說明 研究思路:從Linux外部向內部研究,從外部工具到系統內核深入的研究思路。本文檔主要針對外部工具進行實驗。並賦予實驗結論。 2.系統內核初識 1.系統記憶體管理:管理物理記憶體與虛擬記憶體(內核通過硬碟上的存儲空間來時間虛擬記憶體,這塊區域稱為交換空間) 2.軟體程式管理:in ...
  • RTC簡介: RTC是一個獨立的定時器,它可以連續計數和提供了時鐘日曆功能。使用BKP寄存器存儲具有掉電保存功能 存粹的計時的, 觸發中斷 ——鬧鐘中斷,用來產生一個可編程的鬧鐘中斷。 ——秒中斷,用來產生一個可編程的周期性中斷信號(最快1秒,最慢1秒,只能1秒) ——溢出中斷,指示內部可編程計數器 ...
  • # 修改表 ## 修改表名 ```SQL -- 1.將名為 table1 的表修改為 table2 ALTER TABLE table1 RENAME table2; -- 示例 ALTER TABLE aggregate_test RENAME aggregate_test1; -- 2.將表 e ...
  • 雖然之前收集過網名資料庫,比如:《4萬個性網名大全網路名稱大全ACCESS資料庫》、《8萬多個網名大全QQ網名ACCESS資料庫》,但是都包含有~!#@等特殊符號,而今天這份則是沒有特殊符號的,並且記錄數達到了71萬且網名沒有重覆。 分類統計:搞笑網名(20577)、男生網名(66783)、女生網名 ...
  • # [MySQL--SQL優化] # 1、insert優化(插入數據優化) - ## 建議使用批量插入 ```MYSQL # 批量插入避免頻繁連接斷開資料庫(一次連接插入多條數據) insert into 表名 values(數據1),(數據2),(數據3)...... ``` - ## 建議手動提 ...
  • 摘要:應用運維管理平臺(AOM)和Cassandra是兩個不可分割的組成部分,它們共同構成了一個高效的解決方案,可以幫助企業在應用運維業務上取得巨大的優勢。在這篇文章中,我們將介紹AOM和Cassandra的優勢和特點,揭曉它們如何為企業保持市場競爭力的秘密。 本文分享自華為雲社區《海量數據運維要給 ...
  • 背景 最近有個同事對字元串加索引,加完後,發現多了個奇奇怪怪的數字執行的SQL如下: alter table string_index_test add index `idx_name` (`name`) USING BTREE; 這個奇怪數字就是191,它很是疑惑,也沒指定索引的長度通過查看MyS ...
  • 英語類的數據其實已經有很多很多人,但是不同的需求適合的也會是各種的不同,甚至可能需要將多個相關的數據整合起來應用,而今天這份資料庫對於整合來說是非常方便的,因為它是以單詞為關鍵詞進行各種關聯的,也就是說只要是英語類的數據都可以與這份數據關聯起來。 這個數據的好處在於有17830個英語的真人讀音MP3 ...
一周排行
    -Advertisement-
    Play Games
  • 概述:本文代碼示例演示瞭如何在WPF中使用LiveCharts庫創建動態條形圖。通過創建數據模型、ViewModel和在XAML中使用`CartesianChart`控制項,你可以輕鬆實現圖表的數據綁定和動態更新。我將通過清晰的步驟指南包括詳細的中文註釋,幫助你快速理解並應用這一功能。 先上效果: 在 ...
  • openGauss(GaussDB ) openGauss是一款全面友好開放,攜手伙伴共同打造的企業級開源關係型資料庫。openGauss採用木蘭寬鬆許可證v2發行,提供面向多核架構的極致性能、全鏈路的業務、數據安全、基於AI的調優和高效運維的能力。openGauss深度融合華為在資料庫領域多年的研 ...
  • openGauss(GaussDB ) openGauss是一款全面友好開放,攜手伙伴共同打造的企業級開源關係型資料庫。openGauss採用木蘭寬鬆許可證v2發行,提供面向多核架構的極致性能、全鏈路的業務、數據安全、基於AI的調優和高效運維的能力。openGauss深度融合華為在資料庫領域多年的研 ...
  • 概述:本示例演示了在WPF應用程式中實現多語言支持的詳細步驟。通過資源字典和數據綁定,以及使用語言管理器類,應用程式能夠在運行時動態切換語言。這種方法使得多語言支持更加靈活,便於維護,同時提供清晰的代碼結構。 在WPF中實現多語言的一種常見方法是使用資源字典和數據綁定。以下是一個詳細的步驟和示例源代 ...
  • 描述(做一個簡單的記錄): 事件(event)的本質是一個委托;(聲明一個事件: public event TestDelegate eventTest;) 委托(delegate)可以理解為一個符合某種簽名的方法類型;比如:TestDelegate委托的返回數據類型為string,參數為 int和 ...
  • 1、AOT適合場景 Aot適合工具類型的項目使用,優點禁止反編 ,第一次啟動快,業務型項目或者反射多的項目不適合用AOT AOT更新記錄: 實實在在經過實踐的AOT ORM 5.1.4.117 +支持AOT 5.1.4.123 +支持CodeFirst和非同步方法 5.1.4.129-preview1 ...
  • 總說周知,UWP 是運行在沙盒裡面的,所有許可權都有嚴格限制,和沙盒外交互也需要特殊的通道,所以從根本杜絕了 UWP 毒瘤的存在。但是實際上 UWP 只是一個應用模型,本身是沒有什麼許可權管理的,許可權管理全靠 App Container 沙盒控制,如果我們脫離了這個沙盒,UWP 就會放飛自我了。那麼有沒... ...
  • 目錄條款17:讓介面容易被正確使用,不易被誤用(Make interfaces easy to use correctly and hard to use incorrectly)限制類型和值規定能做和不能做的事提供行為一致的介面條款19:設計class猶如設計type(Treat class de ...
  • title: 從零開始:Django項目的創建與配置指南 date: 2024/5/2 18:29:33 updated: 2024/5/2 18:29:33 categories: 後端開發 tags: Django WebDev Python ORM Security Deployment Op ...
  • 1、BOM對象 BOM:Broswer object model,即瀏覽器提供我們開發者在javascript用於操作瀏覽器的對象。 1.1、window對象 視窗方法 // BOM Browser object model 瀏覽器對象模型 // js中最大的一個對象.整個瀏覽器視窗出現的所有東西都 ...