保姆級教程!玩轉 ChunJun 詳細指南

来源:https://www.cnblogs.com/DTinsight/archive/2023/03/24/17250900.html
-Advertisement-
Play Games

ChunJun 是一款穩定、易用、高效、批流一體的數據集成框架,⽀持海量數據的同步與計算。ChunJun 既可以採集靜態的數據,比如 MySQL,HDFS 等,也可以採集實時變化的數據,比如 binlog,Kafka 等。同時 ChunJun 也是一個支持原生 FlinkSQL 所有語法和特性的計算 ...


ChunJun 是一款穩定、易用、高效、批流一體的數據集成框架,⽀持海量數據的同步與計算。ChunJun 既可以採集靜態的數據,比如 MySQL,HDFS 等,也可以採集實時變化的數據,比如 binlog,Kafka 等。同時 ChunJun 也是一個支持原生 FlinkSQL 所有語法和特性的計算框架。

經過5年的迭代和開發,ChunJun 已經幫助很多公司快速進行數據整合,並解決數據開發人員需要過多進行繁瑣的數據抽取工作的問題,可以專註在企業業務場景的構建。

之前的內容當中,我們已經介紹過 ChunJun 的技術力、優勢,及如何提交 pr、Issue 的方法。作為「chunJun 新手入門」系列的第三篇,本文將為大家介紹如何配置一個 ChunJun 任務以及通過 ChunJun Client 端提交任務的流程等內容,教會大家更好地玩轉 ChunJun。

ChunJun 新手入門

Hi,我是ChunJun,一個有趣好用的開源項目

Ding!您有一份ChunJun實用指南,請查收

ChunJun 地址

官網:

https://dtstack.github.io/chunjun/

GitHub:

https://github.com/DTStack/chunjun

Gitee:

https://gitee.com/dtstack_dev_0/chunjun

配置一個 ChunJun 任務

ChunJun 的任務腳本⽀持兩種模式:Sync(Json) 和 SQL,前者配置更加豐富,底層使⽤的是 StreamAPI,在同步場景使⽤的較多;後者藉助 Flink SQL 本身的能⼒,利⽤ SQL 實現對數據的聚合等計算操作,底層使⽤的是 TableAPI。

Sync

同步任務使⽤的 Json 格式的配置⽂件,通過配置 Source/Sink 來完成數據的 EL 流程。⼀個同步任務的基本結構如下:

{
"job": {
"content": [
{
"nameMapping": {},
"reader": {
"parameter": {},
"name": "reader"
},
"writer": {
"parameter": {},
"name": "writer"
},
"restoration": {
"cache": {
"properties": {}
},
"workerMax": 3,
"workerSize": 3,
"workerNum": 2,
"ddl": {
"properties": {}
}
}
}
],
"setting": {
"restore": {},

● Job 整個任務的參數配置

1)同步任務的算⼦配置,如 Reader/Writer/Restoration 等。

• nameMapping:表名映射配置,⽤在 CDC 場景

• reader:同步任務 reader 的配置

• writer:同步任務writer的配置

• restoration:數據還原相關配置

2)setting 系統的⼀些參數配置,如增量同步(restore)、流控(speed)等。

SQL

ChunJun 的 SQL 任務直接沿⽤了 FlinkSQL 的引擎。詳細⽂檔請看:

https://nightlies.apache.org/flink/flink-docs-release-1.16/docs/dev/table/overview/

● DDL

CREATE TABLE xx(xxx) WITH(xxx); 
CREATE VIEW xxx

● DML

INSERT INTO xxx;

獲取 ChunJun

前置準備

· Java(JDK8);

· Maven(3.6.3,版本太低會找不到對應的 jar,另外,⾼版本的 Maven 對倉庫地址強制要求是 HTTPS,會存在倉庫地址訪問失敗的情況)

ChunJun 下載

● release 下載

ChunJun release 下載地址:

https://github.com/DTStack/chunjun/releases

● 源碼編譯

源碼下載:

https://github.com/DTStack/chunjun.git

ChunJun 是通過 Maven 來進⾏代碼依賴管理,對應的打包命令是:

mvn clean package -Dmaven.test.skip

ChunJun 使⽤的是 spotless 插件來進⾏代碼⻛格管理,在修改源碼之後打包,需要對源碼先執⾏下 mvn spotless:apply 命令來進⾏代碼格式化,否則會出現格式化不合規問題。

● 目錄結構

chunjun-dist
├── chunjun-core.jar
├── connector
├── ddl
├── dirty-data-collector
├── docker-build
├── metrics
└── restore-plugins

通過 ChunJun Client 端提交任務

通過 LocalTest、Standalone、Yarn Session、Yarn Perjob 四種模式為大家介紹如何通過ChunJun Client 端提交任務。

LocalTest 模式(適⽤於本地調試)

Local Test 模式是針對開發者同學⽤來進行本地測試驗證的模塊,只需要修改 main() 中的 jobPath 路徑即可,需要註意,同步任務的腳本請以 json ⽂件結尾,計算任務的腳本請以 sql ⽂件結尾。

Standalone 模式

● 環境準備

下載 Flink 並解壓

wget "http://archive.apache.org/dist/flink/flink-<flink.version>/flink-<flink.version>-bin-scala_<scala.version>.tgz"      
tar -zxvf flink-<flink.version>-bin-scala_<scala.version>.tgz

● 配置 ChunJun

1)下載 ChunJun 並解壓

wget "https://github.com/DTStack/chunjun/releases/download/<chunjun-tag>/chunjun-dist.tar.gz"  
tar -zxvf chunjun-dist.tar.gz

2)將 ChunJun-Dist 內容複製到 Flink Lib ⽬錄下並啟動 Flink Standalone 集群

# copy the chunjun-dist to the flink_lib
cp -r chunjun-dist $FLINK_HOME/lib
# start flink standalone cluster
sh $FLINK_HOME/bin/start-cluster.sh

3)在 Flink classpath 中可以看到 ChunJun 相關 jar,表示啟動成功;

● 提交任務

sh $CHUNJUN_DIST/bin/chunjun-standalone.sh <task-script path>

命令執⾏成功之後,即可在 Flink WEB UI 中看到對應的任務。

Yarn Session 模式

● 環境準備

1)下載 ChunJun 並解壓

wget "https://github.com/DTStack/chunjun/releases/download/<chunjun-tag>/chunjun-dist.tar.gz"  
tar -zxvf chunjun-dist.tar.gz

2)下載 ChunJun 並提交到 Yarn Session 集群中

sh $FLINK_HOME/bin?yarn-session.sh -t $CHUNJUN_DIST -d

· 執⾏命令成功之後,即可在Yarn Session ⽇志,對應Classpath 部分中看到 ChunJun 相關的jar, 表示啟動成功;

· 記錄當前 Yarn Session 的,並將任務提交到指定 Session中;

sh ./bin/chunjun-yarn-session.sh -job <task-script path> -confProp {\"yarn.application.id\":\"<ApplicationID>\"} 

之後就可以在 Yarn Session 中看到對應的任務,註意以下兩點:

• 如果將 yarn.application.id 配置到 flink-conf.yaml,那麼使⽤這份配置⽂件的任務都會提交到這個 id 的 session 中;

• 如果將 yarn.application.id 配置到 confProp,那麼僅有當前任務會提交到這個 id 的 session 中。

Yarn Perjob 模式

後續會廢棄這種模式,改⽤ Application 模式。

● 環境準備

下載 Flink 並解壓

wget "http://archive.apache.org/dist/flink/flink-<flink.version>/flink-<flink.version>-bin-scala_<scala.version>.tgz"      
tar -zxvf flink-<flink.version>-bin-scala_<scala.version>.tgz

● 配置 ChunJun

下載 ChunJun 並解壓

wget "https://github.com/DTStack/chunjun/releases/download/<chunjun-tag>/chunjun-dist.tar.gz"  
tar -zxvf chunjun-dist.tar.gz

● 提交任務

sh ./bin/chunjun-yarn-perjob.sh -job <task-script path>

執⾏成功之後,可以在 Yarn Web UI 中看到相關任務。

調試 ChunJun 代碼

調試代碼能夠更好地定位問題,並解決問題。下⾯將為開發者介紹如何快速調試 ChunJun 代碼:

本地調試

ChunJun 為開發者準備了⼀個 local-test 模塊,替換 main ⽅法中的 jobPath 即可。需要提前將相關插件配置在 local-test 模塊的 pom 中,部分插件相互存在依賴衝突,需要開發者關註下。

遠程調試

在 flink-conf.yaml 中配置 debug 端⼝即可(端⼝號可以⾃⼰定義)。

# debug jobmanager
env.java.opts.jobmanager: -agentlib:jdwp=transport=dt_socket,server=y,suspend=y,address=5005
# debug taskmanager
env.java.opts.taskmanager: -agentlib:jdwp=transport=dt_socket,server=y,suspend=y,address=5006

《數據治理行業實踐白皮書》下載地址:https://fs80.cn/380a4b

想瞭解或咨詢更多有關袋鼠雲大數據產品、行業解決方案、客戶案例的朋友,瀏覽袋鼠雲官網:https://www.dtstack.com/?src=szbky

同時,歡迎對大數據開源項目有興趣的同學加入「袋鼠雲開源框架釘釘技術qun」,交流最新開源技術信息,qun號碼:30537511,項目地址:https://github.com/DTStack


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 本系列旨在交流 ESP32-S3 硬體開發環境的搭建,通過一些基本的示例來展示怎麼用 ESP-IDF (Espressif IoT Development Framework) 來安裝、配置環境,並編譯、下載固件至 BPI-Leaf-S3 開發板等步驟。如果有什麼沒提到或者有問題的,歡迎各位留言交流... ...
  • 存儲過程 特定功能的的SQL指令 進行封裝 編譯之後存儲在資料庫伺服器中客戶端通過名字調用這個SQL指令集 優點: 防止SQL 在網路中惡意修改 無需客戶端編寫 通過網路傳送 存儲過程 SQL存在邏輯關係 支持流程式控制制 分支 迴圈 ##基本語法 創建存儲過程 輸入參數 a 輸入參數b 都是 int ...
  • windows安裝redis及配置教程,附網盤資源 鏈接:https://pan.baidu.com/s/1KvcyY27_q7aI2hQ7QRsEGA?pwd=iidx 一、windows系統安裝及配置 解壓文件,準備開始配置、安裝服務。 1.1、註冊redis的windows服務 在該文件夾中打 ...
  • windows安裝mysql8免安裝版教程,附網盤資源 鏈接:https://pan.baidu.com/s/1_qagfA-i7CbeWG3urIAlgw?pwd=iidx 提取碼:iidx 一、前言 本次使用的mysql版本為mysql8.0.32,安裝的系統為windows系統。使用免安裝的方 ...
  • 本文分享自華為雲社區《選擇KV資料庫最重要的是什麼?》,作者:GaussDB 資料庫 。 經常有客戶提到KV資料庫,但卻偏偏“不要Redis”。比如有個做安全威脅分析平臺的客戶,他們明確表示自己對可靠性要求非常高,需要的不是開源Redis這種記憶體緩存庫,而是KV資料庫。 雖然最後我也沒問清楚他們業務 ...
  • 一、工具介紹 YCSB 於 2010 年開源,YCSB是雅虎開源的NoSQL測試工具,通常用來對noSQL資料庫進行性能,註意此工具僅支持varchar和text類型,且列的長度可以增加,預設是10列,可以根據自己的需要增加列長。運行一個壓力測試需要 6 步: 配置需要測試的資料庫 選擇合適的資料庫 ...
  • 在MySQL中,如果訪問/連接MySQL資料庫時遇到“ERROR 2003 (HY000): Can't connect to MySQL server on 'xxx.xxx.xxx.xxx:xxx' (111)”這個錯誤,我們應該從哪些方面進行考慮和排查問題呢? 下圖是我總結整理的一個思維導圖, ...
  • 生產者創建消息。在其他基於發佈與訂閱的消息系統中,生產者可能被稱為發佈者 或 寫入者。 一般情況下,一個消息會被髮布到一個特定的主題上。生產者在預設情況下把消息均衡地分佈到主題的所有分區上,而並不關心特定消息會被寫到哪個分區。不過,在某些情況下,生產者會把消息直接寫到指定的分區。這通常是通過消息鍵和 ...
一周排行
    -Advertisement-
    Play Games
  • 1、預覽地址:http://139.155.137.144:9012 2、qq群:801913255 一、前言 隨著網路的發展,企業對於信息系統數據的保密工作愈發重視,不同身份、角色對於數據的訪問許可權都應該大相徑庭。 列如 1、不同登錄人員對一個數據列表的可見度是不一樣的,如數據列、數據行、數據按鈕 ...
  • 前言 上一篇文章寫瞭如何使用RabbitMQ做個簡單的發送郵件項目,然後評論也是比較多,也是準備去學習一下如何確保RabbitMQ的消息可靠性,但是由於時間原因,先來說說設計模式中的簡單工廠模式吧! 在瞭解簡單工廠模式之前,我們要知道C#是一款面向對象的高級程式語言。它有3大特性,封裝、繼承、多態。 ...
  • Nodify學習 一:介紹與使用 - 可樂_加冰 - 博客園 (cnblogs.com) Nodify學習 二:添加節點 - 可樂_加冰 - 博客園 (cnblogs.com) 介紹 Nodify是一個WPF基於節點的編輯器控制項,其中包含一系列節點、連接和連接器組件,旨在簡化構建基於節點的工具的過程 ...
  • 創建一個webapi項目做測試使用。 創建新控制器,搭建一個基礎框架,包括獲取當天日期、wiki的請求地址等 創建一個Http請求幫助類以及方法,用於獲取指定URL的信息 使用http請求訪問指定url,先運行一下,看看返回的內容。內容如圖右邊所示,實際上是一個Json數據。我們主要解析 大事記 部 ...
  • 最近在不少自媒體上看到有關.NET與C#的資訊與評價,感覺大家對.NET與C#還是不太瞭解,尤其是對2016年6月發佈的跨平臺.NET Core 1.0,更是知之甚少。在考慮一番之後,還是決定寫點東西總結一下,也回顧一下.NET的發展歷史。 首先,你沒看錯,.NET是跨平臺的,可以在Windows、 ...
  • Nodify學習 一:介紹與使用 - 可樂_加冰 - 博客園 (cnblogs.com) Nodify學習 二:添加節點 - 可樂_加冰 - 博客園 (cnblogs.com) 添加節點(nodes) 通過上一篇我們已經創建好了編輯器實例現在我們為編輯器添加一個節點 添加model和viewmode ...
  • 前言 資料庫併發,數據審計和軟刪除一直是數據持久化方面的經典問題。早些時候,這些工作需要手寫複雜的SQL或者通過存儲過程和觸發器實現。手寫複雜SQL對軟體可維護性構成了相當大的挑戰,隨著SQL字數的變多,用到的嵌套和複雜語法增加,可讀性和可維護性的難度是幾何級暴漲。因此如何在實現功能的同時控制這些S ...
  • 類型檢查和轉換:當你需要檢查對象是否為特定類型,並且希望在同一時間內將其轉換為那個類型時,模式匹配提供了一種更簡潔的方式來完成這一任務,避免了使用傳統的as和is操作符後還需要進行額外的null檢查。 複雜條件邏輯:在處理複雜的條件邏輯時,特別是涉及到多個條件和類型的情況下,使用模式匹配可以使代碼更 ...
  • 在日常開發中,我們經常需要和文件打交道,特別是桌面開發,有時候就會需要載入大批量的文件,而且可能還會存在部分文件缺失的情況,那麼如何才能快速的判斷文件是否存在呢?如果處理不當的,且文件數量比較多的時候,可能會造成卡頓等情況,進而影響程式的使用體驗。今天就以一個簡單的小例子,簡述兩種不同的判斷文件是否... ...
  • 前言 資料庫併發,數據審計和軟刪除一直是數據持久化方面的經典問題。早些時候,這些工作需要手寫複雜的SQL或者通過存儲過程和觸發器實現。手寫複雜SQL對軟體可維護性構成了相當大的挑戰,隨著SQL字數的變多,用到的嵌套和複雜語法增加,可讀性和可維護性的難度是幾何級暴漲。因此如何在實現功能的同時控制這些S ...