阿裡 Canal 實時同步 MySQL 增量數據至 ClickHouse 資料庫

来源:https://www.cnblogs.com/bigai/p/18202687
-Advertisement-
Play Games

在業務實現的過程中,時常會出現且或關係邏輯的拼接。邏輯運算的組合使用,是實現複雜業務規則和決策支持系統的關鍵技術。 目前袋鼠雲的指標管理平臺、客戶數據洞察平臺、數據資產平臺都有在使用。並且,且或組件已經在 RC 5.0 中添加到組件庫,企業現在可以更加靈活地構建和實施複雜的業務規則。 本文將從前期分 ...


主要實現思路

  • 1、在clickhouse中創建MySQL引擎表。
  • 2、根據MySQL引擎表的信息創建目標表。
  • 3、實現canal實時增量同步MySQL數據到clickhouse。

MySQL 的準備

修改配置文件開啟 Binlog

[root@hadoop100 module]$ sudo vim /etc/my.cnf
server-id=1
log-bin=mysql-bin
binlog_format=row
binlog-do-db=test
  • 註意:binlog-do-db 根據自己的情況進行修改,指定具體要同步的資料庫,如果不配置則表示所有資料庫均開啟 Binlog。

MySQL中需要同步的庫表

MySQL [testck]> show databases;
+--------------------+
| Database           |
+--------------------+
| information_schema |
| innodb             |
| mysql              |
| performance_schema |
| sys                |
| testck             |
| tmp                |
+--------------------+
11 rows in set (0.00 sec)
MySQL [testck]> use testck;
Reading table information for completion of table and column names
You can turn off this feature to get a quicker startup with -A
Database changed
MySQL [testck]> show tables;
+------------------+
| Tables_in_testck |
+------------------+
| t_organization   |
| t_user           |
+------------------+
2 rows in set (0.00 sec)
MySQL [testck]> 
  • testck庫下的所有表

clickhouse 的準備

  • canal實時同步MySQL的數據需要在clickhouse中提前建好庫表

在clickhouse建MySQL引擎的庫

  • 把MySQL某個庫中的所有表結構信息映射到clickhouse中,這樣在clickhouse中就可以遠程操作MySQL。
cnnxpredn02 :) CREATE DATABASE t_tmp ENGINE = MySQL('ip:3306', 'testck', 'user', 'pass');
CREATE DATABASE t_tmp
ENGINE = MySQL('ip:3306', 'testck', 'user', 'pass')
Query id: 9f6d7179-3c97-47c2-93ea-abc0c6ca873b
Ok.
0 rows in set. Elapsed: 0.013 sec. 
cnnxpredn02 :) show databases;
SHOW DATABASES
Query id: 5b5baaf5-86f5-46c1-ac34-2618c34462f1
┌─name────┐
│ default │
│ system  │
│ t_tmp   │
└─────────┘
3 rows in set. Elapsed: 0.009 sec. 
cnnxpredn02 :)

創建clickhouse中的庫

cnnxpredn02 :) create database testck;
CREATE DATABASE testck
Query id: 397261c0-a8f0-48c6-b4f6-71d121b975b8
Ok.
0 rows in set. Elapsed: 0.004 sec. 
cnnxvopredn02 :) show databases;
SHOW DATABASES
Query id: f467f4bb-99fa-4322-a3c1-e33be74b6e81
┌─name────┐
│ default │
│ system  │
│ t_tmp   │
│ testck  │
└─────────┘
4 rows in set. Elapsed: 0.002 sec. 
cnnxvpredn02 :)

根據創建的MySQL引擎表創建clickhouse目標表結構

cnnxvpredn02 :) create table testck.t_organization as t_tmp.t_organization;
:-] create table testck.t_user as t_tmp.t_user;
CREATE TABLE testck.t_organization AS t_tmp.t_organization
Query id: f942cf5d-701f-4dbd-9ffd-de2206eec851
Ok.
0 rows in set. Elapsed: 0.006 sec. 
CREATE TABLE testck.t_user AS t_tmp.t_user
Query id: ef7dddd7-64b2-4dbc-88be-a105b49aff57
Ok.
0 rows in set. Elapsed: 0.004 sec. 
cnnxvopredn02 :)

Canal 的下載和安

下載並解壓 Jar 包

 mkdir /opt/module/canal
 tar -zxvf canal.deployer-1.1.2.tar.gz -C /opt/module/canal

修改 canal.properties 的配置

#################################################
#########               common argument         #############
#################################################
# tcp bind ip
canal.ip =
# register ip to zookeeper
canal.register.ip =
canal.port = 11111
canal.metrics.pull.port = 11112
# canal instance user/passwd
# canal.user = canal
# canal.passwd = E3619321C1A937C46A0D8BD1DAC39F93B27D4458
# canal admin config
#canal.admin.manager = 127.0.0.1:8089
canal.admin.port = 11110
canal.admin.user = admin
canal.admin.passwd = 4ACFE3202A5FF5CF467898FC58AAB1D615029441
# admin auto register
#canal.admin.register.auto = true
#canal.admin.register.cluster =
#canal.admin.register.name =
canal.zkServers =
# flush data to zk
canal.zookeeper.flush.period = 1000
canal.withoutNetty = false
# tcp, kafka, rocketMQ, rabbitMQ
canal.serverMode = tcp
# flush meta cursor/parse position to file
canal.file.data.dir = ${canal.conf.dir}
canal.file.flush.period = 1000
## memory store RingBuffer size, should be Math.pow(2,n)
......
  • 說明:這個文件是canal的基本通用配置,canal埠號預設就是 11111,修改canal的輸出model,預設tcp,改為輸出到 kafka多實例配置如果創建多個實例,通過前面canal架構,我們可以知道,一個canal服務中可以有多個instance,conf/下的每一個example即是一個實例,每個實例下麵都有獨立的配置文件。預設只有一個實例example,如果需要多個實例處理不同的 MySQL 數據的話,直接拷貝出多個 example,並對其重新命名,命名和配置文件中指定的名稱一致,然後修改
    canal.properties 中的 canal.destinations=實例 1,實例 2,實例 3。
#################################################
######### destinations #############
#################################################
canal.destinations = example

修改 instance.properties

配置 MySQL 伺服器地址

#################################################
## mysql serverId , v1.0.26+ will autoGen 
canal.instance.mysql.slaveId=20
# enable gtid use true/false
canal.instance.gtidon=false
# position info
canal.instance.master.address=hadoop100:3306

配置連接 MySQL 的用戶名和密碼,預設就是我們前面授權的 canal

# username/password
canal.instance.dbUsername=canal
canal.instance.dbPassword=canal
canal.instance.connectionCharset = UTF-8
canal.instance.defaultDatabaseName =test
# enable druid Decrypt database password
canal.instance.enableDruid=false

啟動服務

bin/startup.sh
  • 如果看到如下日誌則啟動成功
[root@cnnxpredn02 canal]# cat canal.log
2022-03-07 08:47:21.349 [main] INFO  com.alibaba.otter.canal.deployer.CanalLauncher - ## set default uncaught exception handler
2022-03-07 08:47:21.398 [main] INFO  com.alibaba.otter.canal.deployer.CanalLauncher - ## load canal configurations
2022-03-07 08:47:21.415 [main] INFO  com.alibaba.otter.canal.deployer.CanalStarter - ## start the canal server.
2022-03-07 08:47:21.475 [main] INFO  com.alibaba.otter.canal.deployer.CanalController - ## start the canal server):11111]
2022-03-07 08:47:23.137 [main] INFO  com.alibaba.otter.canal.deployer.CanalStarter - ## the canal server is running now ......

canal-adapter 的下載和安裝

下載並解

  • 下載canal-adapter: https://github.com/alibaba/canal/releases
  • 註意:canal-adapter解壓後是分散的,我們在指定解壓目錄的時候需要將 canal-adapter 指定上
    mkdir canal-adapter
    tar -zxvf canal.adapter-1.1.5.tar.gz -C /../canal-adapter

在application.yml中配置MySQL和clickhouse的連接信息

...
#  srcDataSources:
    defaultDS:
      url: jdbc:mysql://ip:3306/database?useUnicode=true
      username: user
      password: pass
  canalAdapters:
  - instance: test # canal instance Name or mq topic name
    groups:
    - groupId: g1
      outerAdapters:
      - name: logger
      - name: rdb
        key: mysql1
        properties:
          jdbc.driverClassName: ru.yandex.clickhouse.ClickHouseDriver
          jdbc.url: jdbc:clickhouse://ip:port/database
          jdbc.username: user
          jdbc.password: pass
#      - name: rdb
...

在/opt/soft/canal-adapter/conf/rdb/mytest_user.yml中配置需要同步的庫表信息

  • canal可以同步整個庫的所有表和單表的表,配置都在這裡進行配置,如果需要同步多張表的數據,就在rdb下創建多個類似的配置文件,文件名可以用表名來命名。
		Mirror schema synchronize config
    dataSourceKey: defaultDS
    destination: test
    groupId: g1
    outerAdapterKey: mysql1
    concurrent: true
    dbMapping:
    mirrorDb: true
    database: testck
  • 註:我這裡是同步testck庫的所有表

啟動canal-adapter服務

bin/startup.sh
  • 在/.../canal-adapter/logs/adapter下查看日誌

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Part B Copy-on-Write Fork Unix 提供 fork() 系統調用作為主要的進程創建基元。fork()系統調用複製調用進程(父進程)的地址空間,創建一個新進程(子進程)。 不過,在調用 fork() 之後,子進程往往會立即調用 exec(),用新程式替換子進程的記憶體。例如,s ...
  • 在CentOS7中配置NFS服務並設置客戶端自動掛載的步驟如下: NFS服務端配置 安裝NFS服務: 首先,你需要在CentOS 7伺服器上安裝NFS服務。你可以使用yum命令來安裝: yum install nfs-utils 創建共用目錄: 創建一個你希望共用的目錄,例如: mkdir -p / ...
  • !!!是的沒錯,胖友們,保姆教程系列又更新了!!! @目錄前言1.將本地項目推送到遠程倉庫2. Idea Git回退到某個歷史版本3. 修改項目關聯遠程地址方法4. Git 修改分支的名稱5. Git 刪除分支6. master分支代碼複製到新的分支7. Git遷移項目到其他代碼倉庫,且保留分支與提 ...
  • 這個測試板在前面介紹過, 使用的是 HC32L110C4 晶元. 測試功能很簡單, 定時發送字元串`ashining`, 沒有參數修改選項. 因此僅僅適用於兩塊測試底板之間的測試, 無法配合其它 NRF24L01 硬體設備進行收發測試. 一直想重寫這個底板的功能, 增加更多的測試項, 但是太懶了一直... ...
  • 目錄電腦系統的層次結構操作系統的定義操作系統的功能和目標作為系統資源的管理者向上層提供方便易用的服務作為最接近硬體的層次操作系統的四個特征併發共用虛擬非同步操作系統的發展與分類操作系統的運行機制中斷和異常中斷的作用中斷類型中斷機制的基本原理系統調用系統調用的分類系統調用過程操作系統的內核巨集內核和微內 ...
  • 一.問題:列舉Linux高級命令,至少6個(百度) netstat //網路狀態監控 top //系統運行狀態 lsblk //查看硬碟分區 find ps -aux //查看運行進程 chkconfig //查看服務啟動狀態 systemctl //管理系統伺服器 二.問題:Linux查看記憶體、i ...
  • docker-compose logs -f ##查看該容器的啟動的日誌列印(日誌從頭列印 docker logs -f container_id ##查看某一容器的啟動的日誌列印(日誌從頭列印) docker logs -f --tail(-t) 數量詞 container_id ##查看某一容器 ...
  • 基本概念 後臺啟動AsterixDB cd ~/asterixdb/asterixdb/asterix-server/target/asterix-server-0.9.10-SNAPSHOT-binary-assembly/apache-asterixdb-0.9.10-SNAPSHOT/opt/ ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...