阿裡 Canal 實時同步 MySQL 增量數據至 ClickHouse 資料庫

来源:https://www.cnblogs.com/bigai/p/18202687
-Advertisement-
Play Games

在業務實現的過程中,時常會出現且或關係邏輯的拼接。邏輯運算的組合使用,是實現複雜業務規則和決策支持系統的關鍵技術。 目前袋鼠雲的指標管理平臺、客戶數據洞察平臺、數據資產平臺都有在使用。並且,且或組件已經在 RC 5.0 中添加到組件庫,企業現在可以更加靈活地構建和實施複雜的業務規則。 本文將從前期分 ...


主要實現思路

  • 1、在clickhouse中創建MySQL引擎表。
  • 2、根據MySQL引擎表的信息創建目標表。
  • 3、實現canal實時增量同步MySQL數據到clickhouse。

MySQL 的準備

修改配置文件開啟 Binlog

[root@hadoop100 module]$ sudo vim /etc/my.cnf
server-id=1
log-bin=mysql-bin
binlog_format=row
binlog-do-db=test
  • 註意:binlog-do-db 根據自己的情況進行修改,指定具體要同步的資料庫,如果不配置則表示所有資料庫均開啟 Binlog。

MySQL中需要同步的庫表

MySQL [testck]> show databases;
+--------------------+
| Database           |
+--------------------+
| information_schema |
| innodb             |
| mysql              |
| performance_schema |
| sys                |
| testck             |
| tmp                |
+--------------------+
11 rows in set (0.00 sec)
MySQL [testck]> use testck;
Reading table information for completion of table and column names
You can turn off this feature to get a quicker startup with -A
Database changed
MySQL [testck]> show tables;
+------------------+
| Tables_in_testck |
+------------------+
| t_organization   |
| t_user           |
+------------------+
2 rows in set (0.00 sec)
MySQL [testck]> 
  • testck庫下的所有表

clickhouse 的準備

  • canal實時同步MySQL的數據需要在clickhouse中提前建好庫表

在clickhouse建MySQL引擎的庫

  • 把MySQL某個庫中的所有表結構信息映射到clickhouse中,這樣在clickhouse中就可以遠程操作MySQL。
cnnxpredn02 :) CREATE DATABASE t_tmp ENGINE = MySQL('ip:3306', 'testck', 'user', 'pass');
CREATE DATABASE t_tmp
ENGINE = MySQL('ip:3306', 'testck', 'user', 'pass')
Query id: 9f6d7179-3c97-47c2-93ea-abc0c6ca873b
Ok.
0 rows in set. Elapsed: 0.013 sec. 
cnnxpredn02 :) show databases;
SHOW DATABASES
Query id: 5b5baaf5-86f5-46c1-ac34-2618c34462f1
┌─name────┐
│ default │
│ system  │
│ t_tmp   │
└─────────┘
3 rows in set. Elapsed: 0.009 sec. 
cnnxpredn02 :)

創建clickhouse中的庫

cnnxpredn02 :) create database testck;
CREATE DATABASE testck
Query id: 397261c0-a8f0-48c6-b4f6-71d121b975b8
Ok.
0 rows in set. Elapsed: 0.004 sec. 
cnnxvopredn02 :) show databases;
SHOW DATABASES
Query id: f467f4bb-99fa-4322-a3c1-e33be74b6e81
┌─name────┐
│ default │
│ system  │
│ t_tmp   │
│ testck  │
└─────────┘
4 rows in set. Elapsed: 0.002 sec. 
cnnxvpredn02 :)

根據創建的MySQL引擎表創建clickhouse目標表結構

cnnxvpredn02 :) create table testck.t_organization as t_tmp.t_organization;
:-] create table testck.t_user as t_tmp.t_user;
CREATE TABLE testck.t_organization AS t_tmp.t_organization
Query id: f942cf5d-701f-4dbd-9ffd-de2206eec851
Ok.
0 rows in set. Elapsed: 0.006 sec. 
CREATE TABLE testck.t_user AS t_tmp.t_user
Query id: ef7dddd7-64b2-4dbc-88be-a105b49aff57
Ok.
0 rows in set. Elapsed: 0.004 sec. 
cnnxvopredn02 :)

Canal 的下載和安

下載並解壓 Jar 包

 mkdir /opt/module/canal
 tar -zxvf canal.deployer-1.1.2.tar.gz -C /opt/module/canal

修改 canal.properties 的配置

#################################################
#########               common argument         #############
#################################################
# tcp bind ip
canal.ip =
# register ip to zookeeper
canal.register.ip =
canal.port = 11111
canal.metrics.pull.port = 11112
# canal instance user/passwd
# canal.user = canal
# canal.passwd = E3619321C1A937C46A0D8BD1DAC39F93B27D4458
# canal admin config
#canal.admin.manager = 127.0.0.1:8089
canal.admin.port = 11110
canal.admin.user = admin
canal.admin.passwd = 4ACFE3202A5FF5CF467898FC58AAB1D615029441
# admin auto register
#canal.admin.register.auto = true
#canal.admin.register.cluster =
#canal.admin.register.name =
canal.zkServers =
# flush data to zk
canal.zookeeper.flush.period = 1000
canal.withoutNetty = false
# tcp, kafka, rocketMQ, rabbitMQ
canal.serverMode = tcp
# flush meta cursor/parse position to file
canal.file.data.dir = ${canal.conf.dir}
canal.file.flush.period = 1000
## memory store RingBuffer size, should be Math.pow(2,n)
......
  • 說明:這個文件是canal的基本通用配置,canal埠號預設就是 11111,修改canal的輸出model,預設tcp,改為輸出到 kafka多實例配置如果創建多個實例,通過前面canal架構,我們可以知道,一個canal服務中可以有多個instance,conf/下的每一個example即是一個實例,每個實例下麵都有獨立的配置文件。預設只有一個實例example,如果需要多個實例處理不同的 MySQL 數據的話,直接拷貝出多個 example,並對其重新命名,命名和配置文件中指定的名稱一致,然後修改
    canal.properties 中的 canal.destinations=實例 1,實例 2,實例 3。
#################################################
######### destinations #############
#################################################
canal.destinations = example

修改 instance.properties

配置 MySQL 伺服器地址

#################################################
## mysql serverId , v1.0.26+ will autoGen 
canal.instance.mysql.slaveId=20
# enable gtid use true/false
canal.instance.gtidon=false
# position info
canal.instance.master.address=hadoop100:3306

配置連接 MySQL 的用戶名和密碼,預設就是我們前面授權的 canal

# username/password
canal.instance.dbUsername=canal
canal.instance.dbPassword=canal
canal.instance.connectionCharset = UTF-8
canal.instance.defaultDatabaseName =test
# enable druid Decrypt database password
canal.instance.enableDruid=false

啟動服務

bin/startup.sh
  • 如果看到如下日誌則啟動成功
[root@cnnxpredn02 canal]# cat canal.log
2022-03-07 08:47:21.349 [main] INFO  com.alibaba.otter.canal.deployer.CanalLauncher - ## set default uncaught exception handler
2022-03-07 08:47:21.398 [main] INFO  com.alibaba.otter.canal.deployer.CanalLauncher - ## load canal configurations
2022-03-07 08:47:21.415 [main] INFO  com.alibaba.otter.canal.deployer.CanalStarter - ## start the canal server.
2022-03-07 08:47:21.475 [main] INFO  com.alibaba.otter.canal.deployer.CanalController - ## start the canal server):11111]
2022-03-07 08:47:23.137 [main] INFO  com.alibaba.otter.canal.deployer.CanalStarter - ## the canal server is running now ......

canal-adapter 的下載和安裝

下載並解

  • 下載canal-adapter: https://github.com/alibaba/canal/releases
  • 註意:canal-adapter解壓後是分散的,我們在指定解壓目錄的時候需要將 canal-adapter 指定上
    mkdir canal-adapter
    tar -zxvf canal.adapter-1.1.5.tar.gz -C /../canal-adapter

在application.yml中配置MySQL和clickhouse的連接信息

...
#  srcDataSources:
    defaultDS:
      url: jdbc:mysql://ip:3306/database?useUnicode=true
      username: user
      password: pass
  canalAdapters:
  - instance: test # canal instance Name or mq topic name
    groups:
    - groupId: g1
      outerAdapters:
      - name: logger
      - name: rdb
        key: mysql1
        properties:
          jdbc.driverClassName: ru.yandex.clickhouse.ClickHouseDriver
          jdbc.url: jdbc:clickhouse://ip:port/database
          jdbc.username: user
          jdbc.password: pass
#      - name: rdb
...

在/opt/soft/canal-adapter/conf/rdb/mytest_user.yml中配置需要同步的庫表信息

  • canal可以同步整個庫的所有表和單表的表,配置都在這裡進行配置,如果需要同步多張表的數據,就在rdb下創建多個類似的配置文件,文件名可以用表名來命名。
		Mirror schema synchronize config
    dataSourceKey: defaultDS
    destination: test
    groupId: g1
    outerAdapterKey: mysql1
    concurrent: true
    dbMapping:
    mirrorDb: true
    database: testck
  • 註:我這裡是同步testck庫的所有表

啟動canal-adapter服務

bin/startup.sh
  • 在/.../canal-adapter/logs/adapter下查看日誌

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Part B Copy-on-Write Fork Unix 提供 fork() 系統調用作為主要的進程創建基元。fork()系統調用複製調用進程(父進程)的地址空間,創建一個新進程(子進程)。 不過,在調用 fork() 之後,子進程往往會立即調用 exec(),用新程式替換子進程的記憶體。例如,s ...
  • 在CentOS7中配置NFS服務並設置客戶端自動掛載的步驟如下: NFS服務端配置 安裝NFS服務: 首先,你需要在CentOS 7伺服器上安裝NFS服務。你可以使用yum命令來安裝: yum install nfs-utils 創建共用目錄: 創建一個你希望共用的目錄,例如: mkdir -p / ...
  • !!!是的沒錯,胖友們,保姆教程系列又更新了!!! @目錄前言1.將本地項目推送到遠程倉庫2. Idea Git回退到某個歷史版本3. 修改項目關聯遠程地址方法4. Git 修改分支的名稱5. Git 刪除分支6. master分支代碼複製到新的分支7. Git遷移項目到其他代碼倉庫,且保留分支與提 ...
  • 這個測試板在前面介紹過, 使用的是 HC32L110C4 晶元. 測試功能很簡單, 定時發送字元串`ashining`, 沒有參數修改選項. 因此僅僅適用於兩塊測試底板之間的測試, 無法配合其它 NRF24L01 硬體設備進行收發測試. 一直想重寫這個底板的功能, 增加更多的測試項, 但是太懶了一直... ...
  • 目錄電腦系統的層次結構操作系統的定義操作系統的功能和目標作為系統資源的管理者向上層提供方便易用的服務作為最接近硬體的層次操作系統的四個特征併發共用虛擬非同步操作系統的發展與分類操作系統的運行機制中斷和異常中斷的作用中斷類型中斷機制的基本原理系統調用系統調用的分類系統調用過程操作系統的內核巨集內核和微內 ...
  • 一.問題:列舉Linux高級命令,至少6個(百度) netstat //網路狀態監控 top //系統運行狀態 lsblk //查看硬碟分區 find ps -aux //查看運行進程 chkconfig //查看服務啟動狀態 systemctl //管理系統伺服器 二.問題:Linux查看記憶體、i ...
  • docker-compose logs -f ##查看該容器的啟動的日誌列印(日誌從頭列印 docker logs -f container_id ##查看某一容器的啟動的日誌列印(日誌從頭列印) docker logs -f --tail(-t) 數量詞 container_id ##查看某一容器 ...
  • 基本概念 後臺啟動AsterixDB cd ~/asterixdb/asterixdb/asterix-server/target/asterix-server-0.9.10-SNAPSHOT-binary-assembly/apache-asterixdb-0.9.10-SNAPSHOT/opt/ ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...