ChunJun&OceanBase聯合方案首次發佈:構建一體化數據集成方案

来源:https://www.cnblogs.com/DTinsight/archive/2022/09/16/16699320.html
-Advertisement-
Play Games

8月27日,ChunJun社區與OceanBase社區聯合組織的開源線下Meetup成功舉辦,會上重磅發佈了「OceanBase&ChunJun:構建一體化數據集成方案」。 這是OceanBase&ChunJun聯合解決方案的首次發佈,將針對分庫分表的實時數據集成、跨集群/租戶的數據集成、不同數據源 ...


8月27日,ChunJun社區與OceanBase社區聯合組織的開源線下Meetup成功舉辦,會上重磅發佈了「OceanBase&ChunJun:構建一體化數據集成方案」。

這是OceanBase&ChunJun聯合解決方案的首次發佈,將針對分庫分表的實時數據集成、跨集群/租戶的數據集成、不同數據源的實時數據集成、日誌類型數據的全增量一體化處理等諸多場景,提供高可靠數據集成解決方案。

下麵為大家帶來具體介紹,歡迎分享給更多的開發者和愛好者共同學習、探討。

課件獲取:

關註公眾號“ChunJun”,後臺私信“Meetup”獲得分享課件

視頻回看:

https://www.bilibili.com/video/BV1mG41137ZV?spm_id_from=333.999.0.0

ChunJun&OceanBase是什麼

ChunJun:一款穩定、高效、易用的數據集成框架

ChunJun 是一款高效、穩定、易用的數據集成框架,目前基於Apache Flink 實時計算引擎實現批流一體的數據讀取和寫入。

file

ChunJun的核心能力

• 多數據源:目前已支持30+數據源,涵蓋了各類資料庫、文件系統等

•靈活的任務運行模式:支持開箱即用的local模式運行,也支持flink standalone、yarn、k8s等模式;支持Taier、DolphinScheduler、Dlinky等大數據調度平臺

• 數據還原:支持 DML 和 DDL 同步,可以最大程度保證源端和目標端的數據和結構統一

• 斷點續傳:依托Flink的Checkpoint機制,可以從失敗的位點重試

• 速率控制:支持多種分片方式,用戶可根據自身業務調整分片邏輯;支持調整讀取和寫入的併發度,控制每秒讀取的數據量

• 臟數據管理:支持多種方式存儲臟數據,控制臟數據生命周期,並提供統計數據

OceanBase:企業級開源分散式 HTAP資料庫

企業級開源分散式 HTAP(Hybrid Transaction/Analytical Processing)資料庫,具有原生分散式架構,支持金融級高可用、透明水平擴展、分散式事務、多租戶和語法相容等企業級特性。

OceanBase的核心能力

• 高可用:基於 Paxos 協議,強一致性;少數副本故障,數據不丟,服務不停;RPO=0; RTO<30s

•高擴展:線上進行水平擴、縮容;自動實現負載均衡

• 低成本:不依賴高端硬體,降低成本;極致的壓縮比,節省成本

• HTAP:一套計算引擎同時支持混合負載;一套資料庫,讀寫分離

• 高相容:相容 MySQL 協議與語法;降低業務改造遷移成本

• 多租戶:一套環境獨立運行多套業務;保證租戶數據安全

ChunJun OceanBase Connector 實現

OceanBase CDC

OceanBase作為分散式資料庫,日誌信息分佈在集群當中不同的機器上,需要有一個工具把這些日誌信息進行彙總,拿到正確、完整的日誌信息。

OceanBase社區版利用CDC 組件架構進行這項工作,它主要是通過oblogproxy來提供日誌拉取的服務,如果想集成OceanBase增量數據的處理,可以在自己的業務應用中去集成oblogclient來進行處理,目前已對接了ChunJun、Flink CDC、Cloud Canal等數據集成框架。

file
OceanBase 社區版 CDC 組件架構

ChunJun Connectors 的工作模式

ChunJun中的讀取和寫入主要是通過Connector中的一些結構和模塊來實現的,包含RDB、CDC 、NoSQL、MQ、File 等。

• RDB Connectors:基於 JDBC Connector,通過輪詢支持了源表包含自增列且增量數據只有 insert 操作時的全增量一體化讀取及寫入。

• CDC Connectors:基於資料庫的Binlog 或 Redolog,實現增量數據的讀取。

file

ChunJun上的這些數據最終會在Flink進行處理,在Flink當中通過定義動態表的結構,可以將流數據在執行SQL前先轉換為可以操作的表,然後通過連續查詢來獲取一個不斷更新的執行結果。

下圖就是數據從數據流轉成動態表,在流數據上定義一張標,通過執行連續查詢來獲取不斷更新的結果。

file

ChunJun OceanBase Connector 的實現

在ChunJun中主要是通過Chunjun Core模塊來滿足將數據讀取到Flink及從Flink中寫出去,其中DynamicTableSourceFactory及DynamicTableSinkFactory支持SQL類型的任務,SourceFactory及SinkFactory用來支持Json類型的任務。

如下圖所示,ChunJun OceanBase Connector 的實現主要通過兩種方式:一種是從Chunjun Core到JDBC Connector再到OceanBase Connector;另外一種是從Chunjun Core直接到OceanBase CDC Connector。

file

ChunJun & OceanBase 應用

場景1:針對分庫分表的實時數據集成

使用 Oceanbase CDC Connector,庫表名利用Fnmatch通配,實現分庫分表數據源的實時數據集成。這個場景可以做增量同步,也可以做單數據流的ETL操作。

file

場景2:跨集群/租戶的數據集成

目前,不同租戶的數據在一個連接當中獲取不到,如果想對OB當中不同租戶的數據做一個統一處理,需通過多個資料庫的連接來實現分別讀取,這時可以利用ChunJun中與OceanBase相關的connector,讀取不同集群、租戶數據到 Flink。

file

場景3:不同數據源的實時數據集成

可以對不同種類數據源進行數據匯聚,使用不同類型資料庫的 connector,讀取不同數據源的數據到 Flink。

file

場景4:日誌類型數據的全增量一體化處理

對於只有 insert 增量變動的數據源,基於自增列進行全增量一體化的處理。

file

ChunJun&OceanBase未來展望

● 提高代碼質量

· 增加測試 case,覆蓋所有的啟動方式和常見的業務場景

· 完全適配 MySQL 5.1.4x 和 8.0 驅動

● 20+種豐富的任務類型

· 增加非 transformer 模式 sync 任務的支持

· 增加 OceanBase 企業版 Oracle 模式的支持

● 提高方案可靠性

· 增加數據讀取的事務性支持

· 簡化 oblogproxy 的部署,支持 Docker 部署

· 增加詳細的使用文檔

袋鼠雲開源框架釘釘技術交流qun(30537511),歡迎對大數據開源項目有興趣的同學加入交流最新技術信息,開源項目庫地址:https://github.com/DTStack/Taier


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 今天我們來介紹一下 Bootstrap Blazor 中 Table 組件的虛擬滾動行,什麼是虛擬滾動呢,我查到的解釋是:只渲染可視區域的列表項,非可見區域的 完全不渲染,在滾動條滾動時動態更新列表項。 然後很明顯,在實際應用中不可能實現“非可見區域的 完全不渲染”,這樣的體驗效果太差了,下拉直接空 ...
  • 在VMware虛擬機下centOS7下配置橋接網路 首先,在以下的配置都操作好之後,要確認宿主機的網路連接方式, 若為需要認證的網路,則可能會出現宿主機與虛擬機能互相ping,但虛擬機不能ping外網的情況 一、虛擬機配置 確保虛擬機為關機的狀態,在VMware中編輯一欄打開虛擬網路編輯器,點擊更改 ...
  • 數據結構概述: 程式 = 數據結構 + 演算法 演算法:一些計算方法,解決問題的流程/步驟(順序、分支、迴圈......),通俗的說,演算法相當於邏輯,小部分已經被人們發掘出來了(這裡的小部分指的是書本上講的一些經典的解決一類問題的方法),解決問題的一種模式。 數據結構:將數據按照某一種特定的結構(方法) ...
  • Set A Light 3D Studio for Mac是一款可以幫助攝影工作者對3D室內攝影進行燈光位置調整的軟體,你可以清楚的瞭解到不同位置的燈光怎麼佈局。Set A Light 3D Studio Mac模擬影樓的效果,使用它可以預先在PC或Mac上搭建的照明設置,逼真地模擬預期的畫面效果和 ...
  • sed用法 基礎sed命令 sed命令的基本語法 sed OPTIONS… [SCRIPT] [INPUTFILE…] 常用的選項: -n,–quiet: 不輸出模式空間中的內容 -i: 直接編輯原文件,預設不對原文件進行操作 -e: 可以使用多個命令(腳本)進行操作 -f /path/from/s ...
  • 超級熱鍵可通過簡單編程 —— 自動化完成複雜操作,提升效率。 ▶ 快速上手 本教程需要一個很小的開源軟體 ImTip ( 體積 639 KB ), 請右鍵點開 ImTip 托盤菜單,然後點擊「管理超級熱鍵」: 然後將熱鍵配置改為如下代碼,並且勾選「啟用超級熱鍵」,再點擊「保存」按鈕使熱鍵生效。 // ...
  • Linux的哲學思想 優勢 一切都是一個文件。(包括硬體,文本,二進位,源代 碼) 系統中擁有小型,單一用途的程式。(一個程式只負責 做好自己的本職工作) 當遇到複雜任務,通過不同功能用途的程式組合起來 完成。 輕量級,一臺服務 dhcp ip 資料庫服務 網 頁 避免令人困惑的用戶界面就是沒有複雜 ...
  • 摘要:如果你的數據量很大,想儘快完成任務執行,可否有其他方案?那一定不要錯過GaussDB(DWS)的MERGE INTO功能。 本文分享自華為雲社區《一招教你如何高效批量導入與更新數據》,作者: acydy。 當前GaussDB(DWS)提供了MERGE INTO功能。本篇文章介紹MERGE IN ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...