簡述 SAP HANA 是由 SAP 開發的一款記憶體列式資料庫, 具有預測分析、空間數據處理、文本分析、文本搜索、流分析、圖形數據處理等高級分析功能。 HANA 記憶體列式資料庫特性,即啟動後可以把所有數據載入記憶體,相比傳統基於硬碟的資料庫,性能提升10~10,000倍。 HANA 一般內置在 SAP ...
簡述
SAP HANA 是由 SAP 開發的一款記憶體列式資料庫, 具有預測分析、空間數據處理、文本分析、文本搜索、流分析、圖形數據處理等高級分析功能。
HANA 記憶體列式資料庫特性,即啟動後可以把所有數據載入記憶體,相比傳統基於硬碟的資料庫,性能提升10~10,000倍。
HANA 一般內置在 SAP ERP 系統中提供服務,在製造業應用廣泛。
現如今企業嘗試建立統一數據分析平臺,SAP HANA 保存了ERP相關數據,如何實時同步 HANA 數據到數據平臺成為困擾企業的一個難題。
CloudCanal 最新版本已支持 HANA 作為源端遷移同步數據到 StarRocks 來構建實時數倉, 本文簡要介紹使用 CloudCanal 快速構建一個 HANA 到 StarRocks 數據遷移同步任務。
技術要點
數據同步整體流程
CloudCanal 實現 HANA 增量數據同步主要使用其觸發器捕獲變更事件,整體流程如下:
- 安裝觸發器,通過觸發器捕獲增量變更數據
- 記錄位點,記錄增量數據數據同步的起點
- 執行全量數據遷移
- 執行增量數據同步
數據捕獲觸發器
觸發器是一種自動觸發執行的存儲過程,它可以在數據變更前執行也可以在數據變更後執行,因為本質也是存儲過程,所以存儲過程支持的操作觸發器均支持。
不同資料庫對觸發器的支持程度不同,HANA 的觸發器支持監聽 I(新增)/U(更新)/D(刪除) 三種事件,因此數據的所有變更都可以通過觸發器捕獲。
安裝觸發器的方式與創建存儲過程類似,即通過執行 SQL 創建觸發器。
通過觸發器實現增量數據同步,需要觸發器捕獲數據的I/U/D變更事件並寫入增量 CDC 數據表,數據的變更事件最終都會寫到增量 CDC 數據表,執行流程如下:
其他 HANA 同步方案
目前支持同步 HANA 數據的產品還有 Informatica、Qlik 等,實現方案也是通過觸發器。
因為 HANA 的觸發器不能監聽 DDL 變更,因此 CloudCanal 與 Informatica、Qlik 一樣,都不支持DDL同步。
操作示例
準備動作
- 下載安裝 CloudCanal 私有部署版本,使用參見快速上手文檔
- 準備好源端和目標端資料庫及對應數據
- 參考 HANA 許可權準備 做賬號授權
添加數據源
-
登錄 CloudCanal ,數據源管理->添加數據源
-
創建源端數據源, 選擇自建數據源,選擇 HANA 並填寫相關信息
預設資料庫: 即需要同步的數據所在資料庫,常見預設資料庫:SYSTEMDB、HXE、DB0
-
創建目標端數據源,選擇自建數據源,選擇StarRocks,並填寫相關信息
Client地址: CloudCanal 用其查詢庫表表的元數據信息,對應 StarRocks QueryPort,預設埠為 9030
額外參數 Http地址: StarRocks 接收 streamload 的 http 請求,此處可填寫 BE 節點地址,預設埠為 8040 , 如需負載均衡也可直接填寫 FE節點 地址和埠,FE節點預設埠 8030
-
數據源創建成功
任務創建
-
任務管理 > 創建任務
-
源端選擇 HANA 數據源,目標端選擇 StarRocks 數據源,分別點擊測試連接按鈕並設置資料庫映射關係
-
點擊下一步
-
選擇 增量同步,並且勾選 全量初始化
-
點擊下一步
-
選擇訂閱的表
-
點擊下一步
-
配置列映射
-
點擊下一步
-
點擊創建任務
-
任務創建成功並啟動後,會自動執行結構遷移、全量遷移、增量同步
總結
本文簡單介紹瞭如何使用 CloudCanal 進行 HANA 到 StarRocks 數據遷移同步。
StarRocks 作為新興的實時數倉產品,為傳統數據業務帶去更加實時、一致的體驗,讓數據得到更加廣泛的使用,CloudCanal希望助一臂之力,讓數據流動更加平滑順暢。