5分鐘遷移關係型資料庫到圖資料庫

来源:https://www.cnblogs.com/huaweiyun/archive/2023/07/26/17582569.html
-Advertisement-
Play Games

本文藉助Apache Hop及GES插件,提供了多數據源通用、可視化、開箱即用的數據轉換工程,可將多種關係型資料庫遷移至GES圖資料庫中。 ...


本文分享自華為雲社區《5分鐘遷移關係型資料庫到圖資料庫》,作者: RiverSide 。

以往開發者會使用關係型資料庫如MySQL對領域數據進行存儲,這類關係型資料庫誕生較早,但並不適合存儲關聯度較大的數據,如社交關係網路。隨著高關聯度數據的存儲及分析的需求隨數據量日益增長,將海量關聯數據存入圖資料庫中進行深度挖掘分析是大勢所趨。華為雲圖引擎服務(Graph Engine Service)是國內首個商用的、擁有自主知識產權的國產分散式原生圖引擎。廣泛應用於社交應用、企業關係分析、風控、推薦、反欺詐等具有豐富關係數據的場景。

由於關係型資料庫和如GES的圖資料庫天然存在的異構性,將已有的關係型資料庫中的數據存儲至圖資料庫中仍存在較多的難點。本文藉助Apache Hop及GES插件,提供了多數據源通用、可視化、開箱即用的數據轉換工程,可將多種關係型資料庫遷移至GES圖資料庫中。轉換工作流復用度高,可通過輸入不同的元數據文件與數據源連接,使轉換工作流完成多個數據源的遷移任務。

支持的數據源

藉助Apache Hop的能力,支持MySQL,PostgreSQL,Oracle,MS SqlServer等多種關係型資料庫,具體列表參見:Database Plugins :: Apache Hop

數據要求

  1. 已經建立好GES圖模型,屬性名與表中的欄位名相同
  2. 對單個標簽來說,所有屬性都在同一張表中
  3. 數據源中的數據符合圖模型中對應數據類型的要求(如GES中date類型為yyyy-mm-dd hh:mm:ss,若數據源中的date類型不合要求,應在數據源轉為相應格式的字元串類型)

節點唯一性問題

在圖資料庫中不允許存在兩個索引值相同的節點,因此需要確保節點的全局唯一性,即節點id。通常情況下,可以將表中具有唯一性約束的欄位,如表的主鍵映射為對應節點數據的id。在關係型資料庫(如MySQL)中,不同的表屬於不同的命名空間,即不同表中的主鍵可以相同的值。因此在這種情況下,需要改變相應的映射規則。如通過將表名與主鍵拼接的方式生成新的節點id,以確保節點的全局唯一性。

在轉換過程中,需要將指定的id映射關係生成為以下格式的csv:標簽名, 表名,節點id對應欄位,終點id對應欄位。此處若標簽對應的是點數據,則終點id為空。

如在TPC-H數據集中,表數據轉換為一條簡單的關係及其起點終點,需要指明的信息如下:

  • 對於Order標簽的節點,數據源中對應的表名為orders;採用主鍵o_orderkey作為節點id。
  • 對於Supplier標簽的節點,數據源中對應的表名為supplier;採用主鍵s_suppkey作為節點id。
  • 對於supply標簽的邊,數據源中對應的表名為lineitem;起點為Supplier,對應表lineitem表中外鍵l_suppkey作為起點id;終點為Order,對應外鍵l_orderkey作為終點id。需要註意的是,邊的起點與終點的id映射需要與對應標簽的節點id映射對應,如例子中的lineitem表的外鍵l_suppkey對應的正是supplier表中的s_suppkey,它們的值為一一對應的關係。

cke_128.png

流程概述

cke_129.png

數據轉換的主要思路是以csv文件格式為媒介,將關係型資料庫中的數據按指定格式導出至csv文件中,導出數據藉助華為雲對象存儲服務(OBS)上雲,GES服務完成雲端數據導入圖實例。

cke_130.png

數據的格式轉換髮生在查詢結果生成過程中,通過解析元數據與id映射文件,我們可以在動態生成的SQL語句的SELECT子句中指定查詢結果的格式。將查詢結果寫入csv即可得到可以導入GES圖實例的數據文件。

環境準備

Apache Hop

Apache Hop(Hop Orchestration Platform)是一個數據編排和數據工程平臺,旨在促進數據和元數據編排的各個方面。Hop讓您專註於您試圖解決的問題,而不會有技術阻礙。

下載Apache Hop v2.4.0:Download - Hop

Apache Hop依賴JDK11,檢查java版本,若不滿足可按附件中《使用說明》配置:

cke_131.png

通過hop文件夾下hop-gui.bat進入gui操作界面

cke_132.png

載入GES插件

GES Plugin for Apache Hop是GES開發用於連接Hop工具的插件,用於將上傳數據文件、將雲端數據導入圖實例等操作。

在附件中下載GES插件後,解壓.zip文件,將hop-transform-ges文件夾放到Apache Hop文件夾./hop/pulgins/transforms下。

數據遷移

數據準備

本文以TPC-H數據集為例,對數據集中的部分數據建立如下圖模型:

cke_133.png

對應的GES元數據文件如下,文件格式可參考:GES圖的基本概念和數據格式

cke_134.png

節點id映射關係文件如下,使用”標簽名_主鍵“的格式確保id唯一性:

cke_135.png

運行遷移工程

點擊上方菜單欄新建項目:

cke_136.png

指定項目名稱與項目主目錄

cke_137.png

將工程文件拷貝到項目主目錄,完成後項目主目錄下文件如下圖。其中.hpl與.hwf文件為定義好的hop轉換規則文件,tpch.xml為GES元數據文件,tpch.csv為節點id映射關係文件。

cke_138.png

在gui界面中點擊metadata->relational database connection,選擇合適的關係型資料庫類型,填入賬號密碼等信息。

cke_139.png

點擊metadata->GES Connection,建立圖連接,按.zip附件中說明文檔填入賬號密碼等信息。

cke_140.png

點擊項目詳情,定義相關參數為項目變數:

cke_141.png

打開RelationalDB_to_GES.hwf:

cke_142.png

點擊運行

cke_143.png

cke_144.png

數據轉換結束,數據轉換至對應路徑下,共轉換點邊近3700萬行,用時約200秒

cke_145.png

登錄前端圖訪問頁面,可以查詢到導入數據,數據成功導入。

cke_146.png

 

點擊關註,第一時間瞭解華為雲新鮮技術~

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 背景:最近遇到一個bug,需要修改 RHEL 8.7 kernel config 的配置參數,然後重新安裝該kernel。踩過一些坑,復盤整理。 查詢當前的kernel uname -r 4.18.0-477.15.1.el8_8.x86_64 這是當前運行的內核版本。版本號的不同部分表示以下信息: ...
  • # GDB調試 ## 啟動gdb調試的方法 一般有三種方式: 1. gdb filename 2. gdb attach pid 3. gdb filename corename ### 方法一 直接調試目標程式 gdb filename filename就是需要啟動調試的程式文件名,直接gdb啟動 ...
  • @[TOC](靜態時序分析) # 一、TCL語言和synopsys TCL語言入門 基本目標: 1.掌握常用TCL基本指令(至少要看得懂) 2.掌握常用synopsys TCL常用指令,包括信息與屬性的獲取以及過濾 3.重點關註TCL正則匹配與文本處理方法,能夠寫出簡單的文本處理腳本 ## 1.1 ...
  • # Nginx反向代理配置實例 **介紹:** - 反向代理,其實客戶端對代理是無感知的,因為客戶端不需要任何配置就可以訪問。 - 我們只 需要將請求發送到反向代理伺服器,由反向代理伺服器去選擇目標伺服器獲取數據後,在返 回給客戶端,此時反向代理伺服器和目標伺服器對外就是一個伺服器,暴露的是代理服務 ...
  • 哈嘍大家好,我是鹹魚 我們知道 SSL 證書是會過期的,一旦過期之後需要重新申請。如果沒有及時更換證書的話,就有可能導致網站出問題,給公司業務帶來一定的影響 所以說我們要每隔一定時間去檢查網站上的 SSL 證書是否過期 如果公司業務體量較大的話,肯定不止一個功能變數名稱,而一個功能變數名稱後面又會對應著多台機器,如 ...
  • 寫在前面: 當你遇到一件麻煩事的時候,你要做的就是乖乖聽它的話,別再自找麻煩。 ## 1.參考資料 - [ESP-IDF手冊](https://docs.espressif.com/projects/esp-idf/zh_CN/v5.1/esp32c6/get-started/index.html) ...
  • ![](https://img2023.cnblogs.com/blog/3076680/202307/3076680-20230724215715411-597144068.png) # 1. 識別非小計行 ## 1.1. 結果集 ![](https://img2023.cnblogs.com/b ...
  • # redis基本操作 🎈 本文為學習redis的個人筆記,內容較基礎,所引用的文章或網站鏈接在文末給出。 ## redis簡介 Redis 是完全開源的,遵守 BSD 協議,是一個高性能的 key-value 資料庫。 Redis 與其他 key - value 緩存產品有以下三個特點: - R ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...