基於華為雲圖引擎GES,使用Cypher子查詢進行圖探索

来源:https://www.cnblogs.com/huaweiyun/archive/2023/05/10/17388283.html
-Advertisement-
Play Games

摘要:本文以華為雲圖引擎 GES 為例,來介紹如何使用圖查詢語言 Cypher 表達一些需要做數據局部遍歷的場景。 本文分享自華為雲社區《使用 Cypher 子查詢進行圖探索 -- 以華為雲圖引擎 GES 為例》,作者:蜉蝣與海。 在圖資料庫 / 圖計算領域,很多查詢可以使用圖查詢語言 Cypher ...


摘要:本文以華為雲圖引擎 GES 為例,來介紹如何使用圖查詢語言 Cypher 表達一些需要做數據局部遍歷的場景。

本文分享自華為雲社區《使用 Cypher 子查詢進行圖探索 -- 以華為雲圖引擎 GES 為例》,作者:蜉蝣與海。

在圖資料庫 / 圖計算領域,很多查詢可以使用圖查詢語言 Cypher、Gremlin 或者指令式 API 進行表達,如多跳過濾、全局檢索以及對過濾後的結果進行聚集排序等操作。然而有些查詢不是那麼容易表達,常常需要對圖中的一組數據去做局部遍歷,例如在社交網路(人 - 人,人 - 興趣,人 - 工作地的關聯網路)場景中,常常涉及以下場景:

  • 朋友推薦:看看小明的朋友的朋友中,哪些不是小明的朋友,進而推薦給小明。
  • 潛在二度人脈分析:選取一組點,每個點代表一個人,在他們朋友的朋友中,統計他們各自有多少不認識的男性朋友和女性朋友。
  • 興趣推薦 A:興趣愛好也是社交網路中的點,看看小明的朋友有哪些興趣愛好(人 - INTEREST - 興趣),從每個朋友的興趣愛好中選取至多 N 個興趣愛好推薦給小明。
  • 興趣推薦 B:看小小明有哪些朋友還沒有錄入興趣愛好,允許小明把自己的興趣愛好推薦給他們。

這些查詢往往只關註圖中的某個局部,對局部進行多跳查詢,且局部上往往有類似下列限制:

  • 數量限制:例如興趣推薦 A 場景中,限制了每個朋友的興趣數目,而不是總數目。
  • 條件限制:例如朋友推薦場景中,“哪些不是小明的朋友” 需要先查詢小明和朋友的朋友間有沒有邊,並將結果作為查詢條件輸入。

在查詢語言 Cypher 中,常常使用子查詢來解決這類問題。本文會以華為雲圖引擎 GES 為例(圖引擎版本 >=2.3.6),來介紹如何使用 Cypher 表達上述場景。

註:本文同步發佈至華為雲 AI Gallery,文中所有代碼皆可以在AI Gallery上運行:【AI Gallery】使用Cypher子查詢進行圖探索 – 以華為雲圖引擎GES為例

閱讀前準備

基礎知識

閱讀前需要瞭解如下基礎知識

下方三個小節會指導如何配置一個 GES 實例並使用 notebook 連接 GES 服務進而做查詢演示。如果你只想瞭解如何編寫查詢語句,對輸入的 Cypher 查詢獲取返回結果沒有需求,可以直接跳過下方三個小節。

本文使用的數據集

本教程使用 LDBC-SF0.1 社交數據集中截選的人物關係數據集,數據集可以從此處下載。下載後需要在 GES 中創建圖並導入數據集,詳細指導流程可參見華為圖引擎文檔 - 快速入門和華為雲圖引擎服務 GES 實戰 —— 創圖。

如何調用 GES 的 Cypher API

GES 官網幫助文檔上有 GES Cypher 的 API,為了方便用戶調用,API 設計為基於 http/https 請求,響應體的設計也相容的 neo4j 的 json 格式。這裡放置一下鏈接執行 Cypher 查詢。調用 API 時需要將 Token 輸入請求頭中進行鑒權,有關 Token 的獲取問題請參考業務面 API 認證鑒權。

本文會使用 ges4jupyter 工具腳本進行相關查詢的演示,該腳本中封裝了剛剛提到的鑒權 & Cypher 查詢 API,並對結果進行了一些處理,提供了相關可視化的能力。

本文使用的代碼包

ges4jupyter 是 jupyter 連接 GES 服務的工具文件。文件中封裝了使用 GES 查詢的預置條件,包括配置相關參數和對所調用 API 介面的封裝,如果你對這些不感興趣,可直接運行而不需要瞭解細節,這對理解後續具體查詢沒有影響。本文的所有語句請求都會訪問一個 GES 實例並得到實際的響應。

import moxing as mox
mox.file.copy('obs://obs-aigallery-zc/GES/ges4jupyter/beta/ges4jupyter.py', 'ges4jupyter.py')
mox.file.copy('obs://obs-aigallery-zc/GES/ges4jupyter/beta/ges4jupyter.html', 'ges4jupyter.html')

GESConfig 的參數都是與調用 GES 服務有關的參數,依次為 “公網訪問地址”、“項目 ID”、“圖名”、“終端節點”、“IAM 用戶名”、“IAM 用戶密碼”、“IAM 用戶所屬賬戶名”、“所屬項目”,其獲取方式可參考調用 GES 服務業務面 API 相關參數的獲取。這裡通過 read_csv_config 方法從配置文件中讀取這些信息。如果沒有配置文件,可以根據自己的需要補充下列欄位。對於開啟了 https 安全模式的圖實例,參數 port 的值為 443。

from ges4jupyter import GESConfig, GES4Jupyter, read_csv_config
eip = ''
project_id = ''
graph_name = ''
iam_url = ''
user_name = ''
password = ''
domain_name = ''
project_name = ''
port = 80
eip, project_id, graph_name, iam_url, user_name, password, domain_name, project_name, port = read_csv_config('cn_north_4_graph.csv')
config = GESConfig(eip, project_id, graph_name, 
 iam_url = iam_url, 
 user_name = user_name, 
                    password = password, 
 domain_name = domain_name,
 project_name = project_name,
                    port = port)
ges_util = GES4Jupyter(config, True);

首先在 GES 中創建索引,這有利於後續查詢加速。

import time
def wait_job_finish(util, job_id, max_loop):
 job_result = util.get_job(job_id)
 if 'errorCode' not in job_result:
 for i in range(max_loop):
 if job_result['status'] == 'success':
 break
 else:
 time.sleep(1)
 job_result = util.get_job(job_id)
 print(job_result)
job_id = ges_util.build_vertex_index()
wait_job_finish(ges_util, job_id, 100)
job_id = ges_util.build_edge_index()
wait_job_finish(ges_util, job_id, 100)

可以使用下列語句查看 schema 信息:

import time
body = ges_util.generate_schema_structure()
job_id = body["jobId"]
print('開始構造schema結構:')
wait_job_finish(ges_util, job_id, 100)
print('schema結構構造完成')
cypher_result = ges_util.cypher_query("call db.schema()",formats=['row','graph']);
ges_util.format_cypher_result(cypher_result, candidate_title = ['description', 'name'])

如圖是本文使用的數據集的 schema,主要包括下列類型的點邊:

使用子查詢

一般來說,使用 Cypher 查詢朋友的朋友是相對容易的,下列語句演示瞭如何查詢頂點 p367 朋友的朋友。

match (n)-[:KNOWS]->(a)-[:KNOWS]->(b) where id(n)='p367' return distinct b

然而,使用一般的 Cypher 語義,從朋友的朋友中移除所有的朋友,表達朋友推薦場景中的 “朋友的朋友而非我的朋友” 卻很困難。文章如何使用GES進行社交關係考據?—GES查詢能力介紹中,描述了一種常規的查詢語句的寫法:

match (n)-[:KNOWS]->(a) where id(n)='p367' with n, collect(a) as neighbor
match (n)-[:KNOWS]->(a)-[:KNOWS]->(b) 
where not (b in neighbor)
return b

由於 cypher 的結果是使用行(Row)組織數據,所有的計算以 “行” 作為單元進行,如果要進行過濾,只能進行行內過濾。所以上述語句第一步,先通過 collect (a), 將 “朋友” 這個集合組織到了一行里,而後才能將 collect (a) 作為過濾條件,進行二次查詢。

將子查詢作為查詢條件

在 GES 2.3.6 版本,實現了子查詢能力,支持 Neo4j 中的 SemiApply 運算元,該運算元支持類似於下列語句的運行,使得查詢更為簡潔:

match (n) where id(n)='p367'
match (n)-[:KNOWS*2..2]->(b)
where not (n)-[:KNOWS]->(b)
return id(b) limit 10
cypher_result = ges_util.cypher_query("""
match (n) where id(n)='p367' 
match (n)-[:KNOWS*2..2]->(b) where not (n)-[:KNOWS]->(b) 
return id(b) limit 10""",formats=['row','graph']);
ges_util.format_cypher_result(cypher_result)

註意到這裡 where 條件後面跟從的不是一個一般的條件表達式,不是大於小於這樣的比較運算,在條件運算 not 後跟隨了一個圖模式(Graph Pattern),整個 where 條件表示 “不存在從頂點 n 連向頂點 b,且 label 為 KNOWS 的邊”。這樣的表達方式使得整條查詢語句看起來更為簡潔。   也可以使用 explain 查看其查詢計劃,可以看到是 AntiSemiApply 在發揮作用。這裡條件查詢主要包含兩個運算元:
  • SemiApply: 用於支撐 “where (n)-[:KNOWS]->(b)” 這樣的條件,表示對應的查詢模式存在。
  • AntiSemiApply:用於支撐 “where not (n)-[:KNOWS]->(b)” 這樣的條件,表示對應的查詢模式不存在。

這兩個運算元對每個左子樹生成的結果,都去檢查右子樹是否會 / 不會產生滿足條件的結果,並將右子樹的結果作為過濾條件,輔助左子樹的結果過濾。

通過這兩個運算元,即可實現簡單的條件子查詢。

cypher_result = ges_util.cypher_query("""explain 
match (n) where id(n)='p367' 
match (n)-[:KNOWS*2..2]->(b) where not (n)-[:KNOWS]->(b) 
return id(b) limit 10""",formats=['row','graph']);
ges_util.format_cypher_result(cypher_result)

antiSemiApply 

子查詢作為條件,也可以用來描述興趣推薦 B 場景:看小小明有哪些朋友還沒有錄入興趣愛好,允許小明把自己的興趣愛好推薦給他們。

match (n:Person) where id(n)='p933' 
match (n)-[r]->(m) where not (m)-[:HAS_INTEREST]-() return id(m)

將子查詢作為中間結果

此外,還可以將子查詢作為中間結果,朋友推薦場景下,cypher 語句還可以這麼寫:

match (n) where id(n)='p367' 
with [(n)-[:KNOWS*2..2]->(b)|id(b)] as hop2, [(n)-[:KNOWS]->(b)|id(b)] as hop1
return [x in hop2 where not x in hop1|x] limit 10

在這條查詢語句中,Graph Pattern 出現在了 with 子句中,用於收集某個點的多跳結果。

另外採用類似的寫法還可以篩選三度好友中 “我不認識的人” 的數目,示例如下:

match (n) where id(n)='p367' 
with [(n)-[:KNOWS*3..3]->(b)|id(b)] as hop3, [(n)-[:KNOWS*1..2]->(b)|id(b)] as hop2
return size([x in hop3 where not x in hop2|x])
cypher_result = ges_util.cypher_query("""
match (n) where id(n)='p367' 
with [(n)-[:KNOWS*3..3]->(b)|id(b)] as hop3,  [(n)-[:KNOWS*1..2]->(b)|id(b)] as hop2 
return size([x in hop3 where not x in hop2|x])""",formats=['row','graph']);
ges_util.format_cypher_result(cypher_result, boxHeight=200)

 

同時這種子查詢也可以包含子查詢過濾條件,進行各類統計操作,如上述提到的潛在二度人脈分析:

match (n:Person) where id(n) in ['p367','p13194139534836','p932','p4398046512206','p6597069767359'] 
with n, [(n)-[:KNOWS*2..2]->(m) where not (n)-->(m)|m] as recSet
return id(n) as key, 
 size([x in recSet where x.gender='male']) as maleNumber,
 size([x in recSet where x.gender='female']) as femaleNumber
cypher_result = ges_util.cypher_query("""
match (n:Person) where id(n) in ['p367','p13194139534836','p932','p4398046512206','p6597069767359'] 
with n, [(n)-[:KNOWS*2..2]->(m) where not (n)-->(m)|m] as recSet 
return id(n), size([x in recSet where x.gender='male']),size([x in recSet where x.gender='female'])
""",formats=['row','graph']);
ges_util.format_cypher_result(cypher_result, boxHeight=200)

 

下列元素出現在 with 子句中,描述了一個子查詢:

[(n)-[:KNOWS*2..2]->(m) where some-condition|m] as recSet

這裡會對每個遍歷到的 n,都進行二跳查詢, 取二跳查詢的末端節點 m,然後組裝成一個列表。

註意到 where 條件中,使用了剛剛提到的條件子查詢:

where not (n)-->(m)

這裡條件使用 where 條件,對子查詢的結果進行了過濾,且過濾時,是將一個 Graph Pattern 作為的過濾條件,最後使用豎線進行投影。

在 return 子句中,使用了 Cypher 中 List Comprehension 的語法,進行列表過濾,並獲取大小:

return id(n) as key, 
 size([x in recSet where x.gender='male']) as maleNumber,
 size([x in recSet where x.gender='female']) as femaleNumber

支撐子查詢作為過濾條件的,是 RollUpApply 運算元,可以通過 explain 看到其在查詢計劃中發揮價值:

cypher_result = ges_util.cypher_query("""explain 
match (n:Person) where id(n) in ['p367','p13194139534836','p932','p4398046512206','p6597069767359'] 
return n, [(n)-[:KNOWS*2..2]->(m) where not (n)-->(m)|m] as recSet""",formats=['row','graph']);
ges_util.format_cypher_result(cypher_result, boxHeight=200)

 

對每個左子樹生成的結果(這裡是 (n:Person))都會作為變數輸入,並執行右子樹,將右子樹的結果打包返回為 list。

此外還可以限制子查詢的數目,對查詢進行 PerNodeLimit(單點跳出限制:每個點每層只能向外跳出限定個數的頂點)。

例如興趣推薦 A 場景中,看看小明的朋友有哪些興趣愛好(人 - INTEREST - 興趣),從每個朋友的興趣愛好中選取至多 N 個興趣愛好推薦給小明。

match (n:Person) where id(n)='p367' 
match (n)-[r]->(m) 
return [(m)-[:HAS_INTEREST]-(a)|a][0..3]

 

為了可視化演示效果,可視化時同步列印了 “朋友” 和 “INTEREST” 邊。

同樣的,也可以使用 RollUpApply+Limit 對每跳做 PerNodeLimit,例如統計和小明的朋友有共同興趣愛好的朋友,每跳最多找 3 個點,最後一跳每個點最多找 1 個點:

match (n:Person) where id(n)='p367' 
match (n)-[r]->(m) with m limit 3 
with m,[(m)<-[r1:HAS_INTEREST]-(a)|a][0..3] as interests 
unwind interests as interest 
with interest, [(interest)-[r1:HAS_INTEREST]->(a) where not (a)--(m)|[r1,a]][0..1] as soulMate
return *

 

其他子查詢

使用 with 也可以實現其他子查詢任務,例如上一跳的查詢結果經過 limit 限制後輸入下一跳,成為查詢條件:

match (n:Person) where id(n) in ['p367','p13194139534836','p932','p4398046512206','p6597069767359'] 
with n limit 10
match (m:Person{lastName:n.lastName}) return n.lastName, m.firstName

使用 explain 也可以看到其查詢計劃:

cypher_result = ges_util.cypher_query("""explain 
match (n:Person) where id(n) in ['p367','p13194139534836','p932','p4398046512206','p6597069767359'] 
with n limit 10
match (m:Person{lastName:n.lastName}) return n.lastName, m.firstName""",formats=['row','graph']);
ges_util.format_cypher_result(cypher_result)

 

由於不同的 n,其 n.lastName 的值是不固定的,所以需要針對每個 n,去做 match (m:Person {lastName:n.lastName}) 這樣的查詢,因此需要使用 Apply 子查詢運算元支撐這樣的語句。

總結

藉助子查詢局部遍歷是圖查詢中的常用操作,將子查詢作為條件過濾或者中間結果,可以滿足某些業務場景下的對查詢的局部有限制的訴求,如文中提到的社交網路分析,再如股權穿透網路中穿透層數分析、裝備製造和配置管理(IT 設備管理)領域依賴識別和變更影響分析等。

此外,由於 Cypher 以行的形式組織數據,某些情況下使用子查詢可以節省中間結果產生,加速 Cypher 查詢的執行。

當然,使用更高效的 API(如 GES 產品中有多跳過濾 API) 或者使用非行存的查詢執行引擎也是可選的解決方案。

 

點擊關註,第一時間瞭解華為雲新鮮技術~


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Ubuntu中恢復rm命令誤刪文件(轉) 電腦系統:Ubuntu 16.04 1 背景 在做項目的時候,本來想使用rm命令刪除以14開頭的文件,結果寫成如下形式: rm 14 * 註意,本來14和*之間不應該有空格的,但是誤寫了一個空格,結果導致所有文件都被刪除了!為了找回被誤刪的文件,根據網上的 ...
  • Scala 只是學習無基本理論 安裝Scala 裝前必須有jdk windows安裝 解壓縮 D:dev/scala 配置環境變數 SCALA_HONE path cmd檢查 Scala -version 直接輸入Scala 控制台運行 idea安裝與運行Scala idea-->插件-->scal ...
  • 目錄 一、引導分區 二、服務控制 三、運行級別 四、systemd初始化 五、模擬錯誤 一、引導分區 原理:引導分區是指在開機啟動到進入系統這之間的過程 引導分區的過程:1.開機自檢 自檢順序:BIOS,cup,記憶體,顯卡,鍵盤 根據預設的順序控制權交給硬碟(第一個硬碟或者光碟機) 2.mbr引導 機 ...
  • 收藏!最全Linux思維導圖 1. 認識 Linux 2. Linux 命令 3. Linux學習路徑 4. Linux 桌面介紹 5. FHS:文件系統目錄標準 6. Linux 需要特別註意的目錄 7. Linux 內核學習路線 8. Linux Security Coaching 9. Lin ...
  • macOS系統中預設的C/C++編譯器是clang/clang++,命令行使用gcc/g++或者clang/clang++來執行命令時,都是調用clang/clang++編譯器,想使用gcc/g++編譯器的話,我們可以自己安裝。 查看一下gcc和clang 1. 安裝Homebrew,官網鏈接,複製 ...
  • 在一個Oracle 12.1實例中,想監控一個表的索引使用情況,在system用戶下執行了下麵腳本以及輸出的監控索引腳本後,發現V$OBJECT_USAGE下一直沒有對應的記錄(在system用戶下查詢) SELECT 'ALTER INDEX '||OWNER||'.'||INDEX_NAME|| ...
  • (Oracle之table()函數) 一、序言 前段時間一直在弄報表,快被這些報表整吐了,然後接觸到了Oracle的table()函數。所以今天把table()函數的具體用法整理下,防止下次遇到忘記了。。 利用table()函數,可接收輸入參數,然後將pl/sql 返回的結果集代替table。由於表 ...
  • 摘要:在技術領域中,沒有銀彈。我們需要不斷探索和研究新的技術,結合具體問題和需求,選擇最適合的解決方案。 本文分享自華為雲社區《知乎問題:如何說服技術老大用 Redis ?》,作者:勇哥java實戰分享。 最近在某問答平臺看到一個技術討論:如何說服技術老大用Redis? “他總覺得用Redis每次都 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...