如何更好的分析潛在人脈?聊聊華為雲圖引擎GES的Cypher子查詢

来源:https://www.cnblogs.com/huaweiyun/archive/2023/05/10/17388283.html
-Advertisement-
Play Games

摘要:本文以華為雲圖引擎 GES 為例,來介紹如何使用圖查詢語言 Cypher 表達一些需要做數據局部遍歷的場景。 本文分享自華為雲社區《使用 Cypher 子查詢進行圖探索 -- 以華為雲圖引擎 GES 為例》,作者:蜉蝣與海。 在圖資料庫/圖計算領域,很多查詢可以使用圖查詢語言Cypher、Gr ...


摘要:本文以華為雲圖引擎 GES 為例,來介紹如何使用圖查詢語言 Cypher 表達一些需要做數據局部遍歷的場景。

本文分享自華為雲社區《使用 Cypher 子查詢進行圖探索 -- 以華為雲圖引擎 GES 為例》,作者:蜉蝣與海。

在圖資料庫/圖計算領域,很多查詢可以使用圖查詢語言Cypher、Gremlin或者指令式API進行表達,如多跳過濾、全局檢索以及對過濾後的結果進行聚集排序等操作。然而有些查詢不是那麼容易表達,常常需要對圖中的一組數據去做局部遍歷,例如在社交網路(人-人,人-興趣的關聯網路)場景中,常常涉及以下場景:

  • 朋友推薦:看看小明的朋友的朋友中,哪些不是小明的朋友,進而推薦給小明。
  • 潛在二度人脈分析:選取一組點,每個點代表一個人,在他們朋友的朋友中,統計他們各自有多少不認識的男性朋友和女性朋友。
  • 興趣推薦A:興趣愛好也是社交網路中的點,看看小明的朋友有哪些興趣愛好(人-INTEREST-興趣),從每個朋友的興趣愛好中選取至多N個興趣愛好推薦給小明。
  • 興趣推薦B:看小明有哪些朋友還沒有錄入興趣愛好,允許小明把自己的興趣愛好推薦給他們。

這些查詢往往只關註圖中的某個局部,對局部進行多跳查詢,且局部上往往有類似下列限制:

  • 數量限制:例如興趣推薦A場景中,限制了每個朋友的興趣數目,而不是總數目。
  • 條件限制:例如朋友推薦場景中,“哪些不是小明的朋友”需要先查詢小明和朋友的朋友間有沒有邊,並將結果作為查詢條件輸入用來過濾。

在查詢語言Cypher中,常常使用子查詢來解決這類問題。本文會以華為雲圖引擎GES為例(圖引擎版本>=2.3.6),來介紹如何使用Cypher表達上述場景。

註: 本文同步發佈至華為雲AI Gallery,文中所有代碼皆可以在AI Gallery上運行:【AI Gallery】使用Cypher子查詢進行圖探索 – 以華為雲圖引擎GES為例

閱讀前準備

基礎知識

閱讀前需要瞭解如下基礎知識

下方三個小節會指導如何配置一個GES實例並使用notebook連接GES服務進而做查詢演示。如果你只想瞭解如何編寫查詢語句,對輸入的Cypher查詢獲取返回結果沒有需求,可以直接跳過下方三個小節。

本文使用的數據集

本教程使用LDBC-SF0.1社交數據集中截選的人物關係數據集,數據集可以從此處下載。下載後需要在GES中創建圖並導入數據集,詳細指導流程可參見華為圖引擎文檔-快速入門華為雲圖引擎服務 GES 實戰——創圖

如何調用GES的Cypher API

GES官網幫助文檔上有GES Cypher的API,為了方便用戶調用,API設計為基於http/https請求,響應體的設計也相容的neo4j的json格式。這裡放置一下鏈接執行Cypher查詢。調用API時需要將Token輸入請求頭中進行鑒權,有關Token的獲取問題請參考業務面API認證鑒權

本文會使用ges4jupyter工具腳本進行相關查詢的演示,該腳本中封裝了剛剛提到的鑒權&Cypher查詢API,並對結果進行了一些處理,提供了相關可視化的能力。

本文使用的代碼包

ges4jupyter是jupyter連接GES服務的工具文件。文件中封裝了使用 GES 查詢的預置條件,包括配置相關參數和對所調用 API 介面的封裝,如果你對這些不感興趣,可直接運行而不需要瞭解細節,這對理解後續具體查詢沒有影響。本文的所有語句請求都會訪問一個GES實例並得到實際的響應。

import moxing as mox
mox.file.copy('obs://obs-aigallery-zc/GES/ges4jupyter/beta/ges4jupyter.py', 'ges4jupyter.py')
mox.file.copy('obs://obs-aigallery-zc/GES/ges4jupyter/beta/ges4jupyter.html', 'ges4jupyter.html')

GESConfig的參數都是與調用 GES 服務有關的參數,依次為“公網訪問地址”、“項目ID”、“圖名”、“終端節點”、“IAM 用戶名”、“IAM 用戶密碼”、“IAM 用戶所屬賬戶名”、“所屬項目”,其獲取方式可參考調用 GES 服務業務面 API 相關參數的獲取。這裡通過read_csv_config方法從配置文件中讀取這些信息。如果沒有配置文件,可以根據自己的需要補充下列欄位。對於開啟了https安全模式的圖實例,參數port的值為443。

from ges4jupyter import GESConfig, GES4Jupyter, read_csv_config
eip = ''
project_id = ''
graph_name = ''
iam_url = ''
user_name = ''
password = ''
domain_name = ''
project_name = ''
port = 80
eip, project_id, graph_name, iam_url, user_name, password, domain_name, project_name, port = read_csv_config('cn_north_4_graph.csv')
config = GESConfig(eip, project_id, graph_name, 
                    iam_url = iam_url, 
                    user_name = user_name, 
                    password = password, 
                    domain_name = domain_name,
                    project_name = project_name,
                    port = port)
ges_util = GES4Jupyter(config, True);

首先在GES中創建索引,這有利於後續查詢加速。

import time
def wait_job_finish(util, job_id, max_loop):
    job_result = util.get_job(job_id)
    if 'errorCode' not in job_result:
        for i in range(max_loop):
            if job_result['status'] == 'success':
                break
            else:
                time.sleep(1)
                job_result = util.get_job(job_id)
    print(job_result)

job_id = ges_util.build_vertex_index()
wait_job_finish(ges_util, job_id, 100)
job_id = ges_util.build_edge_index()
wait_job_finish(ges_util, job_id, 100)

可以使用下列語句查看schema信息:

import time
body = ges_util.generate_schema_structure()
job_id = body["jobId"]
print('開始構造schema結構:')
wait_job_finish(ges_util, job_id, 100)
print('schema結構構造完成')
cypher_result = ges_util.cypher_query("call db.schema()",formats=['row','graph']);
ges_util.format_cypher_result(cypher_result, candidate_title = ['description', 'name'])

GES ldbc數據集schema

如圖是本文使用的數據集的schema,主要包括下列類型的點邊:

使用子查詢

一般來說,使用Cypher查詢朋友的朋友是相對容易的,下列語句演示瞭如何查詢頂點p367朋友的朋友。

match (n)-[:KNOWS]->(a)-[:KNOWS]->(b) where id(n)='p367' return distinct b

然而,使用一般的Cypher語義,從朋友的朋友中移除所有的朋友,表達朋友推薦場景中的“朋友的朋友而非我的朋友”卻很困難。文章如何使用GES進行社交關係考據?—GES查詢能力介紹中,描述了一種常規的查詢語句寫法:

match (n)-[:KNOWS]->(a) where id(n)='p367' with n, collect(a) as neighbor
match (n)-[:KNOWS]->(a)-[:KNOWS]->(b) 
where not (b in neighbor)
return b

由於cypher的結果是使用行(Row)組織數據,所有的計算以“行”作為單元進行,如果要進行過濾,只能進行行內過濾。所以上述語句第一步,先通過collect(a),將“朋友”這個集合組織到了一行里,而後才能將collect(a)作為過濾條件,進行二次查詢。

將子查詢作為查詢條件

在GES 2.3.6版本,實現了子查詢能力,支持Neo4j中的SemiApply運算元,該運算元支持類似於下列語句的運行,使得查詢更為簡潔:

match (n) where id(n)='p367'
match (n)-[:KNOWS*2..2]->(b)
where not (n)-[:KNOWS]->(b)
return id(b) limit 10
cypher_result = ges_util.cypher_query("""
match (n) where id(n)='p367' 
match (n)-[:KNOWS*2..2]->(b) where not (n)-[:KNOWS]->(b) 
return id(b) limit 10""",formats=['row','graph']);
ges_util.format_cypher_result(cypher_result)

註意到這裡where條件後面跟從的不是一個一般的條件表達式,不是大於小於這樣的比較運算,在條件運算not後跟隨了一個圖模式(Graph Pattern),整個where條件表示“不存在從頂點n連向頂點b,且label為KNOWS的邊”。這樣的表達方式使得整條查詢語句看起來更為簡潔。

也可以使用explain查看其查詢計劃,可以看到是AntiSemiApply在發揮作用。這裡條件查詢主要包含兩個運算元:

  • SemiApply: 用於支撐“where (n)-[:KNOWS]->(b)”這樣的條件,表示對應的查詢模式存在。
  • AntiSemiApply:用於支撐“where not (n)-[:KNOWS]->(b)”這樣的條件,表示對應的查詢模式不存在。

這兩個運算元對每個左子樹生成的結果,都去檢查右子樹是否會/不會產生滿足條件的結果,並將右子樹的結果作為過濾條件,輔助左子樹的結果過濾。

通過這兩個運算元,即可實現簡單的條件子查詢。

cypher_result = ges_util.cypher_query("""explain 
match (n) where id(n)='p367' 
match (n)-[:KNOWS*2..2]->(b) where not (n)-[:KNOWS]->(b) 
return id(b) limit 10""",formats=['row','graph']);
ges_util.format_cypher_result(cypher_result)

antiSemiApply 

子查詢作為條件,也可以用來描述興趣推薦B場景:看小明有哪些朋友還沒有錄入興趣愛好,允許小明把自己的興趣愛好推薦給他們。

match (n:Person) where id(n)='p933' 
match (n)-[r]->(m) where not (m)-[:HAS_INTEREST]-() return id(m)

將子查詢作為中間結果

此外,還可以將子查詢作為中間結果,朋友推薦場景下,cypher語句還可以這麼寫:

match (n) where id(n)='p367' 
with [(n)-[:KNOWS*2..2]->(b)|id(b)] as hop2,  [(n)-[:KNOWS]->(b)|id(b)] as hop1
return [x in hop2 where not x in hop1|x] limit 10

在這條查詢語句中,Graph Pattern出現在了with子句中,用於收集某個點的多跳結果。

另外採用類似的寫法還可以篩選三度好友中“我不認識的人”的數目,示例如下:

match (n) where id(n)='p367' 
with [(n)-[:KNOWS*3..3]->(b)|id(b)] as hop3,  [(n)-[:KNOWS*1..2]->(b)|id(b)] as hop2
return size([x in hop3 where not x in hop2|x])
cypher_result = ges_util.cypher_query("""
match (n) where id(n)='p367' 
with [(n)-[:KNOWS*3..3]->(b)|id(b)] as hop3,  [(n)-[:KNOWS*1..2]->(b)|id(b)] as hop2 
return size([x in hop3 where not x in hop2|x])""",formats=['row','graph']);
ges_util.format_cypher_result(cypher_result, boxHeight=200)

 

同時這種子查詢後續步驟也可以跟隨一些過濾條件,進行各類統計操作,如上述提到的潛在二度人脈分析

match (n:Person) where id(n) in ['p367','p13194139534836','p932','p4398046512206','p6597069767359'] 
with n, [(n)-[:KNOWS*2..2]->(m) where not (n)-->(m)|m] as recSet
return id(n) as key, 
    size([x in recSet where x.gender='male']) as maleNumber,
    size([x in recSet where x.gender='female']) as femaleNumber
cypher_result = ges_util.cypher_query("""
match (n:Person) where id(n) in ['p367','p13194139534836','p932','p4398046512206','p6597069767359'] 
with n, [(n)-[:KNOWS*2..2]->(m) where not (n)-->(m)|m] as recSet 
return id(n), size([x in recSet where x.gender='male']),size([x in recSet where x.gender='female'])
""",formats=['row','graph']);
ges_util.format_cypher_result(cypher_result, boxHeight=200)

 

下列元素出現在with子句中,描述了一個子查詢:

[(n)-[:KNOWS*2..2]->(m) where some-condition|m] as recSet

這裡會對每個遍歷到的n,都進行二跳查詢, 取二跳查詢的末端節點m,然後組裝成一個列表。

註意到where條件中,使用了剛剛提到的條件子查詢:

where not (n)-->(m)

這裡條件使用where條件,對子查詢的結果進行了過濾,且過濾時,是將一個Graph Pattern作為的過濾條件,最後使用豎線進行投影。

在return子句中,使用了Cypher中List Comprehension的語法,進行列表過濾,並獲取大小:

return id(n) as key, 
    size([x in recSet where x.gender='male']) as maleNumber,
    size([x in recSet where x.gender='female']) as femaleNumber

支撐子查詢結果作為中間結果的,是RollUpApply運算元,可以通過explain看到其在查詢計劃中發揮價值:

cypher_result = ges_util.cypher_query("""explain 
match (n:Person) where id(n) in ['p367','p13194139534836','p932','p4398046512206','p6597069767359'] 
return n, [(n)-[:KNOWS*2..2]->(m) where not (n)-->(m)|m] as recSet""",formats=['row','graph']);
ges_util.format_cypher_result(cypher_result, boxHeight=200)

 

對每個左子樹生成的結果(這裡是 (n:Person))都會作為變數輸入,並執行右子樹,將右子樹的結果打包返回為 list。

此外還可以限制子查詢的數目,對查詢進行 PerNodeLimit(單點跳出限制:每個點每層只能向外跳出限定個數的頂點)。

例如興趣推薦 A 場景中,看看小明的朋友有哪些興趣愛好(人 - INTEREST - 興趣),從每個朋友的興趣愛好中選取至多 N 個興趣愛好推薦給小明。

match (n:Person) where id(n)='p367' 
match (n)-[r]->(m) 
return [(m)-[:HAS_INTEREST]-(a)|a][0..3]

 

為了可視化演示效果,可視化時同步列印了“朋友”和“INTEREST”邊。

同樣的,也可以使用RollUpApply+Limit對每跳做PerNodeLimit,例如統計和小明的朋友有共同興趣愛好的朋友,每個頂點每跳最多找3個點,最後一跳每個點最多找1個點:

match (n:Person) where id(n)='p367' 
match (n)-[r]->(m) with m limit 3 
with m,[(m)<-[r1:HAS_INTEREST]-(a)|a][0..3] as interests 
unwind interests as interest 
with interest, [(interest)-[r1:HAS_INTEREST]->(a) where not (a)--(m)|[r1,a]][0..1] as soulMate
return *

 

其他子查詢

使用with也可以實現其他子查詢任務,例如上一跳的查詢結果經過limit限制後輸入下一跳,成為查詢條件:

match (n:Person) where id(n) in ['p367','p13194139534836','p932','p4398046512206','p6597069767359'] 
with n limit 10
match (m:Person{lastName:n.lastName}) return n.lastName, m.firstName

使用explain也可以看到其查詢計劃:

cypher_result = ges_util.cypher_query("""explain 
match (n:Person) where id(n) in ['p367','p13194139534836','p932','p4398046512206','p6597069767359'] 
with n limit 10
match (m:Person{lastName:n.lastName}) return n.lastName, m.firstName""",formats=['row','graph']);
ges_util.format_cypher_result(cypher_result)

 

由於不同的n,其n.lastName的值是不固定的,所以需要針對每個n,去做match (m:Person{lastName:n.lastName})這樣的查詢,因此需要使用Apply子查詢運算元支撐這樣的語句。

總結藉助子查詢進行局部遍歷是圖查詢中的常用操作,將子查詢作為過濾條件或者中間結果輔助查詢,可以滿足某些業務場景下對查詢局部有限制的訴求,

如文中提到的社交網路分析,再如股權關係中穿透層數分析、裝備製造和配置管理(IT設備管理)領域依賴識別和變更影響分析等。

此外,由於Cypher以行的形式組織數據,某些情況下使用子查詢可以節省中間結果產生,加速Cypher查詢的執行。

當然,使用更高效的API(如GES產品中有多跳過濾API)或者使用非行存的查詢執行引擎也是可選的解決方案。

 

點擊關註,第一時間瞭解華為雲新鮮技術~


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 環境: 工具:Microsoft Edge Dev 系統版本:Windows 10 需求描述: 描述:需要正常游覽Flash頁面的所有內容,不能有缺少的動畫 提示: 本文章是最簡單的且直接的,若你的電腦不適合這個游覽器,可以看我另外一篇文章。https://www.cnblogs.com/boluo ...
  • 考前說明:所有項目運行過程中出現紅色字體的報錯信息是正常的,運行完成後看 “failed=0” 就代表執行成功,如果在執行任務期間暫停並且報錯那麼代表項目內部書寫格式或者命令輸入錯誤,請認真檢查 此文檔為考前模擬不代表真實考試環境及內容。 環境說明: | system | IP Address | ...
  • macOS系統中預設的C/C++編譯器是clang/clang++,命令行使用gcc/g++或者clang/clang++來執行命令時,都是調用clang/clang++編譯器,想使用gcc/g++編譯器的話,我們可以自己安裝。 查看一下gcc和clang 1. 安裝Homebrew,官網鏈接,複製 ...
  • 摘要:在實際使用過程中,資料庫集群級的故障並非高概率事件,如何安全高效地幫助客戶備份恢復一部分資料庫元素,才是更加實際的需求,這也是細粒度備份恢復的意義所在。 本文分享自華為雲社區《GaussDB(DWS)之物理細粒度備份恢復》,作者:我的橘子呢 。 1. 認識物理細粒度備份恢復 相對於集群級備份恢 ...
  • ACID :如果一個資料庫支持事務的操作,那麼該資料庫必須要具備以下四個特性 1、原子性(Atomicity) 事務包含的所有操作要麼全部成功,要麼全部失敗回滾,因此事務的操作如果成功就必須要完全應用到資料庫,如果操作失敗則不能對資料庫有任何影響 2、一致性(Consistency) 事務必須使數據 ...
  • 這段時間,我們對產品本身以及客戶反饋的一些問題進行了持續的更新和優化,包括對離線平臺數據同步功能的更新,數據資產平臺血緣問題的優化等,力求滿足不同行業用戶的更多需求,為用戶帶來極致的產品使用體驗。 以下為袋鼠雲產品功能更新報告第五期內容,更多探索,請繼續閱讀。 離線開發平臺 1.支持工作流參數 背景 ...
  • GreatSQL社區原創內容未經授權不得隨意使用,轉載請聯繫小編並註明來源。 GreatSQL是MySQL的國產分支版本,使用上與MySQL一致。 作者:Yejinrong/葉金榮 文章來源:GreatSQL社區原創 繼續吹MySQL 8.0~ 在以前,當需要對MySQL資料庫進行維護操作時,通常需 ...
  • (資料庫定時備份linux篇) 1 序言 相信大家都還記得這則新聞吧,歐洲雲計算巨頭 OVH 位於法國斯特拉斯堡的機房發生嚴重火災,大火徹底摧毀了五層高、占地 500 平方米的 SBG2 數據中心。 當地報紙稱 115 位消防員投入 6 個小時才將其撲滅。經過長達 6 個小時的持續燃燒,SBG2 內 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...