摘要:本文以華為雲圖引擎 GES 為例,來介紹如何使用圖查詢語言 Cypher 表達一些需要做數據局部遍歷的場景。 本文分享自華為雲社區《使用 Cypher 子查詢進行圖探索 -- 以華為雲圖引擎 GES 為例》,作者:蜉蝣與海。 在圖資料庫 / 圖計算領域,很多查詢可以使用圖查詢語言 Cypher ...
摘要:本文以華為雲圖引擎 GES 為例,來介紹如何使用圖查詢語言 Cypher 表達一些需要做數據局部遍歷的場景。
本文分享自華為雲社區《使用 Cypher 子查詢進行圖探索 -- 以華為雲圖引擎 GES 為例》,作者:蜉蝣與海。
在圖資料庫 / 圖計算領域,很多查詢可以使用圖查詢語言 Cypher、Gremlin 或者指令式 API 進行表達,如多跳過濾、全局檢索以及對過濾後的結果進行聚集排序等操作。然而有些查詢不是那麼容易表達,常常需要對圖中的一組數據去做局部遍歷,例如在社交網路(人 - 人,人 - 興趣,人 - 工作地的關聯網路)場景中,常常涉及以下場景:
- 朋友推薦:看看小明的朋友的朋友中,哪些不是小明的朋友,進而推薦給小明。
- 潛在二度人脈分析:選取一組點,每個點代表一個人,在他們朋友的朋友中,統計他們各自有多少不認識的男性朋友和女性朋友。
- 興趣推薦 A:興趣愛好也是社交網路中的點,看看小明的朋友有哪些興趣愛好(人 - INTEREST - 興趣),從每個朋友的興趣愛好中選取至多 N 個興趣愛好推薦給小明。
- 興趣推薦 B:看小小明有哪些朋友還沒有錄入興趣愛好,允許小明把自己的興趣愛好推薦給他們。
這些查詢往往只關註圖中的某個局部,對局部進行多跳查詢,且局部上往往有類似下列限制:
- 數量限制:例如興趣推薦 A 場景中,限制了每個朋友的興趣數目,而不是總數目。
- 條件限制:例如朋友推薦場景中,“哪些不是小明的朋友” 需要先查詢小明和朋友的朋友間有沒有邊,並將結果作為查詢條件輸入。
在查詢語言 Cypher 中,常常使用子查詢來解決這類問題。本文會以華為雲圖引擎 GES 為例(圖引擎版本 >=2.3.6),來介紹如何使用 Cypher 表達上述場景。
註:本文同步發佈至華為雲 AI Gallery,文中所有代碼皆可以在AI Gallery上運行:【AI Gallery】使用Cypher子查詢進行圖探索 – 以華為雲圖引擎GES為例。
閱讀前準備
基礎知識
閱讀前需要瞭解如下基礎知識
- Cypher查詢語言的基本結構:
- 關於Cypher樣例語句,可以參考:圖引擎服務幫助文檔-業務面API-Cypher-基本操作和相容性
- 關於Cypher的文法說明,可以參考openCypher 9官方頁面。
- Cypher的列表表達式:
- 華為雲圖引擎GES支持的列表表達式,可以參考圖引擎服務幫助文檔-業務面API-Cypher-支持的表達式,函數及過程
- Neo4j 3.5 Cypher Manual - Lists - List Comprehension
- 對本文中使用到的列表表達式,提前做下述解釋:
下方三個小節會指導如何配置一個 GES 實例並使用 notebook 連接 GES 服務進而做查詢演示。如果你只想瞭解如何編寫查詢語句,對輸入的 Cypher 查詢獲取返回結果沒有需求,可以直接跳過下方三個小節。
本文使用的數據集
本教程使用 LDBC-SF0.1 社交數據集中截選的人物關係數據集,數據集可以從此處下載。下載後需要在 GES 中創建圖並導入數據集,詳細指導流程可參見華為圖引擎文檔 - 快速入門和華為雲圖引擎服務 GES 實戰 —— 創圖。
如何調用 GES 的 Cypher API
GES 官網幫助文檔上有 GES Cypher 的 API,為了方便用戶調用,API 設計為基於 http/https 請求,響應體的設計也相容的 neo4j 的 json 格式。這裡放置一下鏈接執行 Cypher 查詢。調用 API 時需要將 Token 輸入請求頭中進行鑒權,有關 Token 的獲取問題請參考業務面 API 認證鑒權。
本文會使用 ges4jupyter 工具腳本進行相關查詢的演示,該腳本中封裝了剛剛提到的鑒權 & Cypher 查詢 API,並對結果進行了一些處理,提供了相關可視化的能力。
本文使用的代碼包
ges4jupyter 是 jupyter 連接 GES 服務的工具文件。文件中封裝了使用 GES 查詢的預置條件,包括配置相關參數和對所調用 API 介面的封裝,如果你對這些不感興趣,可直接運行而不需要瞭解細節,這對理解後續具體查詢沒有影響。本文的所有語句請求都會訪問一個 GES 實例並得到實際的響應。
import moxing as mox mox.file.copy('obs://obs-aigallery-zc/GES/ges4jupyter/beta/ges4jupyter.py', 'ges4jupyter.py') mox.file.copy('obs://obs-aigallery-zc/GES/ges4jupyter/beta/ges4jupyter.html', 'ges4jupyter.html')
GESConfig 的參數都是與調用 GES 服務有關的參數,依次為 “公網訪問地址”、“項目 ID”、“圖名”、“終端節點”、“IAM 用戶名”、“IAM 用戶密碼”、“IAM 用戶所屬賬戶名”、“所屬項目”,其獲取方式可參考調用 GES 服務業務面 API 相關參數的獲取。這裡通過 read_csv_config 方法從配置文件中讀取這些信息。如果沒有配置文件,可以根據自己的需要補充下列欄位。對於開啟了 https 安全模式的圖實例,參數 port 的值為 443。
from ges4jupyter import GESConfig, GES4Jupyter, read_csv_config eip = '' project_id = '' graph_name = '' iam_url = '' user_name = '' password = '' domain_name = '' project_name = '' port = 80 eip, project_id, graph_name, iam_url, user_name, password, domain_name, project_name, port = read_csv_config('cn_north_4_graph.csv') config = GESConfig(eip, project_id, graph_name, iam_url = iam_url, user_name = user_name, password = password, domain_name = domain_name, project_name = project_name, port = port) ges_util = GES4Jupyter(config, True);
首先在 GES 中創建索引,這有利於後續查詢加速。
import time def wait_job_finish(util, job_id, max_loop): job_result = util.get_job(job_id) if 'errorCode' not in job_result: for i in range(max_loop): if job_result['status'] == 'success': break else: time.sleep(1) job_result = util.get_job(job_id) print(job_result) job_id = ges_util.build_vertex_index() wait_job_finish(ges_util, job_id, 100) job_id = ges_util.build_edge_index() wait_job_finish(ges_util, job_id, 100)
可以使用下列語句查看 schema 信息:
import time body = ges_util.generate_schema_structure() job_id = body["jobId"] print('開始構造schema結構:') wait_job_finish(ges_util, job_id, 100) print('schema結構構造完成') cypher_result = ges_util.cypher_query("call db.schema()",formats=['row','graph']); ges_util.format_cypher_result(cypher_result, candidate_title = ['description', 'name'])
如圖是本文使用的數據集的 schema,主要包括下列類型的點邊:
使用子查詢
一般來說,使用 Cypher 查詢朋友的朋友是相對容易的,下列語句演示瞭如何查詢頂點 p367 朋友的朋友。
match (n)-[:KNOWS]->(a)-[:KNOWS]->(b) where id(n)='p367' return distinct b
然而,使用一般的 Cypher 語義,從朋友的朋友中移除所有的朋友,表達朋友推薦場景中的 “朋友的朋友而非我的朋友” 卻很困難。文章如何使用GES進行社交關係考據?—GES查詢能力介紹中,描述了一種常規的查詢語句的寫法:
match (n)-[:KNOWS]->(a) where id(n)='p367' with n, collect(a) as neighbor match (n)-[:KNOWS]->(a)-[:KNOWS]->(b) where not (b in neighbor) return b
由於 cypher 的結果是使用行(Row)組織數據,所有的計算以 “行” 作為單元進行,如果要進行過濾,只能進行行內過濾。所以上述語句第一步,先通過 collect (a), 將 “朋友” 這個集合組織到了一行里,而後才能將 collect (a) 作為過濾條件,進行二次查詢。
將子查詢作為查詢條件
在 GES 2.3.6 版本,實現了子查詢能力,支持 Neo4j 中的 SemiApply 運算元,該運算元支持類似於下列語句的運行,使得查詢更為簡潔:
match (n) where id(n)='p367' match (n)-[:KNOWS*2..2]->(b) where not (n)-[:KNOWS]->(b) return id(b) limit 10 cypher_result = ges_util.cypher_query(""" match (n) where id(n)='p367' match (n)-[:KNOWS*2..2]->(b) where not (n)-[:KNOWS]->(b) return id(b) limit 10""",formats=['row','graph']); ges_util.format_cypher_result(cypher_result)註意到這裡 where 條件後面跟從的不是一個一般的條件表達式,不是大於小於這樣的比較運算,在條件運算 not 後跟隨了一個圖模式(Graph Pattern),整個 where 條件表示 “不存在從頂點 n 連向頂點 b,且 label 為 KNOWS 的邊”。這樣的表達方式使得整條查詢語句看起來更為簡潔。 也可以使用 explain 查看其查詢計劃,可以看到是 AntiSemiApply 在發揮作用。這裡條件查詢主要包含兩個運算元:
- SemiApply: 用於支撐 “where (n)-[:KNOWS]->(b)” 這樣的條件,表示對應的查詢模式存在。
- AntiSemiApply:用於支撐 “where not (n)-[:KNOWS]->(b)” 這樣的條件,表示對應的查詢模式不存在。
這兩個運算元對每個左子樹生成的結果,都去檢查右子樹是否會 / 不會產生滿足條件的結果,並將右子樹的結果作為過濾條件,輔助左子樹的結果過濾。
通過這兩個運算元,即可實現簡單的條件子查詢。
cypher_result = ges_util.cypher_query("""explain match (n) where id(n)='p367' match (n)-[:KNOWS*2..2]->(b) where not (n)-[:KNOWS]->(b) return id(b) limit 10""",formats=['row','graph']); ges_util.format_cypher_result(cypher_result)
子查詢作為條件,也可以用來描述興趣推薦 B 場景:看小小明有哪些朋友還沒有錄入興趣愛好,允許小明把自己的興趣愛好推薦給他們。
match (n:Person) where id(n)='p933' match (n)-[r]->(m) where not (m)-[:HAS_INTEREST]-() return id(m)
將子查詢作為中間結果
此外,還可以將子查詢作為中間結果,朋友推薦場景下,cypher 語句還可以這麼寫:
match (n) where id(n)='p367' with [(n)-[:KNOWS*2..2]->(b)|id(b)] as hop2, [(n)-[:KNOWS]->(b)|id(b)] as hop1 return [x in hop2 where not x in hop1|x] limit 10
在這條查詢語句中,Graph Pattern 出現在了 with 子句中,用於收集某個點的多跳結果。
另外採用類似的寫法還可以篩選三度好友中 “我不認識的人” 的數目,示例如下:
match (n) where id(n)='p367' with [(n)-[:KNOWS*3..3]->(b)|id(b)] as hop3, [(n)-[:KNOWS*1..2]->(b)|id(b)] as hop2 return size([x in hop3 where not x in hop2|x]) cypher_result = ges_util.cypher_query(""" match (n) where id(n)='p367' with [(n)-[:KNOWS*3..3]->(b)|id(b)] as hop3, [(n)-[:KNOWS*1..2]->(b)|id(b)] as hop2 return size([x in hop3 where not x in hop2|x])""",formats=['row','graph']); ges_util.format_cypher_result(cypher_result, boxHeight=200)
同時這種子查詢也可以包含子查詢過濾條件,進行各類統計操作,如上述提到的潛在二度人脈分析:
match (n:Person) where id(n) in ['p367','p13194139534836','p932','p4398046512206','p6597069767359'] with n, [(n)-[:KNOWS*2..2]->(m) where not (n)-->(m)|m] as recSet return id(n) as key, size([x in recSet where x.gender='male']) as maleNumber, size([x in recSet where x.gender='female']) as femaleNumber cypher_result = ges_util.cypher_query(""" match (n:Person) where id(n) in ['p367','p13194139534836','p932','p4398046512206','p6597069767359'] with n, [(n)-[:KNOWS*2..2]->(m) where not (n)-->(m)|m] as recSet return id(n), size([x in recSet where x.gender='male']),size([x in recSet where x.gender='female']) """,formats=['row','graph']); ges_util.format_cypher_result(cypher_result, boxHeight=200)
下列元素出現在 with 子句中,描述了一個子查詢:
[(n)-[:KNOWS*2..2]->(m) where some-condition|m] as recSet
這裡會對每個遍歷到的 n,都進行二跳查詢, 取二跳查詢的末端節點 m,然後組裝成一個列表。
註意到 where 條件中,使用了剛剛提到的條件子查詢:
where not (n)-->(m)
這裡條件使用 where 條件,對子查詢的結果進行了過濾,且過濾時,是將一個 Graph Pattern 作為的過濾條件,最後使用豎線進行投影。
在 return 子句中,使用了 Cypher 中 List Comprehension 的語法,進行列表過濾,並獲取大小:
return id(n) as key, size([x in recSet where x.gender='male']) as maleNumber, size([x in recSet where x.gender='female']) as femaleNumber
支撐子查詢作為過濾條件的,是 RollUpApply 運算元,可以通過 explain 看到其在查詢計劃中發揮價值:
cypher_result = ges_util.cypher_query("""explain match (n:Person) where id(n) in ['p367','p13194139534836','p932','p4398046512206','p6597069767359'] return n, [(n)-[:KNOWS*2..2]->(m) where not (n)-->(m)|m] as recSet""",formats=['row','graph']); ges_util.format_cypher_result(cypher_result, boxHeight=200)
對每個左子樹生成的結果(這裡是 (n:Person))都會作為變數輸入,並執行右子樹,將右子樹的結果打包返回為 list。
此外還可以限制子查詢的數目,對查詢進行 PerNodeLimit(單點跳出限制:每個點每層只能向外跳出限定個數的頂點)。
例如興趣推薦 A 場景中,看看小明的朋友有哪些興趣愛好(人 - INTEREST - 興趣),從每個朋友的興趣愛好中選取至多 N 個興趣愛好推薦給小明。
match (n:Person) where id(n)='p367' match (n)-[r]->(m) return [(m)-[:HAS_INTEREST]-(a)|a][0..3]
為了可視化演示效果,可視化時同步列印了 “朋友” 和 “INTEREST” 邊。
同樣的,也可以使用 RollUpApply+Limit 對每跳做 PerNodeLimit,例如統計和小明的朋友有共同興趣愛好的朋友,每跳最多找 3 個點,最後一跳每個點最多找 1 個點:
match (n:Person) where id(n)='p367' match (n)-[r]->(m) with m limit 3 with m,[(m)<-[r1:HAS_INTEREST]-(a)|a][0..3] as interests unwind interests as interest with interest, [(interest)-[r1:HAS_INTEREST]->(a) where not (a)--(m)|[r1,a]][0..1] as soulMate return *
其他子查詢
使用 with 也可以實現其他子查詢任務,例如上一跳的查詢結果經過 limit 限制後輸入下一跳,成為查詢條件:
match (n:Person) where id(n) in ['p367','p13194139534836','p932','p4398046512206','p6597069767359'] with n limit 10 match (m:Person{lastName:n.lastName}) return n.lastName, m.firstName
使用 explain 也可以看到其查詢計劃:
cypher_result = ges_util.cypher_query("""explain match (n:Person) where id(n) in ['p367','p13194139534836','p932','p4398046512206','p6597069767359'] with n limit 10 match (m:Person{lastName:n.lastName}) return n.lastName, m.firstName""",formats=['row','graph']); ges_util.format_cypher_result(cypher_result)
由於不同的 n,其 n.lastName 的值是不固定的,所以需要針對每個 n,去做 match (m:Person {lastName:n.lastName}) 這樣的查詢,因此需要使用 Apply 子查詢運算元支撐這樣的語句。
總結
藉助子查詢局部遍歷是圖查詢中的常用操作,將子查詢作為條件過濾或者中間結果,可以滿足某些業務場景下的對查詢的局部有限制的訴求,如文中提到的社交網路分析,再如股權穿透網路中穿透層數分析、裝備製造和配置管理(IT 設備管理)領域依賴識別和變更影響分析等。
此外,由於 Cypher 以行的形式組織數據,某些情況下使用子查詢可以節省中間結果產生,加速 Cypher 查詢的執行。
當然,使用更高效的 API(如 GES 產品中有多跳過濾 API) 或者使用非行存的查詢執行引擎也是可選的解決方案。