摘要:本文以華為雲圖引擎 GES 為例,來介紹如何使用圖查詢語言 Cypher 表達一些需要做數據局部遍歷的場景。 本文分享自華為雲社區《使用 Cypher 子查詢進行圖探索 -- 以華為雲圖引擎 GES 為例》,作者:蜉蝣與海。 在圖資料庫/圖計算領域,很多查詢可以使用圖查詢語言Cypher、Gr ...
摘要:本文以華為雲圖引擎 GES 為例,來介紹如何使用圖查詢語言 Cypher 表達一些需要做數據局部遍歷的場景。
本文分享自華為雲社區《使用 Cypher 子查詢進行圖探索 -- 以華為雲圖引擎 GES 為例》,作者:蜉蝣與海。
在圖資料庫/圖計算領域,很多查詢可以使用圖查詢語言Cypher、Gremlin或者指令式API進行表達,如多跳過濾、全局檢索以及對過濾後的結果進行聚集排序等操作。然而有些查詢不是那麼容易表達,常常需要對圖中的一組數據去做局部遍歷,例如在社交網路(人-人,人-興趣的關聯網路)場景中,常常涉及以下場景:
- 朋友推薦:看看小明的朋友的朋友中,哪些不是小明的朋友,進而推薦給小明。
- 潛在二度人脈分析:選取一組點,每個點代表一個人,在他們朋友的朋友中,統計他們各自有多少不認識的男性朋友和女性朋友。
- 興趣推薦A:興趣愛好也是社交網路中的點,看看小明的朋友有哪些興趣愛好(人-INTEREST-興趣),從每個朋友的興趣愛好中選取至多N個興趣愛好推薦給小明。
- 興趣推薦B:看小明有哪些朋友還沒有錄入興趣愛好,允許小明把自己的興趣愛好推薦給他們。
這些查詢往往只關註圖中的某個局部,對局部進行多跳查詢,且局部上往往有類似下列限制:
- 數量限制:例如興趣推薦A場景中,限制了每個朋友的興趣數目,而不是總數目。
- 條件限制:例如朋友推薦場景中,“哪些不是小明的朋友”需要先查詢小明和朋友的朋友間有沒有邊,並將結果作為查詢條件輸入用來過濾。
在查詢語言Cypher中,常常使用子查詢來解決這類問題。本文會以華為雲圖引擎GES為例(圖引擎版本>=2.3.6),來介紹如何使用Cypher表達上述場景。
註: 本文同步發佈至華為雲AI Gallery,文中所有代碼皆可以在AI Gallery上運行:【AI Gallery】使用Cypher子查詢進行圖探索 – 以華為雲圖引擎GES為例。
閱讀前準備
基礎知識
閱讀前需要瞭解如下基礎知識
- Cypher查詢語言的基本結構:
- 關於Cypher樣例語句,可以參考:圖引擎服務幫助文檔-業務面API-Cypher-基本操作和相容性
- 關於Cypher的文法說明,可以參考openCypher 9官方頁面。
- Cypher的列表表達式:
- 華為雲圖引擎GES支持的列表表達式,可以參考圖引擎服務幫助文檔-業務面API-Cypher-支持的表達式,函數及過程
- Neo4j 3.5 Cypher Manual - Lists - List Comprehension
- 對本文中使用到的列表表達式,提前做下述解釋:
下方三個小節會指導如何配置一個GES實例並使用notebook連接GES服務進而做查詢演示。如果你只想瞭解如何編寫查詢語句,對輸入的Cypher查詢獲取返回結果沒有需求,可以直接跳過下方三個小節。
本文使用的數據集
本教程使用LDBC-SF0.1社交數據集中截選的人物關係數據集,數據集可以從此處下載。下載後需要在GES中創建圖並導入數據集,詳細指導流程可參見華為圖引擎文檔-快速入門和華為雲圖引擎服務 GES 實戰——創圖。
如何調用GES的Cypher API
GES官網幫助文檔上有GES Cypher的API,為了方便用戶調用,API設計為基於http/https請求,響應體的設計也相容的neo4j的json格式。這裡放置一下鏈接執行Cypher查詢。調用API時需要將Token輸入請求頭中進行鑒權,有關Token的獲取問題請參考業務面API認證鑒權。
本文會使用ges4jupyter工具腳本進行相關查詢的演示,該腳本中封裝了剛剛提到的鑒權&Cypher查詢API,並對結果進行了一些處理,提供了相關可視化的能力。
本文使用的代碼包
ges4jupyter是jupyter連接GES服務的工具文件。文件中封裝了使用 GES 查詢的預置條件,包括配置相關參數和對所調用 API 介面的封裝,如果你對這些不感興趣,可直接運行而不需要瞭解細節,這對理解後續具體查詢沒有影響。本文的所有語句請求都會訪問一個GES實例並得到實際的響應。
import moxing as mox mox.file.copy('obs://obs-aigallery-zc/GES/ges4jupyter/beta/ges4jupyter.py', 'ges4jupyter.py') mox.file.copy('obs://obs-aigallery-zc/GES/ges4jupyter/beta/ges4jupyter.html', 'ges4jupyter.html')
GESConfig的參數都是與調用 GES 服務有關的參數,依次為“公網訪問地址”、“項目ID”、“圖名”、“終端節點”、“IAM 用戶名”、“IAM 用戶密碼”、“IAM 用戶所屬賬戶名”、“所屬項目”,其獲取方式可參考調用 GES 服務業務面 API 相關參數的獲取。這裡通過read_csv_config方法從配置文件中讀取這些信息。如果沒有配置文件,可以根據自己的需要補充下列欄位。對於開啟了https安全模式的圖實例,參數port的值為443。
from ges4jupyter import GESConfig, GES4Jupyter, read_csv_config eip = '' project_id = '' graph_name = '' iam_url = '' user_name = '' password = '' domain_name = '' project_name = '' port = 80 eip, project_id, graph_name, iam_url, user_name, password, domain_name, project_name, port = read_csv_config('cn_north_4_graph.csv') config = GESConfig(eip, project_id, graph_name, iam_url = iam_url, user_name = user_name, password = password, domain_name = domain_name, project_name = project_name, port = port) ges_util = GES4Jupyter(config, True);
首先在GES中創建索引,這有利於後續查詢加速。
import time def wait_job_finish(util, job_id, max_loop): job_result = util.get_job(job_id) if 'errorCode' not in job_result: for i in range(max_loop): if job_result['status'] == 'success': break else: time.sleep(1) job_result = util.get_job(job_id) print(job_result) job_id = ges_util.build_vertex_index() wait_job_finish(ges_util, job_id, 100) job_id = ges_util.build_edge_index() wait_job_finish(ges_util, job_id, 100)
可以使用下列語句查看schema信息:
import time body = ges_util.generate_schema_structure() job_id = body["jobId"] print('開始構造schema結構:') wait_job_finish(ges_util, job_id, 100) print('schema結構構造完成') cypher_result = ges_util.cypher_query("call db.schema()",formats=['row','graph']); ges_util.format_cypher_result(cypher_result, candidate_title = ['description', 'name'])
如圖是本文使用的數據集的schema,主要包括下列類型的點邊:
使用子查詢
一般來說,使用Cypher查詢朋友的朋友是相對容易的,下列語句演示瞭如何查詢頂點p367朋友的朋友。
match (n)-[:KNOWS]->(a)-[:KNOWS]->(b) where id(n)='p367' return distinct b
然而,使用一般的Cypher語義,從朋友的朋友中移除所有的朋友,表達朋友推薦場景中的“朋友的朋友而非我的朋友”卻很困難。文章如何使用GES進行社交關係考據?—GES查詢能力介紹中,描述了一種常規的查詢語句寫法:
match (n)-[:KNOWS]->(a) where id(n)='p367' with n, collect(a) as neighbor match (n)-[:KNOWS]->(a)-[:KNOWS]->(b) where not (b in neighbor) return b
由於cypher的結果是使用行(Row)組織數據,所有的計算以“行”作為單元進行,如果要進行過濾,只能進行行內過濾。所以上述語句第一步,先通過collect(a),將“朋友”這個集合組織到了一行里,而後才能將collect(a)作為過濾條件,進行二次查詢。
將子查詢作為查詢條件
在GES 2.3.6版本,實現了子查詢能力,支持Neo4j中的SemiApply運算元,該運算元支持類似於下列語句的運行,使得查詢更為簡潔:
match (n) where id(n)='p367' match (n)-[:KNOWS*2..2]->(b) where not (n)-[:KNOWS]->(b) return id(b) limit 10 cypher_result = ges_util.cypher_query(""" match (n) where id(n)='p367' match (n)-[:KNOWS*2..2]->(b) where not (n)-[:KNOWS]->(b) return id(b) limit 10""",formats=['row','graph']); ges_util.format_cypher_result(cypher_result)
註意到這裡where條件後面跟從的不是一個一般的條件表達式,不是大於小於這樣的比較運算,在條件運算not後跟隨了一個圖模式(Graph Pattern),整個where條件表示“不存在從頂點n連向頂點b,且label為KNOWS的邊”。這樣的表達方式使得整條查詢語句看起來更為簡潔。
也可以使用explain查看其查詢計劃,可以看到是AntiSemiApply在發揮作用。這裡條件查詢主要包含兩個運算元:
- SemiApply: 用於支撐“where (n)-[:KNOWS]->(b)”這樣的條件,表示對應的查詢模式存在。
- AntiSemiApply:用於支撐“where not (n)-[:KNOWS]->(b)”這樣的條件,表示對應的查詢模式不存在。
這兩個運算元對每個左子樹生成的結果,都去檢查右子樹是否會/不會產生滿足條件的結果,並將右子樹的結果作為過濾條件,輔助左子樹的結果過濾。
通過這兩個運算元,即可實現簡單的條件子查詢。
cypher_result = ges_util.cypher_query("""explain match (n) where id(n)='p367' match (n)-[:KNOWS*2..2]->(b) where not (n)-[:KNOWS]->(b) return id(b) limit 10""",formats=['row','graph']); ges_util.format_cypher_result(cypher_result)
子查詢作為條件,也可以用來描述興趣推薦B場景:看小明有哪些朋友還沒有錄入興趣愛好,允許小明把自己的興趣愛好推薦給他們。
match (n:Person) where id(n)='p933' match (n)-[r]->(m) where not (m)-[:HAS_INTEREST]-() return id(m)
將子查詢作為中間結果
此外,還可以將子查詢作為中間結果,朋友推薦場景下,cypher語句還可以這麼寫:
match (n) where id(n)='p367' with [(n)-[:KNOWS*2..2]->(b)|id(b)] as hop2, [(n)-[:KNOWS]->(b)|id(b)] as hop1 return [x in hop2 where not x in hop1|x] limit 10
在這條查詢語句中,Graph Pattern出現在了with子句中,用於收集某個點的多跳結果。
另外採用類似的寫法還可以篩選三度好友中“我不認識的人”的數目,示例如下:
match (n) where id(n)='p367' with [(n)-[:KNOWS*3..3]->(b)|id(b)] as hop3, [(n)-[:KNOWS*1..2]->(b)|id(b)] as hop2 return size([x in hop3 where not x in hop2|x]) cypher_result = ges_util.cypher_query(""" match (n) where id(n)='p367' with [(n)-[:KNOWS*3..3]->(b)|id(b)] as hop3, [(n)-[:KNOWS*1..2]->(b)|id(b)] as hop2 return size([x in hop3 where not x in hop2|x])""",formats=['row','graph']); ges_util.format_cypher_result(cypher_result, boxHeight=200)
同時這種子查詢後續步驟也可以跟隨一些過濾條件,進行各類統計操作,如上述提到的潛在二度人脈分析:
match (n:Person) where id(n) in ['p367','p13194139534836','p932','p4398046512206','p6597069767359'] with n, [(n)-[:KNOWS*2..2]->(m) where not (n)-->(m)|m] as recSet return id(n) as key, size([x in recSet where x.gender='male']) as maleNumber, size([x in recSet where x.gender='female']) as femaleNumber cypher_result = ges_util.cypher_query(""" match (n:Person) where id(n) in ['p367','p13194139534836','p932','p4398046512206','p6597069767359'] with n, [(n)-[:KNOWS*2..2]->(m) where not (n)-->(m)|m] as recSet return id(n), size([x in recSet where x.gender='male']),size([x in recSet where x.gender='female']) """,formats=['row','graph']); ges_util.format_cypher_result(cypher_result, boxHeight=200)
下列元素出現在with子句中,描述了一個子查詢:
[(n)-[:KNOWS*2..2]->(m) where some-condition|m] as recSet
這裡會對每個遍歷到的n,都進行二跳查詢, 取二跳查詢的末端節點m,然後組裝成一個列表。
註意到where條件中,使用了剛剛提到的條件子查詢:
where not (n)-->(m)
這裡條件使用where條件,對子查詢的結果進行了過濾,且過濾時,是將一個Graph Pattern作為的過濾條件,最後使用豎線進行投影。
在return子句中,使用了Cypher中List Comprehension的語法,進行列表過濾,並獲取大小:
return id(n) as key, size([x in recSet where x.gender='male']) as maleNumber, size([x in recSet where x.gender='female']) as femaleNumber
支撐子查詢結果作為中間結果的,是RollUpApply運算元,可以通過explain看到其在查詢計劃中發揮價值:
cypher_result = ges_util.cypher_query("""explain match (n:Person) where id(n) in ['p367','p13194139534836','p932','p4398046512206','p6597069767359'] return n, [(n)-[:KNOWS*2..2]->(m) where not (n)-->(m)|m] as recSet""",formats=['row','graph']); ges_util.format_cypher_result(cypher_result, boxHeight=200)
對每個左子樹生成的結果(這裡是 (n:Person))都會作為變數輸入,並執行右子樹,將右子樹的結果打包返回為 list。
此外還可以限制子查詢的數目,對查詢進行 PerNodeLimit(單點跳出限制:每個點每層只能向外跳出限定個數的頂點)。
例如興趣推薦 A 場景中,看看小明的朋友有哪些興趣愛好(人 - INTEREST - 興趣),從每個朋友的興趣愛好中選取至多 N 個興趣愛好推薦給小明。
match (n:Person) where id(n)='p367' match (n)-[r]->(m) return [(m)-[:HAS_INTEREST]-(a)|a][0..3]
為了可視化演示效果,可視化時同步列印了“朋友”和“INTEREST”邊。
同樣的,也可以使用RollUpApply+Limit對每跳做PerNodeLimit,例如統計和小明的朋友有共同興趣愛好的朋友,每個頂點每跳最多找3個點,最後一跳每個點最多找1個點:
match (n:Person) where id(n)='p367' match (n)-[r]->(m) with m limit 3 with m,[(m)<-[r1:HAS_INTEREST]-(a)|a][0..3] as interests unwind interests as interest with interest, [(interest)-[r1:HAS_INTEREST]->(a) where not (a)--(m)|[r1,a]][0..1] as soulMate return *
其他子查詢
使用with也可以實現其他子查詢任務,例如上一跳的查詢結果經過limit限制後輸入下一跳,成為查詢條件:
match (n:Person) where id(n) in ['p367','p13194139534836','p932','p4398046512206','p6597069767359'] with n limit 10 match (m:Person{lastName:n.lastName}) return n.lastName, m.firstName
使用explain也可以看到其查詢計劃:
cypher_result = ges_util.cypher_query("""explain match (n:Person) where id(n) in ['p367','p13194139534836','p932','p4398046512206','p6597069767359'] with n limit 10 match (m:Person{lastName:n.lastName}) return n.lastName, m.firstName""",formats=['row','graph']); ges_util.format_cypher_result(cypher_result)
由於不同的n,其n.lastName的值是不固定的,所以需要針對每個n,去做match (m:Person{lastName:n.lastName})
這樣的查詢,因此需要使用Apply子查詢運算元支撐這樣的語句。
總結藉助子查詢進行局部遍歷是圖查詢中的常用操作,將子查詢作為過濾條件或者中間結果輔助查詢,可以滿足某些業務場景下對查詢局部有限制的訴求,
如文中提到的社交網路分析,再如股權關係中穿透層數分析、裝備製造和配置管理(IT設備管理)領域依賴識別和變更影響分析等。
此外,由於Cypher以行的形式組織數據,某些情況下使用子查詢可以節省中間結果產生,加速Cypher查詢的執行。
當然,使用更高效的API(如GES產品中有多跳過濾API)或者使用非行存的查詢執行引擎也是可選的解決方案。