圖資料庫和圖計算系統有什麼區別?

来源:https://www.cnblogs.com/fmablogs/archive/2019/07/24/11238540.html
-Advertisement-
Play Games

對於廣大剛剛接觸“圖數據分析”的用戶而言,一個十分具有迷惑性的問題是:圖資料庫和圖計算系統有什麼區別?今天,我們就從技術層面來簡單地說一說兩者的不同之處。 圖資料庫適合需要對子圖進行併發操作的場景;圖計算系統適合需要對全圖進行迭代式計算的場景。 圖計算系統 我們先從圖計算系統開始。 圖計算系統面向的 ...


對於廣大剛剛接觸“圖數據分析”的用戶而言,一個十分具有迷惑性的問題是:圖資料庫和圖計算系統有什麼區別?今天,我們就從技術層面來簡單地說一說兩者的不同之處。 

 

圖資料庫適合需要對子圖進行併發操作的場景;圖計算系統適合需要對全圖進行迭代式計算的場景。

 

圖計算系統

 

我們先從圖計算系統開始。

 

圖計算系統面向的場景主要是全圖分析類的任務,例如:計算每個頂點的PageRank;計算從某(幾)個頂點出發到其它所有頂點的最短路徑;獲悉整個圖包含了哪些連通分量;發現圖中包含的社區等等。這些任務背後的演算法需要對整個圖進行迭代式的處理,而計算過程中我們需要在每個頂點上維護一些狀態(變數),根據邊向鄰居頂點傳遞消息,並依據收到的消息再更新頂點的狀態。

 

由於這些計算面向的通常是靜態的拓撲結構,因此圖計算系統一般都會使用緊湊的表示方法來管理圖數據,例如使用稀疏矩陣表示中常見的CSR/CSC(Compressed Sparse Row/Column)等格式。這樣做的優勢很明顯:減少了讀取時需要訪問的數據量,且不必/不太需要考慮併發修改拓撲結構引入的開銷。誠然,這樣做會導致一個顯著的缺陷:無法/只能以高昂的代價來修改圖的拓撲結構。幸運的是,我們已知的大多數圖計算問題都不需要或者可以通過其它方式來避免修改圖的拓撲結構[1]

 [1]儘管有些分析過程如強連通分量、最小生成樹等,會在計算過程中刪除某些頂點/邊,但是這類操作可以通過標記的方式來提示相應對象的刪除,而無需真的修改圖的拓撲結構。

 

靜態的拓撲結構使得我們可以應用很多技術來優化圖計算的過程:例如,將一個大圖劃分成若幹較小的子圖並分配給不同的計算單元(節點/處理器/核/線程)進行並行處理;根據每一輪迭代的特點使用不同的方式來驅動計算/通信過程等等。當然,可選的技術細節較多也意味著最終的系統可能由於任何一個環節的拖累導致糟糕的性能;甚至很多原本的優化沒有產生良好的化學反應反倒變成了弱化[2]

[2]圖的劃分就是一個簡單的例子:複雜的劃分策略有可能減少分散式計算過程中的通信量,但是帶來的代價是高昂的預處理開銷以及頂點映射表的維護和頻繁使用。PandaGraph使用的塊式劃分十分簡單,卻能有效地避免這些不必要的開銷。

 

圖資料庫

 

圖資料庫的主要職能是管理圖數據,因此需要支持高效的對頂點/邊的查詢與更新;為了方便用戶的使用,通常還需要增加對事務(transaction)的支持,從而保證併發操作下的正常運作。

 

持久化是所有資料庫的立足之本。由於圖的拓撲結構以及頂點/邊上依附的屬性數據可能會不斷發生改變,因此圖資料庫就不適合使用CSR/CSC之類的表示方法來管理圖數據了:即使它們的讀取效率非常高,但是寫入效率實在太低了(即使只修改一條邊,最壞情況下也可能需要改寫整個圖的數據)。因此,圖資料庫需要採用讀/寫效率更均衡的存儲結構,例如B+樹、LSM樹、鏈表、哈希表等。儘管這麼做會使得讀取效率在所難免地有一定下降,但換來的是高效得多的寫入性能。

 

基於使用的存儲結構,我們還需要在此之上構建完善的併發控制機制來管理對圖中頂點/邊的併發訪問。這使得我們不得不在每次操作中存儲一部分額外的信息(例如樂觀併發控制需要的讀寫集、多版本併發控制產生的多份數據)或是觸及一些需要競爭的資源(例如悲觀併發控制中的鎖),而這些都會或多或少地在訪問圖資料庫中的數據對象時引入一定開銷。

 

在圖資料庫中進行的分析通常都只涉及一小部分子圖的數據,例如從一個頂點出發找所有的幾度內鄰居,或是給定兩個頂點找出它們之間限定距離的最短路徑等等。這些任務都很輕量級,且可能會同時有大量請求併發進入系統。因此,使用單個線程處理單個任務是比較常見的做法,這樣能夠獲得更高的吞吐率,且避免了由並行處理的調度/同步引發的開銷[3]。這與圖計算系統對每個任務都使用並行處理的方式形成了鮮明的對比。又由於每個任務的處理時間可能很短,因此其它部分的開銷例如客戶端與伺服器端之間的通信效率等等也會變得十分重要(例如Restful的介面在有些場景下就會變成瓶頸)。

[3]隨著圖數據的增大,以及涉及子圖區域的增大,這類輕量級任務也會逐漸變得重量級,此時,使用並行處理的方式減少延遲也是十分重要的。LightGraph提供了對單個只讀事務進行並行處理的能力;對於時間消耗過長的任務,用戶也可以通過相應介面提前中止。

 

總結

 

圖計算系統面向的任務通常具有更高的複雜度,需要對整個圖進行反覆的訪問來完成計算;而圖資料庫,無論是更新還是分析,通常都只涉及一部分子圖的數據,且單個任務一般只需訪問一遍即可。因此,圖計算系統通常採用不可變(immutable)的數據佈局,使得讀取效率可以最大化,但是需要更精細地安排和組織並行的處理過程;圖資料庫則不得不選擇讀/寫性能更均衡的存儲方式來管理數據,並從併發控制、訪問介面等眾多角度儘可能地減少系統設計和實現引入的開銷。

從上面的架構圖可以看到,費馬科技的圖資料庫產品LightGraph和圖計算系統PandaGraph從底層的存儲、使用的技術優化方向到上層的用戶介面、提供的應用和工具等都有十分明顯的區別。在實際場景中,很多情況下同時需要圖資料庫和圖計算系統,依靠兩者的良好交互才能達到最佳效果。

 

目前,一些同類競品公司會在宣傳時對圖資料庫及圖計算系統進行混淆,增加了用戶選擇的難度,從而沒有定位到最優的產品。瞭解這些不僅能讓我們對圖計算和圖資料庫更好的應用,而且可以更精確地根據實際需求尋找到更契合的產品。

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • select hou.name, vendor_name from po_vendor_sites_all pvs, ap_suppliers ass, hr_operating_units hou where pvs.auto_tax_calc_flag = 'N' and pvs.vendor_ ...
  • 下麵這個問題反正我是遇到了,也是難為我好幾天,於是我決定發一個教程出來給大家看看!希望能幫助你們 原因: 可能是資料庫的版本與本機裝的驅動不匹配導致的, 解決方案一: 在 url 後面街上一句 因為筆者親自測試 可以解決 解決方案二: 重新安裝驅動可以解決: ...
  • 近年來,隨著大數據技術的發展,企業紛紛意識到大數據的重要性,也被廣泛應用於各行各業。同時,大數據行業前景好、薪資高的優勢,也吸引了眾多對大數據感興趣的學習者,無論是剛畢業的大學生,還是準備轉型尋求新機會的職場人。 ...
  • 學資料庫的人都知道,MySQL資料庫是比較基本的掌握要求,不僅開源而且社區版本是免費使用的。由於工作上或者經常更換系統的原因,有時候會需要安裝MySQL資料庫。為了不至於每次安裝都要查閱資料,現把安裝過程以及出現的問題總結出來: 1.官網下載最新版本MySQL,這裡下載的是解壓版的。MySQL官網鏈 ...
  • 今天遇到了,隨手記錄一下。 sql server 存儲數據裡面 NVARCHAR 記錄中文的時候是 一個中文對應一個字元串長度,記錄英文也是一個字母一個長度 標點符號也是一樣。 VARCHAR 記錄中文的時候一個中文對應兩個字元串長度,記錄英文是一個字母長度,標點符號空格的沒測。 優缺點暫時不列,記 ...
  • Redis部分 ...
  • "Hadoop集群搭建 05安裝配置YARN" "Hadoop集群搭建 04安裝配置HDFS " "Hadoop集群搭建 03編譯安裝hadoop" "Hadoop集群搭建 02安裝配置Zookeeper" "Hadoop集群搭建 01前期準備" 整個搭建hadoop集群的流程,包括 1. 前期準備 ...
  • MySQL部分 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...