Neo4j是一個高性能的開源的,使用Java語言實現的NoSQL圖資料庫,它將結構化數據存儲在網路上而不是表中。它是一個嵌入式的、基於磁碟的、具備完全的事務特性的Java持久化引擎,但是它將結構化數據存儲在網路(從數學角度叫做圖)上而不是表中。 ...
Neo4j是一個高性能的開源的,使用Java語言實現的NoSQL圖資料庫,它將結構化數據存儲在網路上而不是表中。它是一個嵌入式的、基於磁碟的、具備完全的事務特性的Java持久化引擎,但是它將結構化數據存儲在網路(從數學角度叫做圖)上而不是表中。Neo4j也可以被看作是一個高性能的圖引擎,該引擎具有成熟資料庫的所有特性。現實中很多數據都是用圖來表達的,比如社交網路中人與人的關係、地圖數據、或是基因信息等等。RDBMS並不適合表達這類數據,而且由於海量數據的存在,讓其顯得捉襟見肘。NoSQL資料庫的興起,很好地解決了海量數據的存放問題,圖資料庫也是NoSQL的一個分支,相比於NoSQL中的其他分支,它很適合用來原生表達圖結構的數據。圖資料庫存儲的結構就如同電腦科學中的數據結構中所論述的圖,由頂點和邊組成。
Neo4j適用於圖形一類數據,例如:社會關係,公共交通網路,地圖及網路拓撲。Neo4j併為此專門進行了演算法優化,也開發了相關的查詢語言。這是Neo4j與其他NoSQL資料庫的最顯著區別。Neo4j不適用於:
◆記錄大量基於事件的數據(例如日誌條目或感測器數據)
◆對大規模分散式數據進行處理,類似於Hadoop
◆二進位數據存儲
◆適合於保存在關係型資料庫中的結構化數據
Neo4j提供了免費的社區版本,在數據量不大的情況下,可以用於開發。大規模部署與應用建議購買企業版。在ubuntu bionic下的安裝過程如下所示:
wget -O - https://debian.neo4j.com/neotechnology.gpg.key | sudo apt-key add - echo 'deb https://debian.neo4j.com stable latest' | sudo tee /etc/apt/sources.list.d/neo4j.list sudo apt-get update # 安裝社區版本 sudo apt-get install -y neo4j # 安裝企業版本 sudo apt-get install -y neo4j-enterprise systemctl status neo4j systemctl start neo4j systemctl enable neo4j # 直接在本地檢測是否安裝成功 curl http://localhost:7474/
同樣的,預設情況下是只接受本地訪問要求,可以編輯/etc/neo4j/neo4j.conf文件增加"dbms.default_listen_address=0.0.0.0"這一行,隨後重新啟動服務即可遠程訪問:
sed -i '$adbms.default_listen_address=0.0.0.0' /etc/neo4j/neo4j.conf systemctl restart neo4j
以上使用sed命令增加了綁定地址,隨後使用主流的瀏覽器(Edge,firefox,chrome)就可以訪問資料庫,如下圖所示:
第一次訪問時的預設用戶名與口令均是Neo4j,登錄後需要修改。隨後就進入到工作界面如下:
也可以使用傳統的資料庫客戶端如DBeaver來訪問Neo4j資料庫。此時的連接屬性設置如下圖所示:
與SQL類似,Neo4j推出了專用於圖的聲明性文本查詢語言Cypher。Cypher包含語句、關鍵詞和表達式,比如謂詞、函數等,其中很多大家都很熟悉(如WHERE,ORDER BY,SKIP LIMIT,AND,p.unitPrice > 10)。與SQL不同,Cypher完全是表達圖模式的。添加了一個特殊子句MATCH來匹配數據中的這些模式。使用圓括弧表示節點實體的圓,比如:(p:Product)。而關係的箭頭使用-->來表達。Cypher語言在其它方面的重點是圖概念,例如路徑、可變長度路徑、最短路徑函數;列表上許多功能,操作和謂詞的支持以及鏈接查詢的功能。使用Cypher可以更新圖結構和數據,甚至導入大量的CSV數據。通過用戶定義的過程能夠擴展語言。通過openCypher項目,Cypher已經成為一種現代圖查詢語言的開放標準,並且得到了多家資料庫公司的支持。其語法可以參考[語法卡](https://neo4j.com/docs/cypher-refcard/current/)。
可以通過多種方式來訪問Neo4j資料庫:
◆ 使用命令行工具如Cypher shell等
◆使用主流的瀏覽器訪問,Neo4j稱為Neo4j browser
◆其它第三方工具軟體
模仿movie graph,我們建立一個中文的圖資料庫。相關創建內容如下:
CREATE (Jiangshuying:Person {name:'江疏影', born:1986}) CREATE (胡哥:Person {name:'胡哥', born:1982}) CREATE (Jindong:Person {name:'靳東', born:1976}) CREATE (萬莤:Person {name:'萬莤', born:1982}) CREATE (Gentlemen:Teleplay {title:"戀愛先生", released:2017}) CREATE (NothingButThirty:Teleplay {title:'三十而已', released:2020}) CREATE (外科風雲:Teleplay {title:'外科風雲', released:2017}) CREATE (偽裝者:Teleplay {title:'偽裝者', released:2015}) CREATE (好先生:Teleplay {title:'好先生', released:2016}) CREATE (縣委大院:Teleplay {title:'縣委大院', released:2022}) CREATE (Jiangshuying)-[:ACTED_IN {roles:['江萊']}]->(好先生) CREATE (Jiangshuying)-[:ACTED_IN {roles:['羅鑰']}]->(Gentlemen) CREATE (Jiangshuying)-[:ACTED_IN {roles:['王漫妮']}]->(NothingButThirty) CREATE (Jindong)-[:ACTED_IN {roles:['莊恕']}]->(外科風雲) CREATE (Jindong)-[:ACTED_IN {roles:['明樓']}]->(偽裝者) CREATE (Jindong)-[:ACTED_IN {roles:['Boss']}]->(Gentlemen) CREATE (胡哥)-[:ACTED_IN {roles:['明台']}]->(偽裝者) CREATE (胡哥)-[:ACTED_IN {roles:['梅曉哥']}]->(縣委大院) CREATE (萬莤)-[:ACTED_IN {roles:['徐麗']}]->(好先生)
此時形成的知識圖譜如下所示:
由此可見Neo4j對中文的支持非常好,可以混合用中英文來建立自己的知識圖譜。下麵的代碼顯示了,尋找萬莤與胡哥間相互認識的最短路徑。
match p=shortestpath((:Person {name:'江疏影'})-[*]-(:Person {name:'胡哥'})) return p
查詢結果如下圖所示:
當然這隻是一個示例,因為並沒有真正梳理每個人的關係,僅僅是從現有的知識中計算出來的。對於知識圖譜來說,信息越充分,威力越巨大。
需要註意的是,以上命令必須一次性輸入執行完成,否則就會出現看起來是一樣的節點,但Neo4j會認為是不同的對象,從而形成意料之外的節點與關係。
Python操作知識圖譜
安裝了Py2neo就可以使用Python操作Neo4j了。我們也就可以線上處理大規模的數據,實現知識圖譜的自動構建了。安裝方法非常簡單,直接在cmd中輸入下列命令即可:
pip install py2neo
以下代碼創建了一個極簡的知識圖譜,如下圖所示:
示例代碼如下所示:
from py2neo import Node, Relationship, Graph, NodeMatcher, RelationshipMatcher # 遠端NEO4J伺服器 test_graph = Graph('http://172.20.103.169:7474',auth=('neo4j','88488848')) A = Node("員工", name="張三", PID = 100) B = Node("員工", name="李四", PID = 100) C = Node("公司", name="西安衍輿", CID = 99) test_graph.create(A) test_graph.create(B) test_graph.create(C) test_graph.create(Relationship(A, "工作於", C)) test_graph.create(Relationship(B, "工作於", C)) print(test_graph.nodes.match('員工').all())
從圖中可以看出,Neo4j對於中文的支持是非常好的。能夠以非常符合中文習慣的方式寫出相關知識。真正能夠實用的知識圖譜必須是日積月累的過程,有了稱手的工具後,知識本身的正確性才是重點。