圖資料庫初試之Neo4j 自從進入了移動互聯網時代,各種新事物出現的速度都好像坐上了宇宙飛船,幾乎隔幾天一個新概念。就拿資料庫而言,什麼Oracle、DB2、SQL Server、MySQL,這些你都得知道,然後是以MongoDB、HBase等為代表的NoSQL資料庫,這幾年圖資料庫也很快流行起來, ...
圖資料庫初試之Neo4j
自從進入了移動互聯網時代,各種新事物出現的速度都好像坐上了宇宙飛船,幾乎隔幾天一個新概念。就拿資料庫而言,什麼Oracle、DB2、SQL Server、MySQL,這些你都得知道,然後是以MongoDB、HBase等為代表的NoSQL資料庫,這幾年圖資料庫也很快流行起來,它是如此的熱門,以至於不趕緊學學好像沒法跟大家交流了一般,雖然它也屬於NoSQL。
練習完本文,大概需要20分鐘。
基本概念
圖資料庫,這是一個很容易被誤解的概念,好多人都下意識的以為,這是存儲圖片的資料庫,其實不然。
傳統的關係型資料庫數據模型就是二維表,存儲時每一條記錄按行存儲;到了NoSQL,有些存儲的是文檔,如MongoDB中,有些存儲的鍵值對,如Redis,而圖資料庫,存儲的則是點邊關係。
所謂圖,回想離散數學、數據結構之類的基礎課,會想起它的定義,G = (V, E)
,簡單來說,一個圖有兩個必要的組成要素,點集合和邊集合,點的集合是為點集,點之間的連接關係構成了邊集。典型的比如社交網路,每一個人都可以看成一個點,而他們之間的朋友關係,則可以看成是邊。
為什麼說圖資料庫這幾年很熱門,一個很重要的原因可能是,單一數據中的規律已經有太多的模型和演算法可以處理了,而好多隱藏的規律,則蘊含在數據之間的連接中。拿一個欺詐檢測中最典型的例子來說,好多不法分子申請信用卡,一個典型的特點是,他們會填寫好多相同的地址和電話,如果單純地分析信用卡申請單,很難判斷他們是否欺詐,但如果利用圖資料庫,以申請人和地址作為點,以擁有某通信地址為邊構建圖,則很容易發現欺詐。(大家不要鑽牛角尖啊,我只是舉例說用圖資料庫很容易發現這種欺詐模式,並沒有說你不能用其他的技術發現。)
還有一個傳統關係型資料庫和其他NoSQL資料庫致命的弱點是,在一個圖(也有的資料叫網路,這兩者的區別以後有機會再解釋)中,尋找二度及以上的關係,效率非常低。相比大家都聽說過“小世界”理論,也就是說,世界上的任何兩個人之間,只需要6個人就可以建立聯繫,也叫六度分割理論,這隻是個假說,後來有研究人員研究過Facebook等的數據發現,真實的值,比6還要小,大概在4左右,不得不感嘆,這個世界真小!言歸正傳,要想用關係型資料庫尋找6度關係,大家想想那個計算量,簡直大得驚人,而使用圖資料庫,則簡單地多,因為它存儲的就是點邊關係,尋找幾度關係這類為題,不過是圖的遍歷而已!
安裝
一般這種新興軟體的安裝都很簡單,本文以macOS為例,其他平臺請參考官方文檔。
使用安裝文件安裝
訪問https://neo4j.com/download/
,選擇For Individuals
(Community版,免費),下載相應平臺的安裝文件即可。
使用HomeBrew安裝
使用HomeBrew安裝同樣非常簡單
$ brew install neo4j
使用如下命令啟動
$ brew services neo4j start
啟動後,打開瀏覽器,訪問http://localhost:7474
,即可看到Neo4j的web console,官方稱之為Neo4j Browser
。使用neo4j/neo4j
分別作為用戶名和密碼。登錄後會要求你更改用戶名和密碼
NOTE
萬一遺忘密碼,可以到Neo4j的數據目錄下,刪除<Neo4j_database_location>/data/dbms/auth
,這樣下次登錄時會重置密碼。
界面探索
啟動後界面類似下圖所示,做出的的邊欄我點開了,右側上方的命令條很重要,接下來的命令都要在此輸入,整個界面還是比較易用的。
接下來介紹Cypher語句,這可謂是Neo4j的關鍵。
Cypher語句
Cypher
語句是Neo4j的圖查詢語言。以下例子來自Neo4j Browser
,啟動後在命令欄輸入:play cypher
即可,可以參照例子進行學習,也可以參考本文練習。
CREATE
在上方命令條中輸入如下語句
CREATE (ee:Person { name: "Emil", from: "Sweden", klout: 99 })
CREATE
是創建記錄的關鍵詞;()
指定一個節點;ee:Person
,ee是一個變數,Person是一個Label;{}
為節點添加屬性
結果如下圖
MATCH
MATCH關鍵詞可以用於進行模式匹配(Pattern Matching),例如查找節點或者關係
MATCH (ee:Person) WHERE ee.name = "Emil" RETURN ee;
MATCH
節點或關係的匹配模式,類似SQL中的select;(ee:Person)
一個Label為Person的單節點模式,匹配到的結果將賦值給變數ee;WHERE
對結果的約束,類似SQL中的where語句;ee.name = "Emil"
ee的屬性name是Emil;RETURN
請求特定結果。
MATCH語句不僅可以用於查詢節點,還可以用於查詢關係,例如如下的語句
MATCH (ee:Person)-[:KNOWS]-(friends)
WHERE ee.name = "Emil" RETURN ee, friends
在上面這條語句中
MATCH
語句描述了從已知節點到待尋找節點的模式;(ee)
是一個指代已知節點的變數;-[:KNOWS]-
匹配了KNOWS的關係(雙向匹配);(friends)
包含所有Emil的朋友
複合語句
除了上面這種簡單的CREATE語句,還可以組合其他關鍵詞添加更複雜的記錄,我暫且叫它複合語句吧。
在上方命令條中輸入如下語句
MATCH (ee:Person) WHERE ee.name = "Emil"
CREATE (js:Person { name: "Johan", from: "Sweden", learn: "surfing" }),
(ir:Person { name: "Ian", from: "England", title: "author" }),
(rvb:Person { name: "Rik", from: "Belgium", pet: "Orval" }),
(ally:Person { name: "Allison", from: "California", hobby: "surfing" }),
(ee)-[:KNOWS {since: 2001}]->(js),(ee)-[:KNOWS {rating: 5}]->(ir),
(js)-[:KNOWS]->(ir),(js)-[:KNOWS]->(rvb),
(ir)-[:KNOWS]->(js),(ir)-[:KNOWS]->(ally),
(rvb)-[:KNOWS]->(ally)
執行結果顯示Added 4 labels, created 4 nodes, set 14 properties, created 7 relationships, completed after 13 ms.
分析Cypher語句
使用PROFILE
或EXPLAIN
可以用於分析Cypher語句,加深對查詢的理解
PROFILE MATCH (js:Person)-[:KNOWS]-()-[:KNOWS]-(surfer)
WHERE js.name = "Johan" AND surfer.hobby = "surfing"
RETURN DISTINCT surfer
使用Cypher語句進行推薦
模式匹配還能用來進行推薦。例如Johan正在學習衝浪,他想尋找一個新的已經在學習衝浪的朋友
MATCH (js:Person)-[:KNOWS]-()-[:KNOWS]-(surfer)
WHERE js.name = "Johan" AND surfer.hobby = "surfing"
RETURN DISTINCT surfer
可以從結果看到,該語句找到一個Johan的朋友Alison
小結
短短二三十分鐘,相信你已經大概瞭解了Neo4j,接下來還會介紹更加深入的例子,結合客戶端驅動(如Python)操作Neo4j,同時還會在後期結合一個具體的例子講解Neo4j,感興趣的歡迎關註哦。同時,大家也可以掃描二維碼關註我的微信公眾號哦。