索引原理 倒排索引 倒排索引(Inverted Index)也叫反向索引,有反向索引必有正向索引。通俗地來講,正向索引是通過key找value,反向索引則是通過value找key。ES底層在檢索時底層使用的就是倒排索引。 索引模型 現有索引和映射如下: { "products" : { "mappi ...
索引原理
倒排索引
倒排索引(Inverted Index)
也叫反向索引,有反向索引必有正向索引。通俗地來講,正向索引是通過key找value,反向索引則是通過value找key。ES底層在檢索時底層使用的就是倒排索引。
索引模型
現有索引和映射如下:
{
"products" : {
"mappings" : {
"properties" : {
"description" : {
"type" : "text"
},
"price" : {
"type" : "float"
},
"title" : {
"type" : "keyword"
}
}
}
}
}
先錄入如下數據,有三個欄位title、price、description等
_id | title | price | description |
---|---|---|---|
1 | 藍月亮洗衣液 | 19.9 |
藍月亮洗衣液很 高效 |
2 | iphone13 | 19.9 |
很 不錯的手機 |
3 | 小浣熊乾脆面 | 1.5 | 小浣熊很 好吃 |
在ES中除了text類型分詞,其他類型不分詞,因此根據不同欄位創建索引如下:
-
title欄位:
term _id(文檔id) 藍月亮洗衣液 1 iphone13 2 小浣熊乾脆面 3 -
price欄位
term _id(文檔id) 19.9 [1,2] 1.5 3 -
description欄位
term _id term _id term _id 藍 1 不 2 小 3 月 1 錯 2 浣 3 亮 1 的 2 熊 3 洗 1 手 2 好 3 衣 1 機 2 吃 3 液 1 很 [1:1:9,2:1:6,3:1:6] 高 1 效 1
註意: Elasticsearch分別為每個欄位都建立了一個倒排索引。因此查詢時查詢欄位的term,就能知道文檔ID,就能快速找到文檔。
數據寫入流程
-
先寫入buffer,在buffer里的時候數據是搜索不到的;同時將數據寫入translog日誌文件
-
如果buffer快滿了,或者到一定時間,就會將buffer數據refresh到一個新的segment file中,但是此時數據不是直接進入segment file的磁碟文件的,而是先進入os cache的。這個過程就是refresh。為什麼叫es是準實時的?NRT,near real-time,準實時。預設是每隔1秒refresh一次的,所以es是準實時的,因為寫入的數據1秒之後才能被看到。
-
只要數據進入os cache,此時就可以讓這個segment file的數據對外提供搜索了 -
重覆1~3步驟,新的數據不斷進入buffer和translog,不斷將buffer數據寫入一個又一個新的segment file中去,每次refresh完buffer清空,translog保留。隨著這個過程推進,translog會變得越來越大。當translog達到一定長度的時候,就會觸發mit操作。 -
mit操作發生第一步,就是將buffer中現有數據refresh到os cache中去,清空buffer
-
將一個mit point寫入磁碟文件,裡面標識著這個mit point對應的所有segment file
-
強行將os cache中目前所有的數據都fsync到磁碟文件中
-
將現有的translog清空,然後再次重啟啟用一個translog,此時mit操作完成。預設每隔30分鐘會自動執行一次mit,但是如果translog過大,也會觸發mit。整個mit的過程,叫做flush操作。我們可以手動執行flush操作,就是將所有os cache數據刷到磁碟文件中去。 es中的flush操作,就對應著mit的全過程。我們也可以通過es api,手動執行flush操作,手動將os cache中的數據fsync強刷到磁碟上去,記錄一個mit point,清空translog日誌文件。 -
translog其實也是先寫入os cache的,預設每隔5秒刷一次到磁碟中去,所以預設情況下,可能有5秒的數據會僅僅停留在buffer或者translog文件的os cache中,如果此時機器掛了,會丟失5秒鐘的數據。但是這樣性能比較好,最多丟5秒的數據。也可以將translog設置成每次寫操作必須是直接fsync到磁碟,但是性能會差很多。 -
如果是刪除操作,mit的時候會生成一個.del文件,裡面將某個doc標識為deleted狀態,那麼搜索的時候根據.del文件就知道這個doc被刪除了
-
如果是更新操作,就是將原來的doc標識為deleted狀態,然後新寫入一條數據
-
buffer每次refresh一次,就會產生一個segment file,所以預設情況下是1秒鐘一個segment file,segment file會越來越多,此時會定期執行merge
-
每次merge的時候,會將多個segment file合併成一個,同時這裡會將標識為deleted的doc給物理刪除掉,然後將新的segment file寫入磁碟,這裡會寫一個mit point,標識所有新的segment file,然後打開segment file供搜索使用,同時刪除舊的segment file。
es里的寫流程,有4個底層的核心概念,refresh、flush、translog、merge
當segment file多到一定程度的時候,es就會自動觸發merge操作,將多個segment file給merge成一個segment file。
數據查詢流程
-
客戶端發送請求到任意一個node,成為coordinate node
-
coordinate node對document進行路由,將請求轉發到對應的node,此時會使用round-robin隨機輪詢演算法,在primary shard以及其所有replica中隨機選擇一個,讓讀請求負載均衡
-
接收請求的node返回document給coordinate node
-
coordinate node返回document給客戶端
作者|悅@arcstack
本文來自博客園,作者:古道輕風,轉載請註明原文鏈接:https://www.cnblogs.com/88223100/p/ElasticSearch-Series---Indexing-Principles-and-Data-Reading-and-Writing-Processes.html