ElasticSearch系列-索引原理與數據讀寫流程

-Advertisement-

索引原理倒排索引倒排索引（Inverted Index）也叫反向索引，有反向索引必有正向索引。通俗地來講，正向索引是通過key找value，反向索引則是通過value找key。ES底層在檢索時底層使用的就是倒排索引。索引模型現有索引和映射如下: { "products" : { "mappi ...

索引原理

倒排索引

倒排索引（Inverted Index）也叫反向索引，有反向索引必有正向索引。通俗地來講，正向索引是通過key找value，反向索引則是通過value找key。ES底層在檢索時底層使用的就是倒排索引。

索引模型

現有索引和映射如下:

{
  "products" : {
    "mappings" : {
      "properties" : {
        "description" : {
          "type" : "text"
        },
        "price" : {
          "type" : "float"
        },
        "title" : {
          "type" : "keyword"
        }
      }
    }
  }
}

先錄入如下數據，有三個欄位title、price、description等

_id	title	price	description
1	藍月亮洗衣液	`19.9`	藍月亮洗衣液`很`高效
2	iphone13	`19.9`	`很`不錯的手機
3	小浣熊乾脆面	1.5	小浣熊`很`好吃

在ES中除了text類型分詞，其他類型不分詞，因此根據不同欄位創建索引如下：

title欄位:

term _id(文檔id)

藍月亮洗衣液 1

iphone13 2

小浣熊乾脆面 3
price欄位

term _id(文檔id)

19.9 [1,2]

1.5 3

term	_id(文檔id)
藍月亮洗衣液	1
iphone13	2
小浣熊乾脆面	3

term	_id(文檔id)
19.9	[1,2]
1.5	3

description欄位

term	_id	term	_id	term	_id
藍	1	不	2	小	3
月	1	錯	2	浣	3
亮	1	的	2	熊	3
洗	1	手	2	好	3
衣	1	機	2	吃	3
液	1
很	[1:1:9,2:1:6,3:1:6]
高	1
效	1

註意: Elasticsearch分別為每個欄位都建立了一個倒排索引。因此查詢時查詢欄位的term,就能知道文檔ID，就能快速找到文檔。

數據寫入流程

先寫入buffer，在buffer里的時候數據是搜索不到的；同時將數據寫入translog日誌文件
如果buffer快滿了，或者到一定時間，就會將buffer數據refresh到一個新的segment file中，但是此時數據不是直接進入segment file的磁碟文件的，而是先進入os cache的。這個過程就是refresh。為什麼叫es是準實時的？NRT，near real-time，準實時。預設是每隔1秒refresh一次的，所以es是準實時的，因為寫入的數據1秒之後才能被看到。
只要數據進入os cache，此時就可以讓這個segment file的數據對外提供搜索了
重覆1~3步驟，新的數據不斷進入buffer和translog，不斷將buffer數據寫入一個又一個新的segment file中去，每次refresh完buffer清空，translog保留。隨著這個過程推進，translog會變得越來越大。當translog達到一定長度的時候，就會觸發mit操作。
mit操作發生第一步，就是將buffer中現有數據refresh到os cache中去，清空buffer
將一個mit point寫入磁碟文件，裡面標識著這個mit point對應的所有segment file
強行將os cache中目前所有的數據都fsync到磁碟文件中
將現有的translog清空，然後再次重啟啟用一個translog，此時mit操作完成。預設每隔30分鐘會自動執行一次mit，但是如果translog過大，也會觸發mit。整個mit的過程，叫做flush操作。我們可以手動執行flush操作，就是將所有os cache數據刷到磁碟文件中去。

es中的flush操作，就對應著mit的全過程。我們也可以通過es api，手動執行flush操作，手動將os cache中的數據fsync強刷到磁碟上去，記錄一個mit point，清空translog日誌文件。
translog其實也是先寫入os cache的，預設每隔5秒刷一次到磁碟中去，所以預設情況下，可能有5秒的數據會僅僅停留在buffer或者translog文件的os cache中，如果此時機器掛了，會丟失5秒鐘的數據。但是這樣性能比較好，最多丟5秒的數據。也可以將translog設置成每次寫操作必須是直接fsync到磁碟，但是性能會差很多。
如果是刪除操作，mit的時候會生成一個.del文件，裡面將某個doc標識為deleted狀態，那麼搜索的時候根據.del文件就知道這個doc被刪除了
如果是更新操作，就是將原來的doc標識為deleted狀態，然後新寫入一條數據
buffer每次refresh一次，就會產生一個segment file，所以預設情況下是1秒鐘一個segment file，segment file會越來越多，此時會定期執行merge
每次merge的時候，會將多個segment file合併成一個，同時這裡會將標識為deleted的doc給物理刪除掉，然後將新的segment file寫入磁碟，這裡會寫一個mit point，標識所有新的segment file，然後打開segment file供搜索使用，同時刪除舊的segment file。

es里的寫流程，有4個底層的核心概念，refresh、flush、translog、merge

當segment file多到一定程度的時候，es就會自動觸發merge操作，將多個segment file給merge成一個segment file。

數據查詢流程

客戶端發送請求到任意一個node，成為coordinate node
coordinate node對document進行路由，將請求轉發到對應的node，此時會使用round-robin隨機輪詢演算法，在primary shard以及其所有replica中隨機選擇一個，讓讀請求負載均衡
接收請求的node返回document給coordinate node
coordinate node返回document給客戶端

作者|悅@arcstack

本文來自博客園，作者：古道輕風，轉載請註明原文鏈接：https://www.cnblogs.com/88223100/p/ElasticSearch-Series---Indexing-Principles-and-Data-Reading-and-Writing-Processes.html

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

用go封裝一下二級認證功能

本篇為[用go設計開發一個自己的輕量級登錄庫/框架吧 - 秋玻 - 博客園 (cnblogs.com)]的二級認證業務篇，會講講二級認證業務的實現，給庫/框架增加新的功能。源碼：https://github.com/weloe/token-go ...
消息驅動 —— SpringCloud Stream

Stream 簡介 Spring Cloud Stream 是用於構建消息驅動的微服務應用程式的框架，提供了多種中間件的合理配置 Spring Cloud Stream 包含以下核心概念： Destination Binders：目標綁定器，目標指的是 Kafka 或者 RabbitMQ，綁定器就是 ...
Flutter/Dart第07天：Dart基礎語法詳解（庫、導入和關鍵字）

我們前面完成了Dart語言基礎特性的學習，包括基礎語法概覽、迭代集合、非同步編程、Mixin高級特性和變數等。今天我們來學習Dart的庫相關知識，包括如何導入庫、指定庫首碼、導入部分或者排除部分庫、延遲導入庫等，最後看下Dart中67個關鍵字作為標識符的一些約束…… ...
網站程式中手機號碼判斷方法

需求：輸入錯誤的手機號，會有提示語，正確的手機號碼會有正確的圖標效果：思路：（1）排版（不細講），使用input 、button、span等標簽，排版裡面一個主要的小點是，需要寫出兩個span ，通過v-show先進行隱藏，等後面判斷手機號碼的正確錯誤再進行顯示與隱藏（2）接著，就需要在in ...
Java 21 新特性：Unnamed Patterns and Variables

Java 21中除了推出JEP 445:Unnamed Classes and Instance Main Methods之外，還有另外一個預覽功能：未命名模式和變數（Unnamed Patterns and Variables）。該新特性的目的是提高代碼的可讀性和可維護性。下麵通過一個例子來理解 ...
9.2 運用API實現線程同步

Windows 線程同步是指多個線程一同訪問共用資源時，為了避免資源的併發訪問導致數據的不一致或程式崩潰等問題，需要對線程的訪問進行協同和控制，以保證程式的正確性和穩定性。Windows提供了多種線程同步機制，以適應不同的併發編程場景。以上同步機制各有優缺點和適用場景，開發者應根據具體應用場景進行選... ...
Java自學網站--十幾個網站的分析與評測

很多想學Java的人不知道怎樣選教程，本文對Java自學網站進行評測。本文不帶主觀傾向，只客觀分析各個網站的區別。 ...
S32Kxxx bootloader 之 LIN UDS bootloader

此LIN UDS bootloader的上位機是zFlash, LIN盒子是自己開發的，更新應用程式時bootloader和上位機zFlash間通訊採用UDS協議 ...