ElasticSearch系列-索引原理與數據讀寫流程

来源:https://www.cnblogs.com/88223100/archive/2023/10/03/ElasticSearch-Series---Indexing-Principles-and-Data-Reading-and-Writing-Processes.html
-Advertisement-
Play Games

索引原理 倒排索引 倒排索引(Inverted Index)也叫反向索引,有反向索引必有正向索引。通俗地來講,正向索引是通過key找value,反向索引則是通過value找key。ES底層在檢索時底層使用的就是倒排索引。 索引模型 現有索引和映射如下: { "products" : { "mappi ...


索引原理

倒排索引

倒排索引(Inverted Index)也叫反向索引,有反向索引必有正向索引。通俗地來講,正向索引是通過key找value,反向索引則是通過value找key。ES底層在檢索時底層使用的就是倒排索引。

索引模型

現有索引和映射如下:

{
  "products" : {
    "mappings" : {
      "properties" : {
        "description" : {
          "type" : "text"
        },
        "price" : {
          "type" : "float"
        },
        "title" : {
          "type" : "keyword"
        }
      }
    }
  }
}

先錄入如下數據,有三個欄位title、price、description等

_id title price description
1 藍月亮洗衣液 19.9 藍月亮洗衣液高效
2 iphone13 19.9 不錯的手機
3 小浣熊乾脆面 1.5 小浣熊好吃

在ES中除了text類型分詞,其他類型不分詞,因此根據不同欄位創建索引如下:

  • title欄位:

    term _id(文檔id)
    藍月亮洗衣液 1
    iphone13 2
    小浣熊乾脆面 3
  • price欄位

    term _id(文檔id)
    19.9 [1,2]
    1.5 3
  • description欄位

    term _id term _id term _id
    1 2 3
    1 2 3
    1 2 3
    1 2 3
    1 2 3
    1        
    [1:1:9,2:1:6,3:1:6]        
    1        
    1        

註意: Elasticsearch分別為每個欄位都建立了一個倒排索引。因此查詢時查詢欄位的term,就能知道文檔ID,就能快速找到文檔。

數據寫入流程

  1. 先寫入buffer,在buffer里的時候數據是搜索不到的;同時將數據寫入translog日誌文件

  2. 如果buffer快滿了,或者到一定時間,就會將buffer數據refresh到一個新的segment file中,但是此時數據不是直接進入segment file的磁碟文件的,而是先進入os cache的。這個過程就是refresh。為什麼叫es是準實時的?NRT,near real-time,準實時。預設是每隔1秒refresh一次的,所以es是準實時的,因為寫入的數據1秒之後才能被看到。

  3. 只要數據進入os cache,此時就可以讓這個segment file的數據對外提供搜索了
  4. 重覆1~3步驟,新的數據不斷進入buffer和translog,不斷將buffer數據寫入一個又一個新的segment file中去,每次refresh完buffer清空,translog保留。隨著這個過程推進,translog會變得越來越大。當translog達到一定長度的時候,就會觸發mit操作。
  5. mit操作發生第一步,就是將buffer中現有數據refresh到os cache中去,清空buffer

  6. 將一個mit point寫入磁碟文件,裡面標識著這個mit point對應的所有segment file

  7. 強行將os cache中目前所有的數據都fsync到磁碟文件中

  8. 將現有的translog清空,然後再次重啟啟用一個translog,此時mit操作完成。預設每隔30分鐘會自動執行一次mit,但是如果translog過大,也會觸發mit。整個mit的過程,叫做flush操作。我們可以手動執行flush操作,就是將所有os cache數據刷到磁碟文件中去。
    es中的flush操作,就對應著mit的全過程。我們也可以通過es api,手動執行flush操作,手動將os cache中的數據fsync強刷到磁碟上去,記錄一個mit point,清空translog日誌文件。
  9. translog其實也是先寫入os cache的,預設每隔5秒刷一次到磁碟中去,所以預設情況下,可能有5秒的數據會僅僅停留在buffer或者translog文件的os cache中,如果此時機器掛了,會丟失5秒鐘的數據。但是這樣性能比較好,最多丟5秒的數據。也可以將translog設置成每次寫操作必須是直接fsync到磁碟,但是性能會差很多。
  10. 如果是刪除操作,mit的時候會生成一個.del文件,裡面將某個doc標識為deleted狀態,那麼搜索的時候根據.del文件就知道這個doc被刪除了

  11. 如果是更新操作,就是將原來的doc標識為deleted狀態,然後新寫入一條數據

  12. buffer每次refresh一次,就會產生一個segment file,所以預設情況下是1秒鐘一個segment file,segment file會越來越多,此時會定期執行merge

  13. 每次merge的時候,會將多個segment file合併成一個,同時這裡會將標識為deleted的doc給物理刪除掉,然後將新的segment file寫入磁碟,這裡會寫一個mit point,標識所有新的segment file,然後打開segment file供搜索使用,同時刪除舊的segment file。

es里的寫流程,有4個底層的核心概念,refresh、flush、translog、merge

當segment file多到一定程度的時候,es就會自動觸發merge操作,將多個segment file給merge成一個segment file。

圖片

數據查詢流程

  1. 客戶端發送請求到任意一個node,成為coordinate node

  2. coordinate node對document進行路由,將請求轉發到對應的node,此時會使用round-robin隨機輪詢演算法,在primary  shard以及其所有replica中隨機選擇一個,讓讀請求負載均衡

  3. 接收請求的node返回document給coordinate node

  4. coordinate node返回document給客戶端

圖片

 

作者|悅@arcstack

 

本文來自博客園,作者:古道輕風,轉載請註明原文鏈接:https://www.cnblogs.com/88223100/p/ElasticSearch-Series---Indexing-Principles-and-Data-Reading-and-Writing-Processes.html


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 本篇為[用go設計開發一個自己的輕量級登錄庫/框架吧 - 秋玻 - 博客園 (cnblogs.com)]的二級認證業務篇,會講講二級認證業務的實現,給庫/框架增加新的功能。 源碼:https://github.com/weloe/token-go ...
  • Stream 簡介 Spring Cloud Stream 是用於構建消息驅動的微服務應用程式的框架,提供了多種中間件的合理配置 Spring Cloud Stream 包含以下核心概念: Destination Binders:目標綁定器,目標指的是 Kafka 或者 RabbitMQ,綁定器就是 ...
  • 我們前面完成了Dart語言基礎特性的學習,包括基礎語法概覽、迭代集合、非同步編程、Mixin高級特性和變數等。今天我們來學習Dart的庫相關知識,包括如何導入庫、指定庫首碼、導入部分或者排除部分庫、延遲導入庫等,最後看下Dart中67個關鍵字作為標識符的一些約束…… ...
  • 需求:輸入錯誤的手機號,會有提示語,正確的手機號碼會有正確的圖標 效果: 思路: (1)排版(不細講),使用input 、button、span等標簽,排版裡面一個主要的小點是,需要寫出兩個span ,通過v-show先進行隱藏,等後面判斷手機號碼的正確錯誤再進行顯示與隱藏 (2)接著,就需要在in ...
  • Java 21中除了推出JEP 445:Unnamed Classes and Instance Main Methods之外,還有另外一個預覽功能:未命名模式和變數(Unnamed Patterns and Variables)。該新特性的目的是提高代碼的可讀性和可維護性。 下麵通過一個例子來理解 ...
  • Windows 線程同步是指多個線程一同訪問共用資源時,為了避免資源的併發訪問導致數據的不一致或程式崩潰等問題,需要對線程的訪問進行協同和控制,以保證程式的正確性和穩定性。Windows提供了多種線程同步機制,以適應不同的併發編程場景。以上同步機制各有優缺點和適用場景,開發者應根據具體應用場景進行選... ...
  • 很多想學Java的人不知道怎樣選教程,本文對Java自學網站進行評測。 本文不帶主觀傾向,只客觀分析各個網站的區別。 ...
  • 此LIN UDS bootloader的上位機是zFlash, LIN盒子是自己開發的,更新應用程式時bootloader和上位機zFlash間通訊採用UDS協議 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...