ElasticSearch 常見問題

来源:https://www.cnblogs.com/taojietaoge/archive/2022/11/14/16886140.html
-Advertisement-
Play Games

ElasticSearch 常見問題 丈夫有淚不輕彈,只因未到傷心處。 1、說說 es 的一些調優手段。 僅索引層面調優手段: 1.1、設計階段調優 (1)根據業務增量需求,採取基於日期模板創建索引,通過 roll over API 滾動索引; (2)使用別名進行索引管理; (3)每天凌晨定時對索引 ...


ElasticSearch 常見問題

 

  丈夫有淚不輕彈,只因未到傷心處。

 

1、說說 es 的一些調優手段。

僅索引層面調優手段:

1.1、設計階段調優

(1)根據業務增量需求,採取基於日期模板創建索引,通過 roll over API 滾動索引; (2)使用別名進行索引管理; (3)每天凌晨定時對索引做 force_merge 操作,以釋放空間; (4)採取冷熱分離機制,熱數據存儲到 SSD,提高檢索效率;冷數據定期進行 shrink操作,以縮減存儲; (5)採取 curator 進行索引的生命周期管理; (6)僅針對需要分詞的欄位,合理的設置分詞器; (7)Mapping 階段充分結合各個欄位的屬性,是否需要檢索、是否需要存儲等。

1.2、寫入調優

(1)寫入前副本數設置為 0; (2)寫入前關閉 refresh_interval 設置為-1,禁用刷新機制; (3)寫入過程中:採取 bulk 批量寫入; (4)寫入後恢復副本數和刷新間隔; (5)儘量使用自動生成的 id。

1.3、查詢調優

(1)禁用 wildcard; (2)禁用批量 terms(成百上千的場景); (3)充分利用倒排索引機制,能 keyword 類型儘量 keyword; (4)數據量大時候,可以先基於時間敲定索引再檢索; (5)設置合理的路由機制。

1.4、其他調優

部署調優,業務調優等。

2、什麼是 ES 倒排索引?

通俗解釋:

傳統的我們的檢索是通過文章,逐個遍歷找到對應關鍵詞的位置。 而倒排索引,是通過分詞策略,形成了詞和文章的映射關係表,這種詞典+映射表即為倒排索引。有了倒排索引,就能實現 O(1)時間複雜度的效率檢索文章了,極大的提高了檢索效率。

學術解釋:

倒排索引,相反於一篇文章包含了哪些詞,它從詞出發,記載了這個詞在哪些文檔中出現過,由兩部分組成——詞典和倒排表。 倒排索引的底層實現是基於:FST(Finite State Transducer)數據結構。lucene 從 4+版本後開始大量使用的數據結構是 FST。FST 有兩個優點: (1)空間占用小。通過對詞典中單詞首碼和尾碼的重覆利用,壓縮了存儲空間; (2)查詢速度快。O(len(str))的查詢時間複雜度。 

3、ES 索引數據多了怎麼辦?如何調優、部署?

索引數據的規劃,應在前期做好規劃,正所謂“設計先行,編碼在後”,這樣才能有效的避免突如其來的數據激增導致集群處理能力不足引發的線上客戶檢索或者其他業務受到影響。 如何調優,正如問題 1 所說。

3.1 動態索引層面

基於模板+時間+rollover api 滾動創建索引。 舉例:設計階段定義:blog 索引的模板格式為:blog_index_時間戳的形式,每天遞增數據。這樣做的好處:不至於數據量激增導致單個索引數據量非常大,接近於上線 2 的32 次冪-1,索引存儲達到了 TB+甚至更大。 一旦單個索引很大,存儲等各種風險也隨之而來,所以要提前考慮+及早避免。

3.2 存儲層面

冷熱數據分離存儲,熱數據(比如最近 3 天或者一周的數據),其餘為冷數據。 對於冷數據不會再寫入新數據,可以考慮定期 force_merge 加 shrink 壓縮操作,節省存儲空間和檢索效率。

3.3 部署層面

一旦之前沒有規劃,這裡就屬於應急策略。 結合 ES 自身的支持動態擴展的特點,動態新增機器的方式可以緩解集群壓力,註意:如果之前主節點等規劃合理,不需要重啟集群也能完成動態新增的。

4、elasticsearch 是如何實現 master 選舉的?

前置前提: (1)只有候選主節點(master:true)的節點才能成為主節點。 (2)最小主節點數(min_master_nodes)的目的是防止腦裂。 核對了一下代碼,核心入口為 findMaster,選擇主節點成功返回對應 Master,否則返回 null。選舉流程大致描述如下: 第一步:確認候選主節點數達標,elasticsearch.yml 設置的值 discovery.zen.minimum_master_nodes; 第二步:比較,先判定是否具備 master 資格,具備候選主節點資格的優先返回;若兩節點都為候選主節點,則 id 小的值會主節點。註意這裡的 id 為 string 類型。
1 GET /_cat/nodes?v&h=ip,port,heapPercent,heapMax,id,name 
2 ip port heapPercent heapMax id name

5、描述一下 Elasticsearch 索引文檔的過程

這裡的索引文檔應該理解為文檔寫入 ES,創建索引的過程。 文檔寫入包含:單文檔寫入和批量 bulk 寫入,這裡只解釋一下:單文檔寫入流程。  第一步:客戶向集群某節點寫入數據,發送請求。(如果沒有指定路由/協調節點,請求的節點扮演路由節點的角色。) 第二步:節點 1 接受到請求後,使用文檔_id 來確定文檔屬於分片 0。請求會被轉到另外的節點,假定節點 3。因此分片 0 的主分片分配到節點 3 上。 第三步:節點 3 在主分片上執行寫操作,如果成功,則將請求並行轉發到節點 1和節點 2 的副本分片上,等待結果返回。所有的副本分片都報告成功,節點 3 將向協調節點(節點 1)報告成功,節點 1 向請求客戶端報告寫入成功。 如果面試官再問:第二步中的文檔獲取分片的過程? 回答:藉助路由演算法獲取,路由演算法就是根據路由和文檔 id 計算目標的分片 id 的過程。

6、描述一下 Elasticsearch 搜索的過程?

搜索拆解為“query then fetch” 兩個階段。 query 階段的目的:定位到位置,但不取數據。步驟拆解如下: (1)假設一個索引數據有 5 主+1 副本 共 10 分片,一次請求會命中(主或者副本分片中)的一個。 (2)每個分片在本地進行查詢,結果返回到本地有序的優先隊列中。 (3)第 2)步驟的結果發送到協調節點,協調節點產生一個全局的排序列表。 fetch 階段的目的:取數據。路由節點獲取所有文檔,返回給客戶端。 

7、ES 在部署時,對 Linux 的設置有哪些優化方法?

(1)關閉緩存 swap; (2)堆記憶體設置為:Min(節點記憶體/2, 32GB); (3)設置最大文件句柄數; (4)線程池+隊列大小根據業務需要做調整; (5)磁碟存儲 raid 方式——存儲有條件使用 RAID10,增加單節點性能以及避免單節點存儲故障。 

8、lucence 內部結構是什麼?

Lucene 是有索引和搜索的兩個過程。
  • 索引創建:將現實世界中所有的結構化和非結構化數據提取信息,創建索引的過程。
  • 搜索索引:就是得到用戶的查詢請求,搜索創建的索引,然後返回結果的過程。

9、ES 是如何實現 Master 選舉的?

(1)Elasticsearch 的選主是 ZenDiscovery 模塊負責的,主要包含 Ping(節點之間通過這個 RPC 來發現彼此)和 Unicast(單播模塊包含一個主機列表以控制哪些節點需要 ping 通)這兩部分; (2)對所有可以成為 master 的節點(node.master: true)根據 nodeId 字典排序,每次選舉每個節點都把自己所知道節點排一次序,然後選出第一個(第 0 位)節點,暫且認為它是 master 節點。 (3)如果對某個節點的投票數達到一定的值(可以成為 master 節點數 n/2+1)並且該節點自己也選舉自己,那這個節點就是 master。否則重新選舉一直到滿足上述件。 (4)補充:master 節點的職責主要包括集群、節點和索引的管理,不負責文檔級別的管理;data 節點可以關閉 http 功能*。

10、描述一下 Elasticsearch 索引文檔的過程。

協調節點預設使用文檔 ID 參與計算(也支持通過 routing),以便為路由提供合適的分片。
shard = hash(document_id) % (num_of_primary_shards)
(1)當分片所在的節點接收到來自協調節點的請求後,會將請求寫入到 MemoryBuffffer,然後定時(預設是每隔 1 秒)寫入到 Filesystem Cache,這個從 MomeryBuffffer 到 Filesystem Cache 的過程就叫做 refresh; (2)當然在某些情況下,存在 Momery Buffffer 和 Filesystem Cache 的數據可能會丟失,ES 是通過translog 的機制來保證數據的可靠性的。其實現機制是接收到請求後,同時也會寫入到 translog 中 ,當 Filesystem cache 中的數據寫入到磁碟中時,才會清除掉,這個過程叫做 flush; (3)在 flush 過程中,記憶體中的緩衝將被清除,內容被寫入一個新段,段的 fsync將創建一個新的提交點,並將內容刷新到磁碟,舊的 translog 將被刪除並開始一個新的 translog。 (4)flush 觸發的時機是定時觸發(預設 30 分鐘)或者 translog 變得太大(預設為 512M)時; 補充:關於 Lucene 的 Segement: (1)Lucene 索引是由多個段組成,段本身是一個功能齊全的倒排索引。 (2)段是不可變的,允許 Lucene 將新的文檔增量地添加到索引中,而不用從頭重建索引。 (3)對於每一個搜索請求而言,索引中的所有段都會被搜索,並且每個段會消耗CPU 的時鐘周、文件句柄和記憶體。這意味著段的數量越多,搜索性能會越低。 (4)為瞭解決這個問題,Elasticsearch 會合併小段到一個較大的段,提交新的合併段到磁碟,並刪除那些舊的小段。

12、描述一下 Elasticsearch 更新和刪除文檔的過程。

(1)刪除和更新也都是寫操作,但是 Elasticsearch 中的文檔是不可變的,因此不能被刪除或者改動以展示其變更; (2)磁碟上的每個段都有一個相應的.del 文件。當刪除請求發送後,文檔並沒有真的被刪除,而是在.del 文件中被標記為刪除。該文檔依然能匹配查詢,但是會在結果中被過濾掉。當段合併時,在.del文件中被標記為刪除的文檔將不會被寫入新段。 (3)在新的文檔被創建時,Elasticsearch 會為該文檔指定一個版本號,當執行更新時,舊版本的文檔在.del 文件中被標記為刪除,新版本的文檔被索引到一個新段。舊版本的文檔依然能匹配查詢,但是會在結果中被過濾掉。

13、描述一下 ES 搜索的過程。

(1)搜索被執行成一個兩階段過程,我們稱之為 Query Then Fetch; (2)在初始查詢階段時,查詢會廣播到索引中每一個分片拷貝(主分片或者副本分片)。 每個分片在本地執行搜索並構建一個匹配文檔的大小為 from + size 的優先隊列。 PS:在搜索的時候是會查詢 Filesystem Cache 的,但是有部分數據還在 MemoryBuffffer,所以搜索是近實時的。 (3)每個分片返回各自優先隊列中 所有文檔的 ID 和排序值 給協調節點,它合併這些值到自己的優先隊列中來產生一個全局排序後的結果列表。 (4)接下來就是 取回階段,協調節點辨別出哪些文檔需要被取回並向相關的分片提交多個 GET 請求。每個分片載入並 豐 富 文檔,如果有需要的話,接著返迴文檔給協調節點。一旦所有的文檔都被取回了,協調節點返回結果給客戶端。 (5)補充:Query Then Fetch 的搜索類型在文檔相關性打分的時候參考的是本分片的數據,這樣在文檔數量較少的時候可能不夠準確,DFS Query Then Fetch 增加了一個預查詢的處理,詢問 Term 和Document frequency,這個評分更準確,但是性能會變差。

14、在 ES 中,是怎麼根據一個詞找到對應的倒排索引的?

(1)Lucene的索引過程,就是按照全文檢索的基本過程,將倒排表寫成此文件格式的過程。 (2)Lucene的搜索過程,就是按照此文件格式將索引進去的信息讀出來,然後計算每篇文檔打分(score)的過程。

15、對於 GC 方面,在使用 Elasticsearch 時要註意什麼?

(1)倒排詞典的索引需要常駐記憶體,無法 GC,需要監控 data node 上 segmentmemory 增長趨勢。 (2)各類緩存,field cache, filter cache, indexing cache, bulk queue 等等,要設置合理的大小,並且要應該根據最壞的情況來看 heap 是否夠用,也就是各類緩存全部占滿的時候,還有 heap 空間可以分配給其他任務嗎?避免採用 clear cache等“自欺欺人”的方式來釋放記憶體。 (3)避免返回大量結果集的搜索與聚合。確實需要大量拉取數據的場景,可以採用scan & scroll api來實現。 (4)cluster stats 駐留記憶體並無法水平擴展,超大規模集群可以考慮分拆成多個集群通過 tribe node連接。 (5)想知道 heap 夠不夠,必須結合實際應用場景,並對集群的 heap 使用情況做持續的監控。 (6)根據監控數據理解記憶體需求,合理配置各類circuit breaker,將記憶體溢出風險降低到最低。

16、ES 對於大數據量(上億量級)的聚合如何實現?

Elasticsearch 提供的首個近似聚合是 cardinality 度量。它提供一個欄位的基數,即該欄位的 distinct或者 unique 值的數目。它是基於 HLL 演算法的。HLL 會先對我們的輸入作哈希運算,然後根據哈希運算的結果中的 bits 做概率估算從而得到基數。其特點是:可配置的精度,用來控制記憶體的使用(更精確= 更多記憶體);小的數據集精度是非常高的;我們可以通過配置參數,來設置去重需要的固定記憶體使用量。無論數千還是數十億的唯一值,記憶體使用量只與你配置的精確度相關。

17、併發情況下,Elasticsearch 如果保證讀寫一致?

(1)可以通過版本號使用樂觀併發控制,以確保新版本不會被舊版本覆蓋,由應用層來處理具體的衝突; (2)另外對於寫操作,一致性級別支持 quorum/one/all,預設為 quorum,即只有當大多數分片可用時才允許寫操作。但即使大多數可用,也可能存在因為網路等原因導致寫入副本失敗,這樣該副本被認為故障,分片將會在一個不同的節點上重建。 (3)對於讀操作,可以設置 replication 為 sync(預設),這使得操作在主分片和副本分片都完成後才會返回;如果設置 replication 為 async 時,也可以通過設置搜索請求參數_preference 為 primary 來查詢主分片,確保文檔是最新版本。

18、如何監控 Elasticsearch 集群狀態?

Marvel 讓你可以很簡單的通過 Kibana 監控 Elasticsearch。你可以實時查看你的集群健康狀態和性能,也可以分析過去的集群、索引和節點指標。

19、是否瞭解字典樹?

Trie 的核心思想是空間換時間,利用字元串的公共首碼來降低查詢時間的開銷以達到提高效率的目的。 它有 3 個基本性質: 1)根節點不包含字元,除根節點外每一個節點都只包含一個字元。 2)從根節點到某一節點,路徑上經過的字元連接起來,為該節點對應的字元串。 3)每個節點的所有子節點包含的字元都不相同。       丈夫有淚不輕彈 只因未到傷心處            
您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 先看示例代碼 點擊查看代碼 #include <iostream> #include<cstring> using namespace std; class Student{ public: Student(int _age , const char * _name) { this->age=_ag ...
  • 買賣股票的最好時機(一) 描述 假設你有一個數組prices,長度為n,其中prices[i]是股票在第i天的價格,請根據這個價格數組,返回買賣股票能獲得的最大收益 1.你可以買入一次股票和賣出一次股票,並非每天都可以買入或賣出一次,總共只能買入和賣出一次,且買入必須在賣出的前面的某一天 2.如果不 ...
  • 摘要 C/S端軟體,左側導航菜單+右側頁面切換的佈局很常見。 這篇文章介紹下使用ContentControl控制項和TabControl控制項如何實現基礎的頁面切換。 一、使用ContentControl實現頁面切換 頁面使用UserControl來實現。 基於MVVM框架的思想,利用數據綁定機制,將控 ...
  • 一、基本概念 線程安全(thread safe):指的是被任意多的線程同時執行,都可以保證正確性。 除基本類型外,很少有類型是線程安全的,線程安全的責任基本落在開發者身上,System.Collections.Concurrent命名空間下的類型的除外。 線程安全最常見的手段一般是使用【排它鎖】,將 ...
  • 一、概念 《Threading in C# 》(Joseph Albahari):https://www.albahari.com/threading/ 《Threading in C# 》中文翻譯(GKarch ):https://blog.gkarch.com/topic/threading.h ...
  • 核心思路是使用Region的求交集和並集的結果與原始Region對比 Winform項目自帶這個類庫,如果使用控制台,需要先在nuget安裝System.Drawing.Common /// <summary> /// 計算兩個形狀的關係 /// </summary> /// <param name ...
  • 前言 字元設備是Linux驅動中三大設備之一,字元(char)設備是個能夠像位元組流(類似文件)一樣被訪問的設備,由字元設備驅動程式來實現這種特性。字元設備驅動程式通常至少要實現open、close、read和write的系統調用。字元終端(/dev/console)和串口(/dev/ttyS0以及類 ...
  • 一、Installing RabbitMQ-3.10.2 on CentOS 7.9 1 地址 https://www.rabbitmq.com https://github.com/rabbitmq/rabbitmq-server https://github.com/rabbitmq/rabbi ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...