記一次Elasticsearch OOM的優化過程——基於segments force merge 和 store type 轉為 niofs

来源:https://www.cnblogs.com/NaughtyCat/archive/2019/12/13/elasticsearch-OOM-optimize-story.html
-Advertisement-
Play Games

Elasticsearch OOM 優化 改文件類型及segments force merge ...


 

首先,說明筆者的機器環境(不結合環境談解決方案都是耍流氓): cpu 32核,記憶體128G,非固態硬碟: RAID0 (4T * 6),單節點,數據量在700G到1800G,索引15億~21億。敖丙大人,在蘑菇街,可多集群分片,固態硬碟,比不起啊。

轉載請註明出處:https://www.cnblogs.com/NaughtyCat/p/elasticsearch-OOM-optimize-story.html  

業務場景:

保存7天索引,每天有400G。發現ES時不時的OOM,和重啟。當索引超過500G的時候,ES重啟到載入所有分片,時間約30分鐘到1小時。

題外話,ES OOM 會生成  .hprof 文件,如下圖(作者【CoderBaby】):

 用jhat來分析OOM堆轉儲文件,具體命令如:  jhat -port 7401 -J-Xmx4G java_pid19546.hprof

 

解決辦法:

  • 改文件存儲類型,減少記憶體占用

設置存儲類型為:“hybridfs” ,即: "index.store.type": "hybridfs" (原來為“mmapfs”,詳見附2)。mmapfs — index映射到記憶體,niofs — 併發多線程以NIO的方式讀取index文件, hybridfs—混合 mmafs和niofs ,根據讀取模式選擇最佳的文件系統

效果:在600G左右的索引,5天索引,確實沒有了OOM。但一旦增大到7個索引,就不行了。用jstat命令,即:stat -gcutil 6811 (ES的PID)查看ES的jvm,如下圖:

O: Old space utilization as a percentage of the space's current capacity (老年代空間占用率)。O最高達到79,就往下降,原來為存儲類型為“mmapfs”,O很容易就飆到100.

  • 關閉暫時不用的索引,減少打開索引的數量

關閉索引(文件仍然存在於磁碟,只是釋放掉記憶體,需要的時候可重新打開)。設置打開索引參數: "__es.maxPermanentlyOpenIndices":4 (最大打開索引:7改為4)。

  •  擴大堆記憶體

設置堆大小,從15G提高到30G,即: -Xms30g -Xmx30g (註意:最大不要超過物理記憶體的 %50

  • 擴大虛擬記憶體空間

命令: sysctl -w vm.max_map_count=2621440(預設值是 “262144”),擴大這個,可以防止這個數量太低而導致的OOM(詳見附6

  • forcemerge

設置merge時最大的線程數:index.merge.scheduler.max_thread_count。固態硬碟——預設最大值  Math.max(1, Math.min(4, Runtime.getRuntime().availableProcessors() / 2)) ,普通旋轉磁碟——設置為1

筆者機器上,單merge 線程,300G的索引耗時:7個小時

優化效果: term 單條件查詢,查詢時間從10秒多提高到3秒多,索引減少約%2.85,減少4000多萬,具體如下表:

index total_segments_berfore_merge total_segments_after_merge query_IP_after(seconds)   query_IP_after(seconds)  decrease(count/percentage)
pcap_flow-2019-12-09  1412695374 137249867 10 3.6 40196703/ %2.845

 

可通過命令查看各個分片的情況,如下(可查看總的segments數量):

curl -s "http://localhost:9200/_cat/segments/pcap_flow-2019-12-10?v&h=shard,segment,size,size.memory" | awk '{sum += $NF} END {print sum}' 

 

force merge的restful API:

curl -X POST "localhost:9200/pcap_flow-2019-12-11/_forcemerge?max_num_segments=2"

說明:

1)max_num_segments, 設置最大segement數量,數量越小,查詢速度提高越明顯,但merge耗時越長

2)全部merge,不加索引ID,則如下:

curl -X POST "localhost:9200/_forcemerge"

3)merge過程是串列的,如果同時merge多個,後面的會被阻塞,直到第一個merge完成為止。另外,對於不再有寫入的更新的index,才建議force merge,不然反而會讓搜索的性能更差

4)restful api 查看_segments,如下:

curl -X GET "localhost:9200/_cat/segments?v&pretty"

效果如下圖:

 

題外話,如果貴司銀子多,可以集群分片,搞SSD,否則只有結構優化,這一招。

 

 附:

1)官網  index force merge說明: https://www.elastic.co/guide/en/elasticsearch/reference/7.4/indices-forcemerge.html

2) ES 存儲類型: https://www.elastic.co/guide/en/elasticsearch/reference/current/index-modules-store.html

3)merge 線程數: https://www.elastic.co/guide/en/elasticsearch/reference/current/index-modules-merge.html

4)磁碟陣列RAID: https://zh.wikipedia.org/wiki/RAID

5)關於索引合併的統計分析: http://openskill.cn/article/375

6)擴大虛擬地址空間: https://www.elastic.co/guide/en/elasticsearch/reference/current/vm-max-map-count.htm

*****************************************************************************************************

精力有限,想法太多,專註做好一件事就行

  • 我只是一個程式猿。5年內把代碼寫好,技術博客字字推敲,堅持零拷貝和原創
  • 寫博客的意義在於打磨文筆,訓練邏輯條理性,加深對知識的系統性理解;如果恰好又對別人有點幫助,那真是一件令人開心的事

*****************************************************************************************************


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 安裝MySQL中YUM預設安裝路徑是/var/lib/mysql下,有時候該目錄分配的磁碟空間並不大,需要遷移到新的磁碟目錄 df -h 查看磁碟空間大小 本次遷移到 /home目錄下 1.在home目錄下創建data目錄作為預設路徑 cd /home mkdir data 2.關掉MySQL se ...
  • 前言 Hello我又來了,快年底了,作為一個有抱負的碼農,我想給自己攢一個年終總結。索性這次把資料庫中最核心的也是最難搞懂的內容,也就是索引,分享給大家。 這篇博客我會談談對於索引結構我自己的看法,以及分享如何從零開始一層一層向上最終理解索引結構,書接上文。 多頁模式 在多頁模式下,MySQL終於可 ...
  • 今天學習分散式的項目搭建,第二天使用 intelliJ IDEA 漸漸適應了操作 搭建分散式項目,我把他分為一個父工程和14個子工程 如圖是各項目的關係依賴: idea包結構: 搭建好我們所需要的工程之後,我們就需要配置XML文件和POM.xml文件 父工程的POM文件 <!-- 集中定義依賴版本號 ...
  • 資料庫 數據的存儲:將數據放到表中,表再放到庫中。 一個資料庫中可以有多個表,每個表都有一個名字,用來標識自己。表名具有唯一性。 表由列組成,我們也稱為欄位。每個欄位描述了它所含有的數據的意義表由列組成,我們也稱為欄位。每個欄位描述了它所含有的數據的意義 表中的數據是按行存儲的,一行即為一條記錄。 ...
  • 1、使用like關鍵字模糊查詢時,% 放在前面索引不起作用,只有“%”不在第一個位置,索引才會生效(like ‘%文’–索引不起作用)2、使用聯合索引時,只有查詢條件中使用了這些欄位中的第一個欄位,索引才會生效3、使用OR關鍵字的查詢,查詢語句的查詢條件中只有OR關鍵字,且OR前後的兩個條件中的列都 ...
  • 一、背景 老大安排要對某張大容量表進行分割,根據年份分割成多張表。 二、水平分割 水平拆分是指數據表行的拆分,表的行數超過百萬行時,就會變慢,這時可以把一張的表的數據拆成多張表來存放。 定義規則分表後,表結構與原表相同,查詢性能會提高。 ····· 三、步驟。 做好備份 根據年份創建分區表(t_us ...
  • https://www.cnblogs.com/shizhengwen/p/9283973.html https://blog.csdn.net/w2393040183/article/details/76167856 https://www.redis.net.cn/tutorial/3519.h ...
  • [20191213]toad 12下BIND_AWARE提示無效.txt--//鏈接http://blog.itpub.net/267265/viewspace-2130781/的測試,發現當時測試的錯誤.有空再次驗證看看.1.環境:SCOTT@book> @ ver1PORT_STRING VER ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...