記一次Elasticsearch OOM的優化過程——基於segments force merge 和 store type 轉為 hybridfs

来源:https://www.cnblogs.com/NaughtyCat/archive/2019/12/14/elasticsearch-OOM-optimize-story.html
-Advertisement-
Play Games

Elasticsearch OOM 優化 改文件類型及segments force merge ...


 

首先,說明筆者的機器環境(不結合環境談解決方案都是耍流氓): cpu 32核,記憶體128G,非固態硬碟: RAID0 (4T * 6),單節點,數據量在700G到1800G,索引15億~21億。敖丙大人,在蘑菇街,可多集群分片,固態硬碟,比不起啊。

轉載請註明出處:https://www.cnblogs.com/NaughtyCat/p/elasticsearch-OOM-optimize-story.html  

業務場景:

保存7天索引,每天有400G。發現ES時不時的OOM,和重啟。當索引超過500G的時候,ES重啟到載入所有分片,時間約30分鐘到1小時。

題外話,ES OOM 會生成  .hprof 文件,如下圖(作者【CoderBaby】):

 用jhat來分析OOM堆轉儲文件,具體命令如:  jhat -port 7401 -J-Xmx4G java_pid19546.hprof

 

解決辦法:

  • 改文件存儲類型,減少記憶體占用

設置存儲類型為:“hybridfs” ,即: "index.store.type": "hybridfs" (原來為“mmapfs”,詳見附2)。mmapfs — index映射到記憶體,niofs — 併發多線程以NIO的方式讀取index文件, hybridfs—混合 mmafs和niofs ,根據讀取模式選擇最佳的文件系統

效果:在600G左右的索引,5天索引,確實沒有了OOM。但一旦增大到7個索引,就不行了。用jstat命令,即:stat -gcutil 6811 (ES的PID)查看ES的jvm,如下圖:

O: Old space utilization as a percentage of the space's current capacity (老年代空間占用率)。O最高達到79,就往下降,原來為存儲類型為“mmapfs”,O很容易就飆到100.

  • 關閉暫時不用的索引,減少打開索引的數量

關閉索引(文件仍然存在於磁碟,只是釋放掉記憶體,需要的時候可重新打開)。設置打開索引參數: "__es.maxPermanentlyOpenIndices":4 (最大打開索引:7改為4)。

  •  擴大堆記憶體

設置堆大小,從15G提高到30G,即: -Xms30g -Xmx30g (註意:最大不要超過物理記憶體的 %50

  • 擴大虛擬記憶體空間

命令: sysctl -w vm.max_map_count=2621440(預設值是 “262144”),擴大這個,可以防止這個數量太低而導致的OOM(詳見附6

  • forcemerge

設置merge時最大的線程數:index.merge.scheduler.max_thread_count。固態硬碟——預設最大值  Math.max(1, Math.min(4, Runtime.getRuntime().availableProcessors() / 2)) ,普通旋轉磁碟——設置為1

筆者機器上,單merge 線程,300G的索引耗時:7個小時

優化效果: term 單條件查詢,查詢時間從10秒多提高到3秒多,索引減少約%2.85,減少4000多萬,具體如下表:

index total_segments_berfore_merge total_segments_after_merge query_IP_after(seconds)   query_IP_after(seconds)  decrease(count/percentage)
pcap_flow-2019-12-09  1412695374 137249867 10 3.6 40196703/ %2.845

 

可通過命令查看各個分片的情況,如下(可查看總的segments數量):

curl -s "http://localhost:9200/_cat/segments/pcap_flow-2019-12-10?v&h=shard,segment,size,size.memory" | awk '{sum += $NF} END {print sum}' 

 

force merge的restful API:

curl -X POST "localhost:9200/pcap_flow-2019-12-11/_forcemerge?max_num_segments=2"

說明:

1)max_num_segments, 設置最大segement數量,數量越小,查詢速度提高越明顯,但merge耗時越長

2)全部merge,不加索引ID,則如下:

curl -X POST "localhost:9200/_forcemerge"

3)merge過程是串列的,如果同時merge多個,後面的會被阻塞,直到第一個merge完成為止。另外,對於不再有寫入的更新的index,才建議force merge,不然反而會讓搜索的性能更差

4)restful api 查看_segments,如下:

curl -X GET "localhost:9200/_cat/segments?v&pretty"

效果如下圖:

 

題外話,如果貴司銀子多,可以集群分片,搞SSD,否則只有結構優化,這一招。

 

 附:

1)官網  index force merge說明: https://www.elastic.co/guide/en/elasticsearch/reference/7.4/indices-forcemerge.html

2) ES 存儲類型: https://www.elastic.co/guide/en/elasticsearch/reference/current/index-modules-store.html

3)merge 線程數: https://www.elastic.co/guide/en/elasticsearch/reference/current/index-modules-merge.html

4)磁碟陣列RAID: https://zh.wikipedia.org/wiki/RAID

5)關於索引合併的統計分析: http://openskill.cn/article/375

6)擴大虛擬地址空間: https://www.elastic.co/guide/en/elasticsearch/reference/current/vm-max-map-count.htm

*****************************************************************************************************

精力有限,想法太多,專註做好一件事就行

  • 我只是一個程式猿。5年內把代碼寫好,技術博客字字推敲,堅持零拷貝和原創
  • 寫博客的意義在於打磨文筆,訓練邏輯條理性,加深對知識的系統性理解;如果恰好又對別人有點幫助,那真是一件令人開心的事

*****************************************************************************************************


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Linux下各種不同環境變數相關文件的作用: 1. /etc/environment 設置整個系統的環境,系統啟動時,該文件被執行。 2. /etc/profile 設置所有用戶的環境,當用戶第一次登錄時,該文件被執行,並從/etc/profile.d目錄的配置文件中搜集shell的設置。 3. / ...
  • Nginx核心流程及模塊介紹 1. Nginx簡介以及特點 Nginx簡介: Nginx (engine x) 是一個高性能的web伺服器和反向代理伺服器,也是一個IMAP/POP3/SMTP伺服器 俄羅斯程式員Igor Sysoev於2002年開始 Nginx是增長最快的Web伺服器,市場份額已達 ...
  • 使用環境:阿裡雲ecs Ubuntu1604生產環境下,編譯安裝mariadb10-2.26 1、先安裝一些初試環境所需要的工具軟體包 apt install -y iproute2 ntpdate tcpdump telnet traceroute nfs-kernel-server nfs-co ...
  • 下麵是我整理(抄襲)的一些Oracle資料庫相關概念對象的理解,如有疏漏,歡迎指正。至於整理這篇文章的目的:主要是網上的內容太散了,這樣整理一遍可以加深理解,也便於後續查閱。就我的理解:下述內容應該可對10g,11g,12c都適用。更新的版本沒用過。 Oracle DataBase是一款關係型資料庫 ...
  • MySQL面試總結 # MySQL的存儲引擎 `MyISAM`(預設表類型):非事務的存儲引擎,基於傳統的`ISAM`(有索引的順序訪問方法)類型,是存儲記錄和文件的標準方法,不是事務安全,不支持外鍵,適用於頻繁的查詢。表鎖,不會出現死鎖,適合小數據和小併發。 - 為什麼不會出死鎖?(沒有事務就不會 ...
  • 約束與索引 概念 1、數據完整性(Data Integrity)是指數據的精確性(Accuracy)和可靠性(Reliability)。 實體完整性(Entity Integrity):例如,同一個表中,不能存在兩條完全相同無法區分的記錄 域完整性(Domain Integrity):例如:年齡範圍 ...
  • #!/usr/bin/env python # -*- coding:utf-8 -*- import sqlite3,os,time import traceback class Sqlite(): db_file = None # 資料庫文件 connection = None # 資料庫連接對 ...
  • 一、簡介 開源流式處理系統在不斷地發展,從一開始只關註低延遲指標到現在兼顧延遲、吞吐與結果準確性,在發展過程中解決了很多問題,編程API的易用性也在不斷地提高。本文介紹一下 Flink 中的核心概念,這些概念是學習與使用 Flink 十分重要的基礎知識,在後續開發 Flink 程式過程中將會幫助開發 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...