ElasticSearch固然好用,但這些南牆不能撞

来源:https://www.cnblogs.com/88223100/archive/2023/03/24/ElasticSearch-is-easy-to-use-but-these-south-walls-cannot-be-hit.html
-Advertisement-
Play Games

一、管理方式 ElasticSearch作為最常用的搜索引擎組件,在系統架構中發揮極其重要的能力,可以極大的提升數據的載入和檢索效率;但不可否認的是,在長期的應用實踐中,也發現很多不好處理的流程和場景; 從直觀感覺上說,業務中對索引的使用主要涉及如圖的幾個流程,其核心也就是索引的結構維護與數據的流動 ...


一、管理方式

ElasticSearch作為最常用的搜索引擎組件,在系統架構中發揮極其重要的能力,可以極大的提升數據的載入和檢索效率;但不可否認的是,在長期的應用實踐中,也發現很多不好處理的流程和場景;

圖片

 

從直觀感覺上說,業務中對索引的使用主要涉及如圖的幾個流程,其核心也就是索引的結構維護與數據的流動管理兩個模塊;

 

如果數據結構比較簡單且體量小,那麼使用起來可能很順手;如果數據主體複雜且會動態擴展,並且體量偏大,那麼就很容易踩中一些比較坑的點;

 

比如:索引中欄位一旦有誤,調整的流程十分複雜;數據流向索引中的方式,需要根據場景靈活選擇;以及數據查詢時的深度分頁問題;下麵將圍繞這些問題來總結下應對策略;

 

順帶補充一句,其實很多組件在應用的時候都有不太符合預期的地方,所以在集成時可以考慮編寫自定義的管理程式,來解決使用時可能存在的問題;

 

二、結構維護

對於ES索引的結構維護,數據主體如果相對簡單的話,可以考慮手動管理,但實際上使用索引時,通常主體結構都比較複雜,欄位個數超過三五十都很常見,所以基於流程化的管理很有必要;

圖片

 

結構映射:將需要構建索引的主體結構,在欄位庫中統一維護,值得註意的是欄位名稱和類型,欄位可以與關係型資料庫的查詢一致,但是不同組件類型的描述不一樣,尤其對ES來說,如果欄位類型不合理,會影響搜索的使用;

 

索引結構:在實際的業務場景中,欄位的信息是會動態變化的,這就會給索引結構的維護帶來很多麻煩,欄位的增減都好管理,但是如果涉及類型的變動,則存在索引重建的過程,會導致數據多次重新調度,這也是風險較高的操作;

 

程式維護:這種結構維護的機制,其核心目的是把整個流程進行程式化管理,避免人工進行干預,以此來確保索引結構的穩定擴展;

 

不得不提的一個經驗教訓,曾經在管理業務日誌的索引結構時,出現過一次誤刪動作,好在可以重新構建和數據備份恢復,但是依舊給心裡留下了幾釐米的陰影,此後也將維護流程徹底程式化,避免失誤動作發生;

 

三、數據調度

1、同步方案

數據的調度管理,其本質就是將數據從一個容器向另一個容器搬運或者拷貝,其核心操作就是讀和寫兩個動作,但是為了讓流程具備容錯和穩定性,通常需要做策略和方案的設計;

 

圖片

 

同步雙寫:對數據的實時性要求極高,通常在一個事務中完成數據的雙寫動作,保證數據層面的強一致性;

 

非同步解耦:在完成資料庫的寫動作之後,基於MQ消息解耦索引的寫入,流程存在輕微的延遲,如果消費失敗會導致數據缺失;

 

定時任務:通過任務調度的方式,以指定的時間周期執行新增數據的同步機制,存在明顯的時效問題;

 

組件同步:採用合適的同步組件,比如官方提供的組件或者一些第三方開源的組件,在原理上與任務同步類似;

 

數據同步的選型方案有多種,如何選擇完全看具體的場景,在過往的使用過程中,對於核心業務會採用同步雙寫,對於內部的活動類業務會採用非同步的方式,對於業務日誌會採用任務調度,對於系統的監控或執行日誌則多是依賴同步組件;

 

2、中斷和恢復

無論採用何種方式將數據同步到索引中,都不得不面對一個靈魂問題,如果流程突然異常中斷,恢復後如何保證索引數據不丟失?這個問題適應於很多複雜的流程;

 

圖片

 

容錯性是衡量一個複雜流程的核心指標,比如在索引數據同步的過程,需要短暫性的暫停,或者流程被迫中斷時,都應該具備恢復後自動修複索引中數據缺失的能力;

 

ES實踐中一個非常經典的問題,修改索引的結構時需要進行索引重建,此時要將當前索引遷入臨時索引中,在完成索引結構調整之後,需要從臨時索引中遷回數據,在此過程中,可以對服務交互的索引名稱動態調整;

 

圖片

 

當然也可以直接使用臨時索引作為交互索引,避免一次遷移動作,這種動態的識別需要在服務中嵌入,在整個reindex過程中要避免手動干預,個人還是更相信程式的安全性和準確性;

 

四、刷新策略

在向ES索引中寫數據時,存在三種不同的數據刷新機制,查看6.8版本的設置中,參數refresh_interval設置的是1s時間,即執行寫入動作1秒後數據才可以被搜索到,避免頻繁寫入消耗過多的資源;

 

NONE:預設的刷新策略,請求提交之後不會等待數據刷新,降低資源消耗但數據實時性低;

 

IMMEDIATE:請求提交後立即刷新索引,數據的實時性很高但是資源消耗過大,API文檔中建議測試使用;

 

WAIT_UNTIL:請求提交之後會等待索引刷新完成才會結束,相對來說是一種比較平衡的策略;

 

刷新機制對於索引的數據維護來說,主要在增刪改的動作中,對即時查詢有直接的影響,至於如何選擇還是要結合具體的場景,尤其與同步方案關聯密切,也可以在索引交互中動態維護策略,來應對不時之需;

 

五、深度分頁

 

對於數據查詢來說,幾乎都存在分頁的需求,在常見的應用中,不斷下拉的功能都是存在最大的極限值;

 

ES中常用From/Size進行分頁查詢,但是存在一個限制,在索引的設置中存在max_result_window分頁深度的限制,6.8版本預設值是10000條,即10000之後的數據無法使用From/Size翻頁;

 

先從實際應用場景來分析,大多數的翻頁需求最多也就前10頁左右,所以從這個角度考慮,ES的翻頁限制在合理區間,在實踐中也存在對部分索引調高的情況,暫未出現明顯問題;

 

再從技術角度來思考一下,如果翻頁的參數過大意味著更多的數據過濾,那計算資源的占用也會升高,ES引擎的強大在於搜索能力,檢索出符合要求的數據即可;

 

圖片

 

不管是ES還是其它類似的分散式存儲組件,甚至是MySQL分庫分表模式,其本質都是數據分佈在不同服務節點的不同數據片上;常規的執行原理都是給請求分配一個主節點,協調各個節點執行相同的查詢,並完成結果彙總和響應,深度分頁時計算資源的占用自然非常高;

 

如果一定需要深度分頁,在6.8的版本中提供了Scroll或Search-After兩種其他的方式,用法參考相關文檔即可。

 

>>>>
參考源碼
  • 編程文檔:

    https://gitee.com/cicadasmile/butte-java-note

  • 應用倉庫:

    https://gitee.com/cicadasmile/butte-flyer-parent

 

作者丨 知了一笑 

本文來自博客園,作者:古道輕風,轉載請註明原文鏈接:https://www.cnblogs.com/88223100/p/ElasticSearch-is-easy-to-use-but-these-south-walls-cannot-be-hit.html


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • windows安裝redis及配置教程,附網盤資源 鏈接:https://pan.baidu.com/s/1KvcyY27_q7aI2hQ7QRsEGA?pwd=iidx 一、windows系統安裝及配置 解壓文件,準備開始配置、安裝服務。 1.1、註冊redis的windows服務 在該文件夾中打 ...
  • windows安裝mysql8免安裝版教程,附網盤資源 鏈接:https://pan.baidu.com/s/1_qagfA-i7CbeWG3urIAlgw?pwd=iidx 提取碼:iidx 一、前言 本次使用的mysql版本為mysql8.0.32,安裝的系統為windows系統。使用免安裝的方 ...
  • 本文分享自華為雲社區《選擇KV資料庫最重要的是什麼?》,作者:GaussDB 資料庫 。 經常有客戶提到KV資料庫,但卻偏偏“不要Redis”。比如有個做安全威脅分析平臺的客戶,他們明確表示自己對可靠性要求非常高,需要的不是開源Redis這種記憶體緩存庫,而是KV資料庫。 雖然最後我也沒問清楚他們業務 ...
  • 一、工具介紹 YCSB 於 2010 年開源,YCSB是雅虎開源的NoSQL測試工具,通常用來對noSQL資料庫進行性能,註意此工具僅支持varchar和text類型,且列的長度可以增加,預設是10列,可以根據自己的需要增加列長。運行一個壓力測試需要 6 步: 配置需要測試的資料庫 選擇合適的資料庫 ...
  • 在MySQL中,如果訪問/連接MySQL資料庫時遇到“ERROR 2003 (HY000): Can't connect to MySQL server on 'xxx.xxx.xxx.xxx:xxx' (111)”這個錯誤,我們應該從哪些方面進行考慮和排查問題呢? 下圖是我總結整理的一個思維導圖, ...
  • 生產者創建消息。在其他基於發佈與訂閱的消息系統中,生產者可能被稱為發佈者 或 寫入者。 一般情況下,一個消息會被髮布到一個特定的主題上。生產者在預設情況下把消息均衡地分佈到主題的所有分區上,而並不關心特定消息會被寫到哪個分區。不過,在某些情況下,生產者會把消息直接寫到指定的分區。這通常是通過消息鍵和 ...
  • ChunJun 是一款穩定、易用、高效、批流一體的數據集成框架,⽀持海量數據的同步與計算。ChunJun 既可以採集靜態的數據,比如 MySQL,HDFS 等,也可以採集實時變化的數據,比如 binlog,Kafka 等。同時 ChunJun 也是一個支持原生 FlinkSQL 所有語法和特性的計算 ...
  • 資料庫設計 一、資料庫設計概述 資料庫的生命周期 從資料庫演變過程的角度來看,資料庫的生命周期可分為兩個階段: 資料庫分析與設計階段 需求分析 概念設計 邏輯設計 物理設計 資料庫實現與操作階段 資料庫的實現 操作與監督 修改與調整 資料庫設計的目標 滿足應用功能需求:主要是指用戶當前與可預知的將來 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...