ElasticSearch固然好用，但這些南牆不能撞

一、管理方式 ElasticSearch作為最常用的搜索引擎組件，在系統架構中發揮極其重要的能力，可以極大的提升數據的載入和檢索效率；但不可否認的是，在長期的應用實踐中，也發現很多不好處理的流程和場景；從直觀感覺上說，業務中對索引的使用主要涉及如圖的幾個流程，其核心也就是索引的結構維護與數據的流動 ...

一、管理方式

ElasticSearch作為最常用的搜索引擎組件，在系統架構中發揮極其重要的能力，可以極大的提升數據的載入和檢索效率；但不可否認的是，在長期的應用實踐中，也發現很多不好處理的流程和場景；

從直觀感覺上說，業務中對索引的使用主要涉及如圖的幾個流程，其核心也就是索引的結構維護與數據的流動管理兩個模塊；

如果數據結構比較簡單且體量小，那麼使用起來可能很順手；如果數據主體複雜且會動態擴展，並且體量偏大，那麼就很容易踩中一些比較坑的點；

比如：索引中欄位一旦有誤，調整的流程十分複雜；數據流向索引中的方式，需要根據場景靈活選擇；以及數據查詢時的深度分頁問題；下麵將圍繞這些問題來總結下應對策略；

順帶補充一句，其實很多組件在應用的時候都有不太符合預期的地方，所以在集成時可以考慮編寫自定義的管理程式，來解決使用時可能存在的問題；

二、結構維護

對於ES索引的結構維護，數據主體如果相對簡單的話，可以考慮手動管理，但實際上使用索引時，通常主體結構都比較複雜，欄位個數超過三五十都很常見，所以基於流程化的管理很有必要；

結構映射：將需要構建索引的主體結構，在欄位庫中統一維護，值得註意的是欄位名稱和類型，欄位可以與關係型資料庫的查詢一致，但是不同組件類型的描述不一樣，尤其對ES來說，如果欄位類型不合理，會影響搜索的使用；

索引結構：在實際的業務場景中，欄位的信息是會動態變化的，這就會給索引結構的維護帶來很多麻煩，欄位的增減都好管理，但是如果涉及類型的變動，則存在索引重建的過程，會導致數據多次重新調度，這也是風險較高的操作；

程式維護：這種結構維護的機制，其核心目的是把整個流程進行程式化管理，避免人工進行干預，以此來確保索引結構的穩定擴展；

不得不提的一個經驗教訓，曾經在管理業務日誌的索引結構時，出現過一次誤刪動作，好在可以重新構建和數據備份恢復，但是依舊給心裡留下了幾釐米的陰影，此後也將維護流程徹底程式化，避免失誤動作發生；

三、數據調度

1、同步方案

數據的調度管理，其本質就是將數據從一個容器向另一個容器搬運或者拷貝，其核心操作就是讀和寫兩個動作，但是為了讓流程具備容錯和穩定性，通常需要做策略和方案的設計；

同步雙寫：對數據的實時性要求極高，通常在一個事務中完成數據的雙寫動作，保證數據層面的強一致性；

非同步解耦：在完成資料庫的寫動作之後，基於MQ消息解耦索引的寫入，流程存在輕微的延遲，如果消費失敗會導致數據缺失；

定時任務：通過任務調度的方式，以指定的時間周期執行新增數據的同步機制，存在明顯的時效問題；

組件同步：採用合適的同步組件，比如官方提供的組件或者一些第三方開源的組件，在原理上與任務同步類似；

數據同步的選型方案有多種，如何選擇完全看具體的場景，在過往的使用過程中，對於核心業務會採用同步雙寫，對於內部的活動類業務會採用非同步的方式，對於業務日誌會採用任務調度，對於系統的監控或執行日誌則多是依賴同步組件；

2、中斷和恢復

無論採用何種方式將數據同步到索引中，都不得不面對一個靈魂問題，如果流程突然異常中斷，恢復後如何保證索引數據不丟失？這個問題適應於很多複雜的流程；

容錯性是衡量一個複雜流程的核心指標，比如在索引數據同步的過程，需要短暫性的暫停，或者流程被迫中斷時，都應該具備恢復後自動修複索引中數據缺失的能力；

ES實踐中一個非常經典的問題，修改索引的結構時需要進行索引重建，此時要將當前索引遷入臨時索引中，在完成索引結構調整之後，需要從臨時索引中遷回數據，在此過程中，可以對服務交互的索引名稱動態調整；

當然也可以直接使用臨時索引作為交互索引，避免一次遷移動作，這種動態的識別需要在服務中嵌入，在整個reindex過程中要避免手動干預，個人還是更相信程式的安全性和準確性；

四、刷新策略

在向ES索引中寫數據時，存在三種不同的數據刷新機制，查看6.8版本的設置中，參數refresh_interval設置的是1s時間，即執行寫入動作1秒後數據才可以被搜索到，避免頻繁寫入消耗過多的資源；

NONE：預設的刷新策略，請求提交之後不會等待數據刷新，降低資源消耗但數據實時性低；

IMMEDIATE：請求提交後立即刷新索引，數據的實時性很高但是資源消耗過大，API文檔中建議測試使用；

WAIT_UNTIL：請求提交之後會等待索引刷新完成才會結束，相對來說是一種比較平衡的策略；

刷新機制對於索引的數據維護來說，主要在增刪改的動作中，對即時查詢有直接的影響，至於如何選擇還是要結合具體的場景，尤其與同步方案關聯密切，也可以在索引交互中動態維護策略，來應對不時之需；

五、深度分頁

對於數據查詢來說，幾乎都存在分頁的需求，在常見的應用中，不斷下拉的功能都是存在最大的極限值；

ES中常用From/Size進行分頁查詢，但是存在一個限制，在索引的設置中存在max_result_window分頁深度的限制，6.8版本預設值是10000條，即10000之後的數據無法使用From/Size翻頁；

先從實際應用場景來分析，大多數的翻頁需求最多也就前10頁左右，所以從這個角度考慮，ES的翻頁限制在合理區間，在實踐中也存在對部分索引調高的情況，暫未出現明顯問題；

再從技術角度來思考一下，如果翻頁的參數過大意味著更多的數據過濾，那計算資源的占用也會升高，ES引擎的強大在於搜索能力，檢索出符合要求的數據即可；

不管是ES還是其它類似的分散式存儲組件，甚至是MySQL分庫分表模式，其本質都是數據分佈在不同服務節點的不同數據片上；常規的執行原理都是給請求分配一個主節點，協調各個節點執行相同的查詢，並完成結果彙總和響應，深度分頁時計算資源的占用自然非常高；

如果一定需要深度分頁，在6.8的版本中提供了Scroll或Search-After兩種其他的方式，用法參考相關文檔即可。

>>>>

參考源碼

編程文檔：

https://gitee.com/cicadasmile/butte-java-note

應用倉庫：

https://gitee.com/cicadasmile/butte-flyer-parent

作者丨知了一笑

本文來自博客園，作者：古道輕風，轉載請註明原文鏈接：https://www.cnblogs.com/88223100/p/ElasticSearch-is-easy-to-use-but-these-south-walls-cannot-be-hit.html