ElasticStack學習(十):深入ElasticSearch搜索之QueryFiltering、多/單字元串的多欄位查詢

来源:https://www.cnblogs.com/supersnowyao/archive/2019/07/21/11206672.html
-Advertisement-
Play Games

一、複合查詢 1、在ElasticSearch中,有Query和Filter兩種不同的Context。Query Context進行了相關性算分,Filter Context不需要進行算分,同時可以利用Cache,獲取更好的性能。 2、bool Query:一個布爾查詢,是一個或者多個查詢子句的組合 ...


一、複合查詢

  1、在ElasticSearch中,有Query和Filter兩種不同的Context。Query Context進行了相關性算分,Filter Context不需要進行算分,同時可以利用Cache,獲取更好的性能。

  2、bool Query:一個布爾查詢,是一個或者多個查詢子句的組合,總共有四種類型的子句,其中2種影響算分,2種不影響算分。

   布爾查詢也涉及相關性算分,因為匹配的子句越多,相關性算分越高。對於布爾查詢中的每個查詢子句計算得出的算分會被合併到總的相關性算分中。

   子查詢可以任意順序出現,同時可以嵌套多個子查詢。

   

   布爾查詢的算分過程:

    1)查詢Should語句中的查詢;

    2)對查詢結果的評分進行求和;

    3)乘以匹配語句的總數;

    4)除以所有語句的總數;

  3、複合查詢應用

    1)must_not與filter

  

    2)should

  

    3)bool嵌套

  

    4)對於should下同一層級的競爭欄位,具有相同的權重,若通過嵌套bool查詢,可以改變對算分的影響。

   

    5)控制欄位boost權重,來影響查詢返回的結果。

  

  

    6)要求滿足相關度高的文檔在前或者排除不相關條件的文檔,Boosting Query提升了Precision,同時也提升了Recall。

  

  

 二、單字元串多欄位查詢

  1)背景示例展示:

  

  從示例中可以看出,對title和body兩個欄位進行“brown fox”的匹配,由於第二條只有在body中有brown fox,而第一條在title,body中均有匹配。所以,第一條的綜合算分比第二條的算分要高。

  2)Disjunction Max Query

  對於上例中title與body相互競爭,在查詢brown fox時,更應該將第二條信息搜索出來。因此,對於搜索策略不應該將分數簡單相加,而是應該找到最佳匹配的欄位評分。

  Disjunction Max Query可以按最匹配欄位評分進行返回。

   

   從上圖可以看出,通過Disjunction Max Query進行查詢,獲取了最合適的匹配結果。

  3)Tie Breaker

  

  通過對quice pets進行查詢,會發現兩條文檔的評分是一樣的,這是因為quick pets做為查詢Term存在,在title或body中存在,兩者的評分是一樣的。為了獲取最佳匹配,可以使用Tie Breaker。如下圖所示:

  

  可以看出,文檔2排在了文檔1的前面,原因是文檔2的title和body,分別存有quick或pets,而文檔1中只有title存在有一個quick。因此文檔2的評分比文檔1的高。

  Tie Breaker的作用:Tie Breaker是一個介於0-1之間的浮點數,1代表使用最佳匹配;0代表所有語句同等重要。

    獲得最佳匹配語句的評分;

    將其他匹配語句的評分與Tie Breaker相乘;

    對以上評分求和並規範化;

  4)Multi Match

  當輸入單個字元串進行查詢時,通常會遇到三種情形:

    a)最佳欄位

     當欄位之間相互競爭,又相互關聯時,評分來自於最匹配欄位,比如上述的title和body欄位。如當搜索“brown fox”時,此時該片語比兩個獨立的單詞更有意義,因此文檔在相同欄位中包含的詞最多越好,評分也來自於最匹配欄位。

    

    b)多數欄位

    為了對相關度進行微調,常用的技術就是將相同的數據索引到不同的欄位,以匹配更多的文檔。具體操作就是:

      在主欄位抽取詞乾,加入同義詞、變音詞、口語詞,以匹配更多的欄位;

      相同的文本,加入子欄位,以提供更加精確的匹配;

      其他欄位作為匹配文檔提高相關度的信號,匹配欄位最多越好;

    

    通過上圖可以發現,文檔2更符合quicking brown的搜索條件,但是它排在了第2位,原因就是兩個欄位採用了英文分詞器,而查詢的實際上是quick、brown兩個Term,在兩個文檔中的title或body欄位中,存在於這兩個詞。又因為第一個文檔的相應欄位總詞數比第二個文檔的相應欄位總詞數少,所以文檔1評分會較高。

    

    對上圖分析發現,用廣度匹配欄位body,以包括儘可能多的文檔,提升了召回率,同時對body欄位增加了子欄位,將std作為信號將相關度更高的文檔置於結果頂部。

    每個欄位對於最終評分的貢獻可以通過自定義值boost來控制。如下圖所示:

    未設置boost值的情況

    

    將body設置boost的情況

    

    c)混合欄位

    對於某些實體,例如人名、地址、圖書信息。需要在多個欄位中確定信息,單個欄位只能作為整體的一部分。希望在列出的欄位中找到儘可能多的詞。

       比如對於街道+門牌號存在於指定搜索欄位的文檔記錄,如果想用most_fileds進行搜索是無法直接進行搜索的,對於operator=and也不能使用,因為它不適用於跨欄位場景中。

    而之前用於欄位中的copy_to,雖然可以解決此類問題,但是需要額外的存儲空間,因此也不是最優的解決方式。

    

    從上圖中可以看出,cross_fields可以配合operator=and進行跨欄位的查詢匹配,同時與copy_to相比,它還可以在搜索時為單個欄位提升權重,如下圖所示:

     

    

 

  大家可關註我的公眾號 

    

  知識學習來源:阮一鳴:《Elasticsearch核心技術與實戰》 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一、確認centos系統是為64位的,x86的不可以安裝 1. 下載elasticsearch包 2. 用 tar -zxvf 解壓包 3. 增加一個elk用戶,elasticsearch7不可用root用戶運行 4. 新建用戶必須要用 chown -R 用戶名 文件夾:進行許可權分配 二、配置實現外 ...
  • 1. 數據倉庫 數據倉庫一詞尚沒有一個統一的定義,著名的數據倉庫專家W. H. Inmon 在其著作《Buildingthe Data Warehouse》一書中給予如下描述:數據倉庫(Data Warehouse) 是一個面向主題的(Subject Oriented) 、集成的( Integrat ...
  • [學習筆記] Spark通過lazy特性有什麼意義呢? Spark通過lazy特性,可以進行底層的spark應用執行的優化。在生活中,就像三思而後行。謀定而後動。 文章轉載自原文:https://blog.csdn.net/qq_44596980/article/details/93309261 ...
  • MySQL資料庫的特點和優勢: 1.MySQL性能卓越、服務穩定,很少出現異常宕機。 2.MySQL開放源代碼且無版權制約,自主性及使用成本低。 3.MySQL歷史悠久,用戶使用活躍,遇到問題可以尋求幫助。 4.MySQL體積小,安裝方便,易於維護。 5.MySQL口碑效應好,是的企業無需考慮就用之 ...
  • 07.21自我總結 pymysql模塊 一.創建連接庫 二.建立游標 三.提交sql語句 四.查看內容 五.移動游標 相對位置 cursor.scroll(1, "relative") cursor.scroll() 預設是相對位置 絕對位置 cursor.scroll(0, "absolute") ...
  • "分散式架構" "CAP 與 BASE 理論" "一致性協議" "初識 Zookeeper" "Zookeeper 介紹" "Zookeeper 工作機制" "Zookeeper 特點" "Zookeeper 數據結構" "Zookeeper 應用場景" "統一命名服務" "統一配置管理" "統一集 ...
  • Scala當中什麼是Transformation和 Action,以及它們倆的區別是什麼? ...
  • 07.21自我總結 資料庫用戶管理 一.用戶創建語法 語法: create user 用戶名@"ip地址" "identified" by 密碼; 舉例: create user tom@"192.168.101" identified by "123"; 創建除本機以外其他ip第能登入 creat ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...