elasticsearch中的數據類型search_as_you_type及查看底層Lucene索引

来源:https://www.cnblogs.com/gong2021/archive/2023/08/16/17636457.html
-Advertisement-
Play Games

```java package com.java3y.austin.test; abstract class A{ public abstract void test(); } class B extends A{ B(){ System.out.println("B的構造函數"); } @Over ...


search_as_you_type欄位類型用於自動補全,當用戶輸入搜索關鍵詞的時候,還沒輸完就可以提示用戶相關內容。as_you_type應該是說當你打字的時候。它會給索引里的這個類型的欄位添加一些子欄位_2gram _3gram和_index_prefix。_2gram的意思是,如果一個值是abcd, 2 gram就是ab bc cd, 3 gram就是abc bcd cde.先混個眼熟。

先看看這個search_as_you_type怎麼用,創建索引:

PUT test_ngram
{
  "mappings": {
    "properties": {
      "title": {
        "type": "search_as_you_type"
      }
    }
  }
}

插入一個文檔:

PUT test_ngram/_doc/1
{
 "title":"i am joe"
}

進行搜索:

GET test_ngram/_search
{
  "query": {
    "multi_match": {
      "query": "jo",
      "type": "bool_prefix",
      "fields": [
        "title"
      ]
    }
  }
}

這裡的搜索條件是jo,不是一個完整的詞,是joe的開頭兩個字母但是仍然能搜索到結果,分數是1.0,如果搜索 i jo,也能搜索到結果,分數是1.287682,更高,註意這裡原來的值是 i am joe,搜索條件是i jo,中間沒有am也能搜索,說明是把搜索條件分成了 i 和jo兩個單詞,即搜索了i也搜索了jo,一個單詞 i 匹配評分是1,但是兩個單詞 i 和 jo都匹配分數就更高,是1.287682,如果jo沒有匹配的話分數應該更低,比如你搜索 i oj 分數就是0.2876821

然後我們再來看看三個詞的搜索 i am jo ,可以看到分數更高了是1.5753641,說明這三個詞都匹配到了,最後一個是首碼匹配,那如果我們搜索 i a jo呢,分數又降低和兩個詞匹配一樣的分數1.287682,說明a並沒有匹配到,為什麼a不能匹配到am呢,不是首碼匹配嗎?這裡只能是最後一個單詞是首碼匹配,比如這裡的 jo,註意是搜索條件裡面的最後一個單詞不是欄位值裡面的最後一個單詞,你搜索i a分數也是1.287682,也能匹配2個詞。

所以結論就是這裡會對搜索條件的最後一個詞進行首碼匹配(如果是中文的話,不是按空格分詞,而是根據ik分詞器分詞)。

還要註意這裡的"type": "bool_prefix",指定了這個參數才能使用首碼匹配,如果去掉這個參數再搜索 jo 是沒有結果的。

 

然後還有一點這裡使用multi_match是為了多欄位搜索,所以你可以在fields參數裡面多指定幾個參數:

"fields": ["title","title._2gram","title._3gram"],這樣也能搜索出結果,但是一般都要帶上主欄位"title",否則搜索不到結果,比如:

GET test_ngram/_search
{
  "query": {
    "multi_match": {
      "query": "wa",
      "type": "bool_prefix", 
      "fields":  ["title._2gram","title._3gram"]
    }
  }
}

這樣就搜索不到,要加上主欄位title,  "fields": ["title","title._2gram","title._3gram"]就能搜到了。

 

那麼前面提到的_2gram _3gram和_index_prefix是怎麼回事呢?,也就是瞭解search_as_you_type的工作原理,這裡我們可以打開底層的Lucene索引來具體看看到底這兩個欄位是怎麼回事

那麼怎麼才能查看es底層的Lucene索引呢,首先有一個工具叫luke,以前是一個獨立的項目,github地址是

https://github.com/DmitryKey/luke

但是後來已經合併到Lucene本身裡面了,你可以下載Lucene

https://lucene.apache.org/core/downloads.html

這裡我用的es版本是7.1.0,下載的Lucene版本是8.7.0,下載的lucene-8.7.0.tgz,(點擊Older releases),下載瞭解壓,找到裡面的luke文件夾,如果是windows,有一個luke.bat雙擊就能運行。運行後是一個swing的界面,可以打開Lucene索引,但是相關的Lucene索引在哪呢?

通過es查詢:

GET test_ngram

響應裡面有一個        "uuid" : "GwxlNOMaRiabTL0BmStlAA",通過它就可以找到索引,比如我這裡的位置就是

...\elasticsearch-7.10.1-windows-x86_64\elasticsearch-7.10.1\data\nodes\0\indices\GwxlNOMaRiabTL0BmStlAA

具體位置根據你的設置不同而不同。通過這個地址可以在luke裡面打開它,點擊open,就選擇這個路徑,打開後看到如下界面:

為什麼啥也沒有呢?好問題。因為es的索引還在緩存中,沒有落盤,如何才能讓它保存了我們好看呢?調用es的介面:

POST test_ngram/_flush

然後在luke中點擊reopen current index,就可以看到有數據。但是這裡為了看得更清楚,我們先刪除所有文檔,再插入一個簡單的值:"on",先刪除文檔:

POST test_ngram/_delete_by_query
{
  "query":{
    "match_all":{}
  }
}

再插入一個文檔並flush:

POST test_ngram/_doc/1
{
 "title":"on"
}
POST test_ngram/_flush

然後在luke中點擊reopen current index,可以看到

左邊是索引里欄位,如果你選擇_2gram或者_3gram,然後點擊show top terms 你會看到右邊是空的,為什麼呢,因為這個唯一的文檔裡面只有一個欄位,這個欄位的值還只有一個詞,所以不會形成2 gram或者3 gram。但是你選擇title._index_prefix,再點擊show top terms,可以看到上圖中顯示的,這裡在菜單裡面點擊導出terms,可以看到

o,1
on,1
on ,1
on  ,1

也就是說會在on後面加上兩個空格,然後依次是o on on一個空格  on兩個空格,所以這就是為什麼這裡你可以搜索o為首碼的原因,已經有o這個term了,可以直接搜索。

然後為了進一步瞭解原理,我們更新一下文檔,然後flush:

POST test_ngram/_doc/1
{
"title":"on a way"
}
POST test_ngram/_flush

reopen current index, expoert terms,可以看到title._2gram有2個:on a和a way各出現了兩次,而title._3gram裡面有1個on a way出現了2次,而導出的title._prefix_index欄位如下:

a,2
a ,2
a w,2
a wa,2
a way,2
a way ,2
o,2
on,2
on ,2
on a,2
on a ,2
on a w,2
on a wa,2
on a way,2
w,2
wa,2
way,2
way ,2
way  ,2

可以看出,就是對on a和a way和on a way進行了edge ngrams,edge ngram就是說,如果有一個單詞abcde,edge ngram之後就是a ab abc abcd abcde,所以先是得到_2gram和_3gram,再對他們進行edge ngrams,就得到了title._prefix_index。所以這就解釋了為什麼你前面搜索i a jo後a搜索不到了,因為i am joe進行edge ngrams後是i 和 i a 和 i am 和i am j 和i am jo 和i am joe,就是沒有i a jo。

查看官網 https://www.elastic.co/guide/en/elasticsearch/reference/current/search-as-you-type.html 可以瞭解更多,裡面提到你還可以使用_4gram,只要你改變max_shingle_size配置

至此你就知道了search_as_you_type的用法和原理,以及該類型欄位包含的子欄位_2gram _3gram _prefix_index,還能通過luke工具分析es底層的Lucene索引的真實面目。

 

   
您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 通常在頁面中嵌套iframe的情況下還需要進行消息傳遞的通信需求。一般分為兩種情況: 1.iframe里的鏈接與父頁面鏈接是非跨域 這種情況處理比較簡單,直接在父級頁面下就可以寫腳本控制iframe里的元素,同時對iframe里的元素進行操作,例如綁定事件,當事件觸發時發送消息給父級頁面。 具體實踐 ...
  • 在 Vue3 中,有許多與響應式相關的函數,例如 toRef、toRefs、isRef、unref 等等。合理地使用這些函數可以在實際開發中大大提高效率。本文將詳細介紹這些函數的用法,讓我們在實際開發中知道應該使用哪些 API 並能夠熟練地回答面試官的相關問題。 ## ref() 大家對於 ref ...
  • 1、安裝tinymce編輯器 npm i tinymcenpm i @tinymce/tinymce-vue 或: yarn add tinymce yarn add @tinymce/tinymce-vue 2、配置中文語言包 地址:中文語言包 註:最好將語言包放在public/langs/或st ...
  • 在本篇技術博文中,我們將深入探討 Uniapp 框架中如何封裝介面,以簡化開發流程並提高效率。介面封裝是一種重要的開發策略,它不僅可以減少代碼量,還能提高代碼的復用性和維護性。 通過閱讀本文,你將深入瞭解 Uniapp 中封裝介面的重要性和優勢,並學會如何實施介面封裝,以提高開發效率和代碼的可維護... ...
  • —————— BEGIN —————— 1、測試對象條件 作為測試對象的醫院信息平臺(或系統)必須具備軟體著作權證書,運行一年以上並通過初驗。 2、標準符合性測試內容包括 3 部分 數據集標準符合性測試 依據標準 WS445-2014、WS 375.9-2012、WS 376.1-2013 的要求, ...
  • 1.3 分層架構演進 1.3.1 傳統四層架構 將領域模型和業務邏輯分離出來,並減少對基礎設施、用戶界面甚至應用層邏輯的依賴,因為它們不屬業務邏輯。將一個夏雜的系統分為不同的層,每層都應該具有良好的內聚性,並且只依賴於比其自身更低的層。 傳統分層架構的基礎設施層位於底層,持久化和消息機制便位於該層。 ...
  • ### 歡迎訪問我的GitHub > 這裡分類和彙總了欣宸的全部原創(含配套源碼):[https://github.com/zq2599/blog_demos](https://github.com/zq2599/blog_demos) ### 本篇概覽 - 一個應用同時連接多個資料庫進行操作,這是 ...
  • 背景: 上文學習了shrio 基本概念後,本章將進一步的落地實踐學習,在springboot中如何去整合shrio,整個過程步驟有個清晰的瞭解。 利用Shiro進行登錄認證主要步驟: 1. 添加依賴:首先,在pom.xml文件中添加Spring Boot和Shiro的相關依賴。 <!-- Sprin ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...