```java package com.java3y.austin.test; abstract class A{ public abstract void test(); } class B extends A{ B(){ System.out.println("B的構造函數"); } @Over ...
search_as_you_type欄位類型用於自動補全,當用戶輸入搜索關鍵詞的時候,還沒輸完就可以提示用戶相關內容。as_you_type應該是說當你打字的時候。它會給索引里的這個類型的欄位添加一些子欄位_2gram _3gram和_index_prefix。_2gram的意思是,如果一個值是abcd, 2 gram就是ab bc cd, 3 gram就是abc bcd cde.先混個眼熟。
先看看這個search_as_you_type怎麼用,創建索引:
PUT test_ngram { "mappings": { "properties": { "title": { "type": "search_as_you_type" } } } }
插入一個文檔:
PUT test_ngram/_doc/1 { "title":"i am joe" }
進行搜索:
GET test_ngram/_search { "query": { "multi_match": { "query": "jo", "type": "bool_prefix", "fields": [ "title" ] } } }
這裡的搜索條件是jo,不是一個完整的詞,是joe的開頭兩個字母但是仍然能搜索到結果,分數是1.0,如果搜索 i jo,也能搜索到結果,分數是1.287682,更高,註意這裡原來的值是 i am joe,搜索條件是i jo,中間沒有am也能搜索,說明是把搜索條件分成了 i 和jo兩個單詞,即搜索了i也搜索了jo,一個單詞 i 匹配評分是1,但是兩個單詞 i 和 jo都匹配分數就更高,是1.287682,如果jo沒有匹配的話分數應該更低,比如你搜索 i oj 分數就是0.2876821
然後我們再來看看三個詞的搜索 i am jo ,可以看到分數更高了是1.5753641,說明這三個詞都匹配到了,最後一個是首碼匹配,那如果我們搜索 i a jo呢,分數又降低和兩個詞匹配一樣的分數1.287682,說明a並沒有匹配到,為什麼a不能匹配到am呢,不是首碼匹配嗎?這裡只能是最後一個單詞是首碼匹配,比如這裡的 jo,註意是搜索條件裡面的最後一個單詞不是欄位值裡面的最後一個單詞,你搜索i a分數也是1.287682,也能匹配2個詞。
所以結論就是這裡會對搜索條件的最後一個詞進行首碼匹配(如果是中文的話,不是按空格分詞,而是根據ik分詞器分詞)。
還要註意這裡的"type": "bool_prefix",指定了這個參數才能使用首碼匹配,如果去掉這個參數再搜索 jo 是沒有結果的。
然後還有一點這裡使用multi_match是為了多欄位搜索,所以你可以在fields參數裡面多指定幾個參數:
"fields": ["title","title._2gram","title._3gram"],這樣也能搜索出結果,但是一般都要帶上主欄位"title",否則搜索不到結果,比如:
GET test_ngram/_search { "query": { "multi_match": { "query": "wa", "type": "bool_prefix", "fields": ["title._2gram","title._3gram"] } } }
這樣就搜索不到,要加上主欄位title, "fields": ["title","title._2gram","title._3gram"]就能搜到了。
那麼前面提到的_2gram _3gram和_index_prefix是怎麼回事呢?,也就是瞭解search_as_you_type的工作原理,這裡我們可以打開底層的Lucene索引來具體看看到底這兩個欄位是怎麼回事
那麼怎麼才能查看es底層的Lucene索引呢,首先有一個工具叫luke,以前是一個獨立的項目,github地址是
https://github.com/DmitryKey/luke
但是後來已經合併到Lucene本身裡面了,你可以下載Lucene
https://lucene.apache.org/core/downloads.html
這裡我用的es版本是7.1.0,下載的Lucene版本是8.7.0,下載的lucene-8.7.0.tgz,(點擊Older releases),下載瞭解壓,找到裡面的luke文件夾,如果是windows,有一個luke.bat雙擊就能運行。運行後是一個swing的界面,可以打開Lucene索引,但是相關的Lucene索引在哪呢?
通過es查詢:
GET test_ngram
響應裡面有一個 "uuid" : "GwxlNOMaRiabTL0BmStlAA",通過它就可以找到索引,比如我這裡的位置就是
...\elasticsearch-7.10.1-windows-x86_64\elasticsearch-7.10.1\data\nodes\0\indices\GwxlNOMaRiabTL0BmStlAA
具體位置根據你的設置不同而不同。通過這個地址可以在luke裡面打開它,點擊open,就選擇這個路徑,打開後看到如下界面:
為什麼啥也沒有呢?好問題。因為es的索引還在緩存中,沒有落盤,如何才能讓它保存了我們好看呢?調用es的介面:
POST test_ngram/_flush
然後在luke中點擊reopen current index,就可以看到有數據。但是這裡為了看得更清楚,我們先刪除所有文檔,再插入一個簡單的值:"on",先刪除文檔:
POST test_ngram/_delete_by_query { "query":{ "match_all":{} } }
再插入一個文檔並flush:
POST test_ngram/_doc/1 { "title":"on" }
POST test_ngram/_flush
然後在luke中點擊reopen current index,可以看到
左邊是索引里欄位,如果你選擇_2gram或者_3gram,然後點擊show top terms 你會看到右邊是空的,為什麼呢,因為這個唯一的文檔裡面只有一個欄位,這個欄位的值還只有一個詞,所以不會形成2 gram或者3 gram。但是你選擇title._index_prefix,再點擊show top terms,可以看到上圖中顯示的,這裡在菜單裡面點擊導出terms,可以看到
o,1 on,1 on ,1 on ,1
也就是說會在on後面加上兩個空格,然後依次是o on on一個空格 on兩個空格,所以這就是為什麼這裡你可以搜索o為首碼的原因,已經有o這個term了,可以直接搜索。
然後為了進一步瞭解原理,我們更新一下文檔,然後flush:
POST test_ngram/_doc/1 { "title":"on a way" }
POST test_ngram/_flush
reopen current index, expoert terms,可以看到title._2gram有2個:on a和a way各出現了兩次,而title._3gram裡面有1個on a way出現了2次,而導出的title._prefix_index欄位如下:
a,2 a ,2 a w,2 a wa,2 a way,2 a way ,2 o,2 on,2 on ,2 on a,2 on a ,2 on a w,2 on a wa,2 on a way,2 w,2 wa,2 way,2 way ,2 way ,2
可以看出,就是對on a和a way和on a way進行了edge ngrams,edge ngram就是說,如果有一個單詞abcde,edge ngram之後就是a ab abc abcd abcde,所以先是得到_2gram和_3gram,再對他們進行edge ngrams,就得到了title._prefix_index。所以這就解釋了為什麼你前面搜索i a jo後a搜索不到了,因為i am joe進行edge ngrams後是i 和 i a 和 i am 和i am j 和i am jo 和i am joe,就是沒有i a jo。
查看官網 https://www.elastic.co/guide/en/elasticsearch/reference/current/search-as-you-type.html 可以瞭解更多,裡面提到你還可以使用_4gram,只要你改變max_shingle_size配置
至此你就知道了search_as_you_type的用法和原理,以及該類型欄位包含的子欄位_2gram _3gram _prefix_index,還能通過luke工具分析es底層的Lucene索引的真實面目。