Elasticsearch-精確查找

来源:https://www.cnblogs.com/wenBlog/archive/2018/03/05/8510152.html
-Advertisement-
Play Games

轉譯:(https://www.elastic.co/guide/en/elasticsearch/guide/current/_finding_exact_values.html#_finding_exact_values) 當進行精確值查找時, 我們會使用過濾器(filters)。過濾器很重要, ...


轉譯:(https://www.elastic.co/guide/en/elasticsearch/guide/current/_finding_exact_values.html#_finding_exact_values

當進行精確值查找時, 我們會使用過濾器(filters)。過濾器很重要,因為它們執行速度非常快,不會計算相關度(直接跳過了整個評分階段)而且很容易被緩存。不過現在只要記住:請儘可能多的使用過濾式查詢。

term 查詢數字編輯

我們首先來看最為常用的 term 查詢, 可以用它處理數字(numbers)、布爾值(Booleans)、日期(dates)以及文本(text)。

讓我們以下麵的例子開始介紹,創建並索引一些表示產品的文檔,文檔里有欄位 `price` 和 `productID` ( `價格` 和 `產品ID` ):
POST /my_store/products/_bulk
{ "index": { "_id": 1 }}
{ "price" : 10, "productID" : "XHDK-A-1293-#fJ3" }
{ "index": { "_id": 2 }}
{ "price" : 20, "productID" : "KDKE-B-9947-#kL5" }
{ "index": { "_id": 3 }}
{ "price" : 30, "productID" : "JODL-X-1937-#pV7" }
{ "index": { "_id": 4 }}
{ "price" : 30, "productID" : "QQPX-R-3956-#aD8" }

 

我們想要做的是查找具有某個價格的所有產品,有關係資料庫背景的人肯定熟悉 SQL,如果我們將其用 SQL 形式表達,會是下麵這樣:

SELECT document
FROM   products
WHERE  price = 20

在 Elasticsearch 的查詢表達式(query DSL)中,我們可以使用 term 查詢達到相同的目的。 term 查詢會查找我們指定的精確值。作為其本身, term 查詢是簡單的。它接受一個欄位名以及我們希望查找的數值:

{
    "term" : {
        "price" : 20
    }
}

通常當查找一個精確值的時候,我們不希望對查詢進行評分計算。只希望對文檔進行包括或排除的計算,所以我們會使用 constant_score 查詢以非評分模式來執行 term 查詢並以一作為統一評分。

最終組合的結果是一個 constant_score 查詢,它包含一個 term 查詢:

GET /my_store/products/_search
{
    "query" : {
        "constant_score" : { 
            "filter" : {
                "term" : { 
                    "price" : 20
                }
            }
        }
    }
}
 

我們用 constant_scoreterm 查詢轉化成為過濾器

我們之前看到過的 term 查詢

執行後,這個查詢所搜索到的結果與我們期望的一致:只有文檔 2 命中並作為結果返回(因為只有 2 的價格是 20 ):

"hits" : [
    {
        "_index" : "my_store",
        "_type" :  "products",
        "_id" :    "2",
        "_score" : 1.0, 
        "_source" : {
          "price" :     20,
          "productID" : "KDKE-B-9947-#kL5"
        }
    }
]

查詢置於 filter 語句內不進行評分或相關度的計算,所以所有的結果都會返回一個預設評分 1

term 查詢文本編輯

如本部分開始處提到過的一樣 ,使用 term 查詢匹配字元串和匹配數字一樣容易。如果我們想要查詢某個具體 UPC ID 的產品,使用 SQL 表達式會是如下這樣:

SELECT product
FROM   products
WHERE  productID = "XHDK-A-1293-#fJ3"

 

轉換成查詢表達式(query DSL),同樣使用 term 查詢,形式如下:

GET /my_store/products/_search
{
    "query" : {
        "constant_score" : {
            "filter" : {
                "term" : {
                    "productID" : "XHDK-A-1293-#fJ3"
                }
            }
        }
    }
}

 

但這裡有個小問題:我們無法獲得期望的結果。為什麼呢?問題不在 term 查詢,而在於索引數據的方式。 如果我們使用 analyze API (分析 API),我們可以看到這裡的 UPC 碼被拆分成多個更小的 token :

GET /my_store/_analyze
{
  "field": "productID",
  "text": "XHDK-A-1293-#fJ3"
}

如下:

{
  "tokens" : [ {
    "token" :        "xhdk",
    "start_offset" : 0,
    "end_offset" :   4,
    "type" :         "<ALPHANUM>",
    "position" :     1
  }, {
    "token" :        "a",
    "start_offset" : 5,
    "end_offset" :   6,
    "type" :         "<ALPHANUM>",
    "position" :     2
  }, {
    "token" :        "1293",
    "start_offset" : 7,
    "end_offset" :   11,
    "type" :         "<NUM>",
    "position" :     3
  }, {
    "token" :        "fj3",
    "start_offset" : 13,
    "end_offset" :   16,
    "type" :         "<ALPHANUM>",
    "position" :     4
  } ]
}

這裡有幾點需要註意:

  • Elasticsearch 用 4 個不同的 token 而不是單個 token 來表示這個 UPC 。
  • 所有字母都是小寫的。
  • 丟失了連字元和哈希符( # )。

所以當我們用 term 查詢查找精確值 XHDK-A-1293-#fJ3 的時候,找不到任何文檔,因為它並不在我們的倒排索引中,正如前面呈現出的分析結果,索引里有四個 token 。

顯然這種對 ID 碼或其他任何精確值的處理方式並不是我們想要的。

為了避免這種問題,我們需要告訴 Elasticsearch 該欄位具有精確值,要將其設置成 not_analyzed 無需分析的。 我們可以在 自定義欄位映射 中查看它的用法。為了修正搜索結果,我們需要首先刪除舊索引(因為它的映射不再正確)然後創建一個能正確映射的新索引:

DELETE /my_store 
PUT /my_store 
{
    "mappings" : {
        "products" : {
            "properties" : {
                "productID" : {
                    "type" : "string",
                    "index" : "not_analyzed" 
                }
            }
        }
    }

}
執行順序說明:

刪除索引是必須的,因為我們不能更新已存在的映射。

在索引被刪除後,我們可以創建新的索引併為其指定自定義映射。

這裡我們告訴 Elasticsearch ,我們不想對 productID 做任何分析。

 

 

 

 

 

現在我們可以為文檔重建索引:

POST /my_store/products/_bulk
{ "index": { "_id": 1 }}
{ "price" : 10, "productID" : "XHDK-A-1293-#fJ3" }
{ "index": { "_id": 2 }}
{ "price" : 20, "productID" : "KDKE-B-9947-#kL5" }
{ "index": { "_id": 3 }}
{ "price" : 30, "productID" : "JODL-X-1937-#pV7" }
{ "index": { "_id": 4 }}
{ "price" : 30, "productID" : "QQPX-R-3956-#aD8" }

 

此時, term 查詢就能搜索到我們想要的結果,讓我們再次搜索新索引過的數據(註意,查詢和過濾並沒有發生任何改變,改變的是數據映射的方式):

GET /my_store/products/_search
{
    "query" : {
        "constant_score" : {
            "filter" : {
                "term" : {
                    "productID" : "XHDK-A-1293-#fJ3"
                }
            }
        }
    }
}
 

因為 productID 欄位是未分析過的, term 查詢不會對其做任何分析,查詢會進行精確查找並返迴文檔 1 。成功!

內部過濾器的操作編輯

在內部,Elasticsearch 會在運行非評分查詢的時執行多個操作:

  1. 查找匹配文檔.

    term 查詢在倒排索引中查找 XHDK-A-1293-#fJ3 然後獲取包含該 term 的所有文檔。本例中,只有文檔 1 滿足我們要求。

  2. 創建 bitset.

    過濾器會創建一個 bitset (一個包含 0 和 1 的數組),它描述了哪個文檔會包含該 term 。匹配文檔的標誌位是 1 。本例中,bitset 的值為 [1,0,0,0] 。在內部,它表示成一個 "roaring bitmap",可以同時對稀疏或密集的集合進行高效編碼。

  3. 迭代 bitset(s)

    一旦為每個查詢生成了 bitsets ,Elasticsearch 就會迴圈迭代 bitsets 從而找到滿足所有過濾條件的匹配文檔的集合。執行順序是啟髮式的,但一般來說先迭代稀疏的 bitset (因為它可以排除掉大量的文檔)。

  4. 增量使用計數.

    Elasticsearch 能夠緩存非評分查詢從而獲取更快的訪問,但是它也會不太聰明地緩存一些使用極少的東西。非評分計算因為倒排索引已經足夠快了,所以我們只想緩存那些我們 知道 在將來會被再次使用的查詢,以避免資源的浪費。

    為了實現以上設想,Elasticsearch 會為每個索引跟蹤保留查詢使用的歷史狀態。如果查詢在最近的 256 次查詢中會被用到,那麼它就會被緩存到記憶體中。當 bitset 被緩存後,緩存會在那些低於 10,000 個文檔(或少於 3% 的總索引數)的段(segment)中被忽略。這些小的段即將會消失,所以為它們分配緩存是一種浪費。

實際情況並非如此(執行有它的複雜性,這取決於查詢計劃是如何重新規劃的,有些啟髮式的演算法是基於查詢代價的),理論上非評分查詢 先於 評分查詢執行。非評分查詢任務旨在降低那些將對評分查詢計算帶來更高成本的文檔數量,從而達到快速搜索的目的。

從概念上記住非評分計算是首先執行的,這將有助於寫出高效又快速的搜索請求。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • order by子句對查詢結果集進行排序 多列和拼接 多列的方式就很簡單了 這句話表示根據 lastname 和 firstname 兩列進行排序,並且是先按照 lastname 進行排序如果有相同的值就按照 firstname 進行排序。 拼接很有意思,可以寫成這個樣子 這是把表達式放在了orde ...
  • 資料庫 mysql 安裝: linux centos7: 在CentOS中預設安裝有MariaDB,這個是MySQL的分支,但為了需要,還是要在系統中安裝MySQL,而且安裝完成之後可以直接覆蓋掉MariaDB。 安裝mysql 1.下載並安裝mysql官方的yum Repository 使用yum ...
  • ORA-28547:connection to server failed,probable Oracle Net admin error ...
  • 前言 在之前的博客中,有過幾篇都寫了關於mysql在linux下的搭建教程,可能以後還會再寫,但是又不想重覆在寫, 於是便想單獨將此抽出來,單獨寫成一篇博客,並詳細記錄一些安裝過程以及遇到的問題解決辦法。順便也將MySql的主從搭建教程也寫在一起,方便以後查閱。 一、MySql安裝 在安裝MySql ...
  • Oracle11g的安裝教程 同時解壓縮兩個zip文件,生成一個database文件夾,進入到database文件夾,點擊setup 去掉安全更新的選項,直接下一步 選擇創建和配置資料庫,點擊下一步 選擇伺服器類,點擊下一步 選擇單例資料庫安裝,點擊下一步 選擇高級安裝,點擊下一步 直接點擊下一步 ...
  • Oracle10g記憶體應該最少為512M,最好為1GB或以上; Oracle11g記憶體最好為2GB或以上 Oracle10g and Oracle11g 必須使用Internet瀏覽器來登錄Oracle資料庫企業管理器,獲取HTTPS埠好的途徑是$ORACLE_HOME\install。筆者電腦 ...
  • MySQL SQL語句的優化,查詢慢日誌,使用工具分析慢查詢日誌,優化的策略 ...
  • 安裝discuz mysqli_contect advice_mysqli_connect不支持的問題 1、問題所在主要是查看php安裝 正常情況下 會有右側的編譯 2、主要是右側標紅色的部分 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...