ES 09 - Elasticsearch使用分析器分析索引 + 定製分析器

来源:https://www.cnblogs.com/shoufeng/archive/2019/03/20/10562746.html
-Advertisement-
Play Games

Elasticsearch底層是如何創建索引、分析索引的? 作為全文檢索引擎, 它又是如何對文本進行分詞的? 分詞是否支持自定義? 本篇介紹這些概念. ...


目錄

1 索引分析

索引分析: 將文本塊按照一定的策略分解, 並建立倒排索引的過程. 這個過程由分析器(analyzers)完成.

1.1 分析器的組成

① 字元過濾器(character filter): 去除HTML標簽, 或轉換"&"為"and"等.

② 分詞器(tokenizer): 按照某種規律, 如根據空格、逗號等, 將文本塊進行分解.

③ 標記過濾器(token filter): 所有被分詞器分解的詞都將經過token filters的處理, 它可以修改詞(如小寫化處理)、去掉詞(根據某一規則去掉無意義的詞, 如"a", "the", "的"等), 增加詞(如同義詞"jump"、"leap"等).

註意: 人們一般將分析器通稱為分詞器, 並不是相等的關係, 而是包含的關係.

1.2 倒排索引核心原理-normalization

建立倒排索引時, 會執行 normalization(正常化)操作 —— 將拆分的各個單詞進行相應的處理, 以提高搜索時命中相關聯的文檔的概率.

normalization的方式有: 時態轉換, 單複數轉換, 同義詞轉換, 大小寫轉換等.

比如: 文檔中包含 "mom likes small dogs", 在建立索引時通過normalization處理, 通過 "mother liked little dog" 也能搜索到相關的文檔.

2 ES的預設分析器

(1) ES中的預設分析器: standard tokenizer, 標準分析器, 以單詞為邊界進行分詞. 具有如下功能:

standard token filter: 去掉無意義的標簽, 如<>, &, - 等.

lowercase token filter: 將所有字母轉換為小寫字母.

stop token filer(預設被禁用): 移除停用詞, 比如"a"、"the"等.

(2) 測試預設分析器:

GET _analyze            // ES引擎中已有standard分詞器, 所以可以不指定index
{
    "analyzer": "standard", 
    "text": "There-is a DOG<br/> in house &"
}

3 修改分詞器

(1) 創建索引後可以添加新的分詞器, 添加之前必須先關閉索引, 添加之後再打開:

// 先關閉索引: 
POST address/_close

// 啟用English停用詞token filter
PUT address/_settings
{
    "analysis": {
        "analyzer": {
            "my_token_filter": {        // 自定義的分詞器名稱
                "type": "standard",
                "stopwords": "_english_"
            }
        }
    }
}

// 打開索引: 
POST address/_open

(2) 使用具有停詞功能的分詞器進行分詞:

GET address/_analyze
{
    "analyzer": "my_token_filter", 
    "text": "There-is a DOG<br/> in house &"
}

(3) 返回結果減少了停用詞:

{
    "tokens": [
        {
            "token": "dog",
            "start_offset": 11,
            "end_offset": 14,
            "type": "<ALPHANUM>",
            "position": 3
        },
        {
            "token": "br",
            "start_offset": 15,
            "end_offset": 17,
            "type": "<ALPHANUM>",
            "position": 4
        },
        {
            "token": "house",
            "start_offset": 23,
            "end_offset": 28,
            "type": "<ALPHANUM>",
            "position": 6
        }
    ]
}

4 定製分詞器

4.1 向索引中添加自定義的分詞器

註意: 要先關閉索引, 再添加, 然後再打開索引.

PUT address/_settings
{
    "analysis": {
        "char_filter": {
            "&_to_and": {
                "type": "mapping",
                "mappings": ["&=> and"]
            }
        },
        "filter": {
            "my_stopwords": {
                "type": "stop",
                "stopwords": ["the", "a"]
            }
        },
        "analyzer": {
            "my_analyzer": {            // 自定義的分析器名稱
                "type": "custom",
                "char_filter": ["html_strip", "&_to_and"],  // 跳過HTML標簽, 將&符號轉換為"and"
                "tokenizer": "standard",
                "filter": ["lowercase", "my_stopwords"]     // 轉換為小寫
            }
        }
    }
}

4.2 測試自定義分析器

GET address/_analyze
{
    "analyzer": "my_analyzer", 
    "text": "There-is a DOG<br/> in house &"
}

響應結果中已經對大寫單詞、HTML標簽, 以及"&"做了處理. 鑒於篇幅所限, 這裡省去.

4.3 向映射中添加自定義的分析器

PUT address/_mapping/province
{
    "properties": {
        "content": {
            "type": "text",
            "analyzer": "my_analyzer"
        }
    }
}

此時查看mapping信息:

GET address/_mapping

發現自定義的分析器已經配置到province上了:

{
  "address": {
    "mappings": {
      "province": {
        "properties": {
          "content": {
            "type": "text",
            "analyzer": "my_analyzer"
          },
          "description": {
            "type": "text"
          }
        }
      }
    }
  }
}

版權聲明

作者: ma_shoufeng(馬瘦風)

出處: 博客園 馬瘦風的博客

您的支持是對博主的極大鼓勵, 感謝您的閱讀.

本文版權歸博主所有, 歡迎轉載, 但未經博主同意必須保留此段聲明, 且在文章頁面明顯位置給出原文鏈接, 否則博主保留追究相關人員法律責任的權利.


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 大家都知道,公司買上伺服器,不可能實時線上操作虛擬機,也沒有那個時間和精力登錄到公司的雲服務商官網進行操作,一來不安全,二來也效率不高。 如果是購買的虛擬主機,你可以使用ftp進行本地程式文件傳輸和從虛擬主機下載文件到本地。但是對於雲伺服器來說這種操作方法就顯得落後許多了。 今天主要是重點講解如何使 ...
  • (1)NVIC(嵌套向量中斷):NVIC是Cortex-M3核心的一部分,關於它的資料不在《STM32的技術參考手冊》中,應查閱ARM公司的《Cortex-M3技術參考手冊》Cortex-M3的向量中斷統一由NVIC管理。 (2)EXTI(外部中斷):EXTI是ST公司在其STM32產品上擴展的外中 ...
  • #role應用 #roles跟調用角色的劇本文件應該與roles同級關係,即放在ansible目錄下 #makir /root/ansible/roles/{nginx,http,ftp,mysql,redis} palybook.yml roles/ project/ tasks/ 定義task,... ...
  • 在同一套環境中跑了很多個項目都是用 docker-compose的方式啟動的,導致創建的自定義網路過多出現下麵的報錯 查看自定義網路 這是因為 Docker 預設支持 30 個不同的自定義 bridge 網路,如果超過這個限制,就會提示上面的錯誤。你可以使用命令docker network ls來查 ...
  • 打開/退出 插入 移動 以上四個命令可以配合數字使用,比如10j就是向下移動10行,10h就是向左移動10個字元。 刪除 跳轉 編輯 查找 替換 多文件操作 ...
  • echo -n 不換行輸出 $echo -n "123" $echo "456" 最終輸出 123456 而不是 123 456 echo -e 處理特殊字元 若字元串中出現以下字元,則特別加以處理,而不會將它當成一般文字輸出: \a 發出警告聲; \b 刪除前一個字元; \c 最後不加上換行符號; ...
  • 工具: Setup.exe安裝程式 keygen.exe註冊機 zwt.nfo 查看電腦信息(主要看自己電腦是x86還x64版本) 安裝步驟(所有程式儘量以管理員身份啟動) 1.安裝SecureCRT,一路確定即可。 3.進入SecureCRT安裝目錄,選擇SecureCRT的exe程式(如圖紅色框 ...
  • 相比於普通單片機,STM32 擁有複雜的時鐘系統,相應的控制器稱為 RCC(Reset Clock Controller,複位與時鐘控制器)。每個外設都配備了外設時鐘的開關,當我們不使用某個外設時,可以把這個外設時鐘關閉,從而降低 STM32 的整體功耗。因此,在我們使用外設前,必須要開啟相應外設的 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...