ES 09 - Elasticsearch使用分析器分析索引 + 定製分析器

-Advertisement-

Elasticsearch底層是如何創建索引、分析索引的? 作為全文檢索引擎, 它又是如何對文本進行分詞的? 分詞是否支持自定義? 本篇介紹這些概念. ...

1 索引分析
- 1.1 分析器的組成
- 1.2 倒排索引核心原理-normalization
2 ES的預設分析器
3 修改分詞器
4 定製分詞器

1 索引分析

索引分析: 將文本塊按照一定的策略分解, 並建立倒排索引的過程. 這個過程由分析器(analyzers)完成.

1.1 分析器的組成

① 字元過濾器(character filter): 去除HTML標簽, 或轉換"&"為"and"等.

② 分詞器(tokenizer): 按照某種規律, 如根據空格、逗號等, 將文本塊進行分解.

③ 標記過濾器(token filter): 所有被分詞器分解的詞都將經過token filters的處理, 它可以修改詞(如小寫化處理)、去掉詞(根據某一規則去掉無意義的詞, 如"a", "the", "的"等), 增加詞(如同義詞"jump"、"leap"等).

註意: 人們一般將分析器通稱為分詞器, 並不是相等的關係, 而是包含的關係.

1.2 倒排索引核心原理-normalization

建立倒排索引時, 會執行 normalization(正常化)操作 —— 將拆分的各個單詞進行相應的處理, 以提高搜索時命中相關聯的文檔的概率.

normalization的方式有: 時態轉換, 單複數轉換, 同義詞轉換, 大小寫轉換等.

比如: 文檔中包含 "mom likes small dogs", 在建立索引時通過normalization處理, 通過 "mother liked little dog" 也能搜索到相關的文檔.

2 ES的預設分析器

(1) ES中的預設分析器: standard tokenizer, 標準分析器, 以單詞為邊界進行分詞. 具有如下功能:

standard token filter: 去掉無意義的標簽, 如<>, &, - 等.

lowercase token filter: 將所有字母轉換為小寫字母.

stop token filer(預設被禁用): 移除停用詞, 比如"a"、"the"等.

(2) 測試預設分析器:

GET _analyze            // ES引擎中已有standard分詞器, 所以可以不指定index
{
    "analyzer": "standard", 
    "text": "There-is a DOG<br/> in house &"
}

3 修改分詞器

(1) 創建索引後可以添加新的分詞器, 添加之前必須先關閉索引, 添加之後再打開:

// 先關閉索引: 
POST address/_close

// 啟用English停用詞token filter
PUT address/_settings
{
    "analysis": {
        "analyzer": {
            "my_token_filter": {        // 自定義的分詞器名稱
                "type": "standard",
                "stopwords": "_english_"
            }
        }
    }
}

// 打開索引: 
POST address/_open

(2) 使用具有停詞功能的分詞器進行分詞:

GET address/_analyze
{
    "analyzer": "my_token_filter", 
    "text": "There-is a DOG<br/> in house &"
}

(3) 返回結果減少了停用詞:

{
    "tokens": [
        {
            "token": "dog",
            "start_offset": 11,
            "end_offset": 14,
            "type": "<ALPHANUM>",
            "position": 3
        },
        {
            "token": "br",
            "start_offset": 15,
            "end_offset": 17,
            "type": "<ALPHANUM>",
            "position": 4
        },
        {
            "token": "house",
            "start_offset": 23,
            "end_offset": 28,
            "type": "<ALPHANUM>",
            "position": 6
        }
    ]
}

4 定製分詞器

4.1 向索引中添加自定義的分詞器

註意: 要先關閉索引, 再添加, 然後再打開索引.

PUT address/_settings
{
    "analysis": {
        "char_filter": {
            "&_to_and": {
                "type": "mapping",
                "mappings": ["&=> and"]
            }
        },
        "filter": {
            "my_stopwords": {
                "type": "stop",
                "stopwords": ["the", "a"]
            }
        },
        "analyzer": {
            "my_analyzer": {            // 自定義的分析器名稱
                "type": "custom",
                "char_filter": ["html_strip", "&_to_and"],  // 跳過HTML標簽, 將&符號轉換為"and"
                "tokenizer": "standard",
                "filter": ["lowercase", "my_stopwords"]     // 轉換為小寫
            }
        }
    }
}

4.2 測試自定義分析器

GET address/_analyze
{
    "analyzer": "my_analyzer", 
    "text": "There-is a DOG<br/> in house &"
}

響應結果中已經對大寫單詞、HTML標簽, 以及"&"做了處理. 鑒於篇幅所限, 這裡省去.

4.3 向映射中添加自定義的分析器

PUT address/_mapping/province
{
    "properties": {
        "content": {
            "type": "text",
            "analyzer": "my_analyzer"
        }
    }
}

此時查看mapping信息:

GET address/_mapping

發現自定義的分析器已經配置到province上了:

{
  "address": {
    "mappings": {
      "province": {
        "properties": {
          "content": {
            "type": "text",
            "analyzer": "my_analyzer"
          },
          "description": {
            "type": "text"
          }
        }
      }
    }
  }
}

版權聲明

作者: ma_shoufeng(馬瘦風)

出處: 博客園馬瘦風的博客

您的支持是對博主的極大鼓勵, 感謝您的閱讀.

本文版權歸博主所有, 歡迎轉載, 但未經博主同意必須保留此段聲明, 且在文章頁面明顯位置給出原文鏈接, 否則博主保留追究相關人員法律責任的權利.

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Linux中ssh的用法

大家都知道，公司買上伺服器，不可能實時線上操作虛擬機，也沒有那個時間和精力登錄到公司的雲服務商官網進行操作，一來不安全，二來也效率不高。如果是購買的虛擬主機，你可以使用ftp進行本地程式文件傳輸和從虛擬主機下載文件到本地。但是對於雲伺服器來說這種操作方法就顯得落後許多了。今天主要是重點講解如何使 ...
STM32中EXTI和NVIC的關係

（1）NVIC(嵌套向量中斷)：NVIC是Cortex-M3核心的一部分，關於它的資料不在《STM32的技術參考手冊》中，應查閱ARM公司的《Cortex-M3技術參考手冊》Cortex-M3的向量中斷統一由NVIC管理。（2）EXTI(外部中斷)：EXTI是ST公司在其STM32產品上擴展的外中 ...
ansible-play中role的基本用法

#role應用 #roles跟調用角色的劇本文件應該與roles同級關係,即放在ansible目錄下 #makir /root/ansible/roles/{nginx,http,ftp,mysql,redis} palybook.yml roles/ project/ tasks/ 定義task，... ...
【解決】could not find an available, non-overlapping IPv4 address pool among the defaults to assign to the network

在同一套環境中跑了很多個項目都是用 docker-compose的方式啟動的，導致創建的自定義網路過多出現下麵的報錯查看自定義網路這是因為 Docker 預設支持 30 個不同的自定義 bridge 網路，如果超過這個限制，就會提示上面的錯誤。你可以使用命令docker network ls來查 ...
vim常用的命令

打開/退出插入移動以上四個命令可以配合數字使用，比如10j就是向下移動10行，10h就是向左移動10個字元。刪除跳轉編輯查找替換多文件操作 ...
linux echo命令的-n、-e兩個參數

echo -n 不換行輸出 $echo -n "123" $echo "456" 最終輸出 123456 而不是 123 456 echo -e 處理特殊字元若字元串中出現以下字元，則特別加以處理，而不會將它當成一般文字輸出： \a 發出警告聲； \b 刪除前一個字元； \c 最後不加上換行符號； ...
CRT7.3.1版本暗轉步驟

工具： Setup.exe安裝程式 keygen.exe註冊機 zwt.nfo 查看電腦信息（主要看自己電腦是x86還x64版本）安裝步驟（所有程式儘量以管理員身份啟動） 1.安裝SecureCRT，一路確定即可。 3.進入SecureCRT安裝目錄，選擇SecureCRT的exe程式（如圖紅色框 ...
STM32的AFIO時鐘什麼時候需要開啟

相比於普通單片機，STM32 擁有複雜的時鐘系統，相應的控制器稱為 RCC（Reset Clock Controller，複位與時鐘控制器）。每個外設都配備了外設時鐘的開關，當我們不使用某個外設時，可以把這個外設時鐘關閉，從而降低 STM32 的整體功耗。因此，在我們使用外設前，必須要開啟相應外設的 ...