在ElasticSearch中使用 IK 中文分詞插件

-Advertisement-

我這裡集成好了一個自帶IK的版本，下載即用， https://github.com/xlb378917466/elasticsearch5.2.include_IK 添加了IK插件意味著你可以使用ik_smart（最粗粒度的拆分）和ik_max_word（最細粒度的拆分）兩種analyzer。你也 ...

我這裡集成好了一個自帶IK的版本，下載即用，

https://github.com/xlb378917466/elasticsearch5.2.include_IK

添加了IK插件意味著你可以使用ik_smart（最粗粒度的拆分）和ik_max_word（最細粒度的拆分）兩種analyzer。

你也可以從下麵這個地址獲取最新的IK源碼，自己集成，

https://github.com/medcl/elasticsearch-analysis-ik，

裡面還提供了使用說明，可以很快上手。

一般使用elasticsearch-head測試比較方便。

這個IK分詞插件挺好用的，支持自定義分詞，更重要的是支持熱更新。

比如上面這個應用程式層是被分成了兩個詞，如果你把應用程式層作為一個詞添加到你的自定義詞典中，那麼結果就會發生微妙的變化，通過這樣不斷的完善詞庫，相信搜索的體驗會越來越好。

現在IK分詞插件也算集成好了，如何使用？

首先新建一個索引，並且給這個索引下的文檔類型設置Mapping關係

這裡還是繼續使用昨天新建的索引twitter作例子，所以只需要給文檔類型tweet 新建一個欄位Content，並設置這一個欄位的Mapping來舉例：

http://localhost:9200/twitter/_mapping/tweet/

{
  "properties": {
    "content": {
      "type": "text",
      "store": "no",
      "term_vector": "with_positions_offsets",
      "analyzer": "ik_smart",
      "search_analyzer": "ik_smart",
      "include_in_all": "true",
      "boost": 8
    }
  }
}

這樣一來，後面添加的Content就會使用ik_smart來分詞，

添加一條測試數據：

http://localhost:9200/twitter/tweet/1/ 選擇Put Method

{
  "content": "應用程式層是一個附加層"
}

查詢測試：

http://localhost:9200/twitter/_search/

使用POST Method,因為我使用ElasticSearch Head 在Get的情況下不返回highlight信息，

{
  "query" : { "match" : { "content" : "應用程式層是一個附加層" }},
  "highlight" : {
        "pre_tags" : ["<tag1>", "<tag2>"],
        "post_tags" : ["</tag1>", "</tag2>"],
        "fields" : {
            "content" : {}
        }
    }
}

返回如下：

使用應用程式關鍵詞是搜不到內容的，因為分詞器不識別這個詞，就是說你要用被你拆分之後的詞來搜索，才有匹配的記錄。

比如下麵幾個就是被拆分出來的詞

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

UNIX編程基礎上

時光飛逝，轉眼已經畢業快2年了，覺得自己學的東西多卻不精。對此深深的思考一下，覺得有必要連載unix環境編程文章，以此激勵自己學習。在此立貼為證，2天一篇博客從零開始闡述unix的環境編程。參考書籍UNIX環境高級編程第三版 ...
vmware 12 安裝 mac os 10.12正式版

1。首先下載安裝vmware 12 pro ,將VT打開（虛擬功能，以前安裝過虛擬機點的同學可忽略）。 2。下載mac ox 10.12正式版鏡像文件（cdr尾碼）。 3。下載Unlocker208（vmware12安裝mac os的補丁）。開始安裝：① 安裝好vmware 12 pro 後，關閉 ...
pwnable flag

http://www.pwnable.kr/ 逆向題目，upx脫殼：找到flag： ...
跨站請求偽造CSRF(Cross-site request forgery)

CSRF（Cross-site request forgery）跨站請求偽造，也被稱為“One Click Attack”或者Session Riding，通常縮寫為CSRF或者XSRF，是一種對網站的惡意利用一般被攻擊步驟： 1.登錄受信任網站A，併在本地生成Cookie。 2.在不登出A的情況 ...
C#非托管跨線程委托調試

使用C#調用mingw的so文件，拿視頻數據回wpf的界面進行顯示，註冊了回調函數。C++在調用回調函數時遇到了委托被回收的問題，提示：“類型的已垃圾回收委托進行了回調。這可能會導致應用程式崩潰、損壞和數據丟失。向非托管代碼傳遞委托時，托管應用程式必須讓這些委托保持活動狀態，直到確信不會再次調用它們 ...
如何使用LightningChart拖放功能進行數據轉移 ?

本文主要介紹如何使用LightningChart擴展拖放功能為所有圖表組件創建圖表，如:系列，標題，軸線等等。支持用滑鼠放置自定義對象到另一個圖表中，如:可以添加或修改JSON/CSV或其他格式的數據。開發人員也可以使用ChartManager工具來協調多個LightningChart控制項。支持 ...
WCF服務端開發和客戶端引用小結

1.服務端開發（包含寄宿） 1.1 WCF服務創建方式創建一個WCF服務，總是會創建一個服務介面和一個服務介面實現。通常根據服務宿主的不同，有兩種創建方式。（1）創建WCF應用程式通過創建WCF服務應用程式，可生成一個帶.svc尾碼名的文件。該文件與webform中的aspx文件類似，有後置代 ...
C# 天氣預報

本文通過一個完整的實例，講解如何通過訪問中國天氣網提供的API介面，實現天氣預報功能。實現天氣預報功能的相關知識點：天氣預報介面【提供風向，風速等功能】：http://www.weather.com.cn/data/sk/101120201.html 天氣預報介面【提供天氣基礎功能】：http: ...