IK分詞器的安裝與使用_ZenDei技術網路在線

IK分詞器的安裝與使用

-Advertisement-

分詞器什麼是IK分詞器？分詞：即把一段中文或者別的劃分成一個個的關鍵字，我們在搜索時會把自己的信息進行分詞，會把資料庫中或者索引庫中的數據進行分詞，然後進行一個匹配操作，Elasticsearch的標準分詞器，會將中文分為一個一個的字，而不是詞，比如：“石原美里”會被分為“石”、“原”、“美”、 ...

分詞器

什麼是IK分詞器？

分詞：即把一段中文或者別的劃分成一個個的關鍵字，我們在搜索時會把自己的信息進行分詞，會把資料庫中或者索引庫中的數據進行分詞，然後進行一個匹配操作，Elasticsearch的標準分詞器，會將中文分為一個一個的字，而不是詞，比如：“石原美里”會被分為“石”、“原”、“美”、“里”，這顯然是不符合要求的，所以我們需要安裝中文分詞器IK來解決這個問題。

IK提供了兩個分詞演算法：ik_smart和ik_max_word，其中ik_smart為最少切分，ik_max_word為最細力度劃分。

安裝IK分詞器

中文分詞插件IK的網址是 https://github.com/medcl/elasticsearch-analysis-ik

我們可以通過find / -name elasticsearch-plugin命令搜索elasticsearch-plugin在什麼地方

安裝IK時要註意將github上示例的版本改成自己的elasticsearch版本，我安裝的是7.6.2，所以改成如下:

/usr/share/elasticsearch/bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.6.2/elasticsearch-analysis-ik-7.6.2.zip

安裝後重啟Elasticsearch服務

我們可以通過如下命令查看安裝的Elasticsearch插件

/usr/share/elasticsearch/bin/elasticsearch-plugin list

使用IK分詞器

首先我們通過最ik_smart小切分來測試

接著，我們通過ik_max_word最細力度切分來測試

但是有些我們自己造的詞，分詞器是無法識別的(比如:白兮會被識別為兩個詞：白和兮)，這就需要我們自己加到分詞器的字典中。

通過RPM方式安裝的IK擴展配置文件地址如下

vim /etc/elasticsearch/analysis-ik/IKAnalyzer.cfg.xml

現在我們在/etc/elasticsearch/analysis-ik目錄下創建一個自己的詞典,例如：my.dic，併在其中添加"白兮"然後保存

這裡要記得將my.dic文件所屬的用戶和組分別改為root和elasticsearch，防止elasticsearch用戶是無法讀取該文件的內容的，我們可以看到預設的其它詞典都是預設屬於root用戶和elasticsearch組的，我們把自定義的詞典也改成這樣

然後將我們新建的my.dic文件增加到IKAnalyzer.cfg.xml配置文件中

添加後重啟Elasticsearch，然後通過kibana再重新測試,可以發現，白兮已經被識別為一個詞了。

如果該文章對您有幫助，請點擊推薦，感謝。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

配置文件初始化異常Configuration system failed to initialize

最近用戶反映一些電腦啟動程式就崩潰，還給演示了一個比較詭異的問題 “把軟體重新拷貝到另外一個目錄，就能正常運行"。還說過一段時間又不能運行需要在換個位置。 ’由於當時沒有設置全局異常，只能藉助系統操作日誌來分析，系統日誌記錄不全，就說發生一個異常程式掛掉。就簡單加上全局異常捕獲。 public ...
Kubernetes K8S 基本概述、設計架構和設計理念

Kubernetes K8S 概述、特性與架構說明，以及核心技術概念和API對象詳解 ...
Linux重定向用法詳解

大家好，我是良許。相信大家平時都會有需要複製粘貼數據的時候，如果是打開文件進行複製粘貼，就不可避免的需要較多的滑鼠與鍵盤的操作，就會比較繁瑣。那麼有沒有可以省掉這些繁瑣操作的複製粘貼的方法呢？答案是肯定的，那就是重定向。重定向是一種高效的方法，無需大量的滑鼠與鍵盤操作就可以完成數據的轉移。重定向 ...
進程間通信小結

下麵簡單的總結一下，自己對進程間通信的理解。首先，要意識到一點：各進程間擁有相互獨立的地址空間，所以進程間無法在用戶態完成通信，必須要藉助操作系統，也就是內核態來完成相應的操作。內核態和用戶態由上圖可知，系統分為內核態和用戶態，其中內核態包括內核，用戶態主要指應用程式。內核控制了電腦的軟體和硬 ...
Jenkins插件的安裝、插件依賴關係及插件版本迭代

Jenkins插件的安裝、插件依賴關係及插件版本迭代本文檔適用於解決 jenkins部署完成後，插件的安裝、依賴及版本迭代問題在有網的環境部署jenkins的插件問題安裝插件因為訪問外網需要手動配置代理的原因，第一次登進去後會出現以下的界面可以選擇配置代理來解決解決後會出現插件的安裝 ...
部署jenkins（docker）

基於docker部署Jenkins 0.我做這個文檔的時候，大概是19年12月前後，那會er2.200是最新版的。 1. 下載鏡像 docker pull jenkins/jenkins 一定要安裝最新版的 jenkins,舊版本，很多插件無法安裝 2. 查看jenkins的詳細信息 docker ...
在Arch上使用Fcitx5

使用Fcitx5,可以使用雙拼，可以使用雲端聯想，可以引用詞庫（不用再自己養詞庫了！） ...
DDR5 SDRAM規格發佈：大容量滿足極速

半導體工程組織JEDEC為動態隨機存取存儲器（DRAM）設定了標準，該組織上周發佈了最終的JESD79-5DDR5規範。新型存儲器是其每引腳數據傳輸速度的兩倍，其存儲設備的容量增加了四倍，降低了工作電壓，並引入了多種方法來提高瘦節點上DRAM的可靠性-並降低功耗。JEDEC說，DDR5 SDRAM將 ...