IK分詞器的安裝與使用

来源:https://www.cnblogs.com/itbsl/archive/2020/07/27/13387743.html
-Advertisement-
Play Games

分詞器 什麼是IK分詞器? 分詞:即把一段中文或者別的劃分成一個個的關鍵字,我們在搜索時會把自己的信息進行分詞,會把資料庫中或者索引庫中的數據進行分詞,然後進行一個匹配操作,Elasticsearch的標準分詞器,會將中文分為一個一個的字,而不是詞,比如:“石原美里”會被分為“石”、“原”、“美”、 ...


分詞器

什麼是IK分詞器?

分詞:即把一段中文或者別的劃分成一個個的關鍵字,我們在搜索時會把自己的信息進行分詞,會把資料庫中或者索引庫中的數據進行分詞,然後進行一個匹配操作,Elasticsearch的標準分詞器,會將中文分為一個一個的字,而不是詞,比如:“石原美里”會被分為“石”、“原”、“美”、“里”,這顯然是不符合要求的,所以我們需要安裝中文分詞器IK來解決這個問題。

IK提供了兩個分詞演算法:ik_smart和ik_max_word,其中ik_smart為最少切分,ik_max_word為最細力度劃分。

安裝IK分詞器

中文分詞插件IK的網址是 https://github.com/medcl/elasticsearch-analysis-ik

我們可以通過find / -name elasticsearch-plugin命令搜索elasticsearch-plugin在什麼地方

安裝IK時要註意將github上示例的版本改成自己的elasticsearch版本,我安裝的是7.6.2,所以改成如下:

/usr/share/elasticsearch/bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.6.2/elasticsearch-analysis-ik-7.6.2.zip

安裝後重啟Elasticsearch服務

我們可以通過如下命令查看安裝的Elasticsearch插件

/usr/share/elasticsearch/bin/elasticsearch-plugin list

使用IK分詞器

首先我們通過最ik_smart小切分來測試

接著,我們通過ik_max_word最細力度切分來測試

但是有些我們自己造的詞,分詞器是無法識別的(比如:白兮會被識別為兩個詞:白和兮),這就需要我們自己加到分詞器的字典中。

通過RPM方式安裝的IK擴展配置文件地址如下

vim /etc/elasticsearch/analysis-ik/IKAnalyzer.cfg.xml

現在我們在/etc/elasticsearch/analysis-ik目錄下創建一個自己的詞典,例如:my.dic,併在其中添加"白兮"然後保存

這裡要記得將my.dic文件所屬的用戶和組分別改為root和elasticsearch,防止elasticsearch用戶是無法讀取該文件的內容的,我們可以看到預設的其它詞典都是預設屬於root用戶和elasticsearch組的,我們把自定義的詞典也改成這樣

然後將我們新建的my.dic文件增加到IKAnalyzer.cfg.xml配置文件中

添加後重啟Elasticsearch,然後通過kibana再重新測試,可以發現,白兮已經被識別為一個詞了。

如果該文章對您有幫助,請點擊推薦,感謝。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 最近用戶反映一些電腦啟動程式就崩潰,還給演示了一個比較詭異的問題 “把軟體重新拷貝到另外一個目錄,就能正常運行"。還說過一段時間又不能運行需要在換個位置。 ’由於當時沒有設置全局異常,只能藉助系統操作日誌來分析, 系統日誌記錄不全,就說發生一個異常程式掛掉。 就簡單加上全局異常捕獲。 public ...
  • Kubernetes K8S 概述、特性與架構說明,以及核心技術概念和API對象詳解 ...
  • 大家好,我是良許。 相信大家平時都會有需要複製粘貼數據的時候,如果是打開文件進行複製粘貼,就不可避免的需要較多的滑鼠與鍵盤的操作,就會比較繁瑣。那麼有沒有可以省掉這些繁瑣操作的複製粘貼的方法呢? 答案是肯定的,那就是重定向。重定向是一種高效的方法,無需大量的滑鼠與鍵盤操作就可以完成數據的轉移。重定向 ...
  • 下麵簡單的總結一下,自己對進程間通信的理解。首先,要意識到一點:各進程間擁有相互獨立的地址空間,所以進程間無法在用戶態完成通信,必須要藉助操作系統,也就是內核態來完成相應的操作。 內核態和用戶態 由上圖可知,系統分為內核態和用戶態,其中內核態包括內核,用戶態主要指應用程式。內核控制了電腦的軟體和硬 ...
  • Jenkins插件的安裝、插件依賴關係及插件版本迭代 本文檔適用於解決 jenkins部署 完成後,插件的安裝、依賴及版本迭代問題 在有網的環境部署jenkins的插件問題 安裝插件 因為訪問外網需要手動配置代理的原因,第一次登進去後會出現以下的界面 可以選擇配置代理來解決 解決後會出現 插件的安裝 ...
  • 基於docker部署Jenkins 0.我做這個文檔的時候,大概是19年12月前後,那會er2.200是最新版的。 1. 下載鏡像 docker pull jenkins/jenkins 一定要安裝最新版的 jenkins,舊版本,很多插件無法安裝 2. 查看jenkins的詳細信息 docker ...
  • 使用Fcitx5,可以使用雙拼,可以使用雲端聯想,可以引用詞庫(不用再自己養詞庫了!) ...
  • 半導體工程組織JEDEC為動態隨機存取存儲器(DRAM)設定了標準,該組織上周發佈了最終的JESD79-5DDR5規範。新型存儲器是其每引腳數據傳輸速度的兩倍,其存儲設備的容量增加了四倍,降低了工作電壓,並引入了多種方法來提高瘦節點上DRAM的可靠性-並降低功耗。JEDEC說,DDR5 SDRAM將 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...