solr(二) : 整合ik-analyzer

来源:https://www.cnblogs.com/elvinle/archive/2017/12/27/8127875.html
-Advertisement-
Play Games

一. 問題: 在使用solr時, 分詞器解析中文的時候, 是一個一個字解析的. 這並不是我們想要的結果. 而在lucene中, 使用的中文分詞器是 IKAnalyzer. 那麼在solr裡面, 是不是任然可以用這個呢. 二. 整合 ik 1. 修改schema配置文件 打開如下路徑中的managed ...


一. 問題:

在使用solr時, 分詞器解析中文的時候, 是一個一個字解析的. 這並不是我們想要的結果.

而在lucene中, 使用的中文分詞器是 IKAnalyzer. 那麼在solr裡面, 是不是任然可以用這個呢.

 

二. 整合 ik

1. 修改schema配置文件

打開如下路徑中的managed-schema.xml文件.

在文檔的最後面, 加入

 <!--新建 使用 ik 分詞器 解析 的域類型, 分詞,過濾都在類裡面了-->  
  <fieldType name="text_ik_type" class="solr.TextField">   
      <analyzer type="index" useSmart="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>   
      <analyzer type="query" useSmart="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>   
  </fieldType>
  
  <!-- <fieldType name="text_ik_type" class="solr.TextField">   
  <analyzer type="index">
    <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="false" conf="ik.conf" />
    <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
  </analyzer>
  <analyzer type="query">
    <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true" conf="ik.conf" />
    <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
  </analyzer>
  </fieldType> -->
<!--支持ik分詞器的域--> <field name="title_ik" type="text_ik_type" indexed="true" stored="true" /> <field name="content_ik" type="text_ik_type" indexed="true" stored="true" multiValued="true"/> <field name="text_ik" type="text_ik_type" multiValued="true" indexed="true" stored="true"/>

 

2. 加入jar包

在tomcat solr lib中加入ik分詞器的jar包

jar包可以在這裡下載: http://download.csdn.net/download/z____l/10176803

 

3. 加入分詞器配置文件

將前面lucene 裡面出現過的 配置文件拷貝到 classes 文件夾下. 不拷貝也行, 自己新建也可以.

由於這裡我並沒有使用文件夾裝ext,stopword, 所以 IKAnalyzer.cfg.xml文件要做部分修改. 

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">  
<properties>  
    <comment>IK Analyzer 擴展配置</comment>
    <!--用戶可以在這裡配置自己的擴展字典 -->
    <entry key="ext_dict">ext.dic</entry>
    
    <!--用戶可以在這裡配置自己的擴展停止詞字典-->
    <entry key="ext_stopwords">stopword.dic</entry>
    
</properties>

 

三. 結果

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 咖啡店需要做一個訂單系統,以合乎飲料供應要求。 1.最初是這樣設計的: 每一種飲料都需要繼承該抽象類,並覆寫cost()方法。 2.但是購買咖啡時需要考慮到調料的部分,每種咖啡會加不同種的調料,比如蒸奶、豆漿、摩卡或者覆蓋奶泡,那麼訂單系統需要考慮加入不同調料後的價格。因此需要實現不同的子類來定義添 ...
  • In Campaign mode, you can check your strategies on already defeated bases. You will not lose your troops.在戰役模式中,你能查看已被打敗的玩家的塔防策略,而且你不會損失任何戰鬥單位。Let's w ...
  • JAVA中的異常類都繼承自Throwable類,也就是說,這是異常類的根。Throwable類擴展了兩個類Error類和Exception類,Exception類又擴展了一個RuntimeException類。如下圖: Error:稱為錯誤,由Java虛擬機生成並拋出,這類錯誤一般是運行時系統內部的 ...
  • 題目大意:每個人有兩種值Di和Pi,從n個人中選m個人組成集合J,D(J)和P(J)為這m個人的Di與Pi和,使|D(J) - P(J)|最小。若有多個集合J最小,則使D(J) + P(J) 最大。 1<=n<=200, 1<=m<=20 ,Di和Pi最大為20. 註意到Di和Pi的和很小,我們可以 ...
  • 章節:enote筆記法的思考 why enote筆記法: key1)大腦喜歡顏色。 我們的大腦天生就喜歡顏色、對顏色很敏感,這是由我們人類過去的演化歷程決定的。 你可以理解為,文字有了顏色,讓這個冰冷的黑白世界突然有了色彩,變得絢麗多彩、色彩斑斕,充滿溫暖的暖意了起來,這使得讓你能更容易專註起來&保 ...
  • 首先來介紹下 Jetty,根據 wiki 的介紹: Jetty 是一個純粹的基於 Java 的網頁伺服器和 Java Servlet 容器。儘管網頁伺服器通常用來為人們呈現文檔, 但是 Jetty 通常在較大的軟體框架中用於電腦與電腦之間的通信。 Jetty 作為 Eclipse 基金會的一部分 ...
  • GCC4和GCC5使用的C++標準庫下,string的名字不一樣,導致鏈接錯誤。 ...
  • 抽象類(abstract) 以下麵多態的示例來說明: 父類Animal中的sing()方法遲早要被子類Cat、Dog重寫,而且在多態實現下,Animal的sing()完全是多餘的。因此,可以將Animal的sing()方法的方法體刪掉。 更徹底一點,將sing()方法加上abstract關鍵字,這個 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...