solr(二) : 整合ik-analyzer_ZenDei技術網路在線

solr(二) : 整合ik-analyzer

-Advertisement-

一. 問題: 在使用solr時, 分詞器解析中文的時候, 是一個一個字解析的. 這並不是我們想要的結果. 而在lucene中, 使用的中文分詞器是 IKAnalyzer. 那麼在solr裡面, 是不是任然可以用這個呢. 二. 整合 ik 1. 修改schema配置文件打開如下路徑中的managed ...

一. 問題:

在使用solr時, 分詞器解析中文的時候, 是一個一個字解析的. 這並不是我們想要的結果.

而在lucene中, 使用的中文分詞器是 IKAnalyzer. 那麼在solr裡面, 是不是任然可以用這個呢.

二. 整合 ik

1. 修改schema配置文件

打開如下路徑中的managed-schema.xml文件.

在文檔的最後面, 加入

 <!--新建 使用 ik 分詞器 解析 的域類型, 分詞,過濾都在類裡面了-->  
  <fieldType name="text_ik_type" class="solr.TextField">   
      <analyzer type="index" useSmart="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>   
      <analyzer type="query" useSmart="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>   
  </fieldType>
  
  <!-- <fieldType name="text_ik_type" class="solr.TextField">   
  <analyzer type="index">
    <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="false" conf="ik.conf" />
    <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
  </analyzer>
  <analyzer type="query">
    <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true" conf="ik.conf" />
    <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
  </analyzer>
  </fieldType> -->

  <!--支持ik分詞器的域-->
  <field name="title_ik" type="text_ik_type" indexed="true" stored="true" />
  <field name="content_ik" type="text_ik_type" indexed="true" stored="true"  multiValued="true"/>
  <field name="text_ik" type="text_ik_type" multiValued="true" indexed="true" stored="true"/>

2. 加入jar包

在tomcat solr lib中加入ik分詞器的jar包

jar包可以在這裡下載: http://download.csdn.net/download/z____l/10176803

3. 加入分詞器配置文件

將前面lucene 裡面出現過的配置文件拷貝到 classes 文件夾下. 不拷貝也行, 自己新建也可以.

由於這裡我並沒有使用文件夾裝ext,stopword, 所以 IKAnalyzer.cfg.xml文件要做部分修改.

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">  
<properties>  
    <comment>IK Analyzer 擴展配置</comment>
    <!--用戶可以在這裡配置自己的擴展字典 -->
    <entry key="ext_dict">ext.dic</entry>
    
    <!--用戶可以在這裡配置自己的擴展停止詞字典-->
    <entry key="ext_stopwords">stopword.dic</entry>
    
</properties>

三. 結果

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

JAVA設計模式之裝飾者模式

咖啡店需要做一個訂單系統，以合乎飲料供應要求。 1.最初是這樣設計的：每一種飲料都需要繼承該抽象類，並覆寫cost()方法。 2.但是購買咖啡時需要考慮到調料的部分，每種咖啡會加不同種的調料，比如蒸奶、豆漿、摩卡或者覆蓋奶泡，那麼訂單系統需要考慮加入不同調料後的價格。因此需要實現不同的子類來定義添 ...
EmpireofCode文檔翻譯 https://empireofcode.com/game/

In Campaign mode, you can check your strategies on already defeated bases. You will not lose your troops.在戰役模式中，你能查看已被打敗的玩家的塔防策略，而且你不會損失任何戰鬥單位。Let's w ...
java異常處理機制

JAVA中的異常類都繼承自Throwable類，也就是說，這是異常類的根。Throwable類擴展了兩個類Error類和Exception類，Exception類又擴展了一個RuntimeException類。如下圖： Error：稱為錯誤，由Java虛擬機生成並拋出，這類錯誤一般是運行時系統內部的 ...
poj 1015 Jury Compromise

題目大意：每個人有兩種值Di和Pi，從n個人中選m個人組成集合J，D(J)和P(J)為這m個人的Di與Pi和，使|D(J) - P(J)|最小。若有多個集合J最小，則使D(J) + P(J) 最大。 1<=n<=200, 1<=m<=20 ，Di和Pi最大為20. 註意到Di和Pi的和很小，我們可以 ...
enote筆記法的思考

章節：enote筆記法的思考 why enote筆記法： key1）大腦喜歡顏色。我們的大腦天生就喜歡顏色、對顏色很敏感，這是由我們人類過去的演化歷程決定的。你可以理解為，文字有了顏色，讓這個冰冷的黑白世界突然有了色彩，變得絢麗多彩、色彩斑斕，充滿溫暖的暖意了起來，這使得讓你能更容易專註起來&保 ...
Java使用Jetty實現嵌入式Web伺服器及Servlet容器

首先來介紹下 Jetty，根據 wiki 的介紹： Jetty 是一個純粹的基於 Java 的網頁伺服器和 Java Servlet 容器。儘管網頁伺服器通常用來為人們呈現文檔，但是 Jetty 通常在較大的軟體框架中用於電腦與電腦之間的通信。 Jetty 作為 Eclipse 基金會的一部分 ...
由於C++類庫版本不同導致的OpenCV編譯鏈接錯誤

GCC4和GCC5使用的C++標準庫下，string的名字不一樣，導致鏈接錯誤。 ...
java面向對象基礎(四)：抽象類和介面

抽象類(abstract) 以下麵多態的示例來說明：父類Animal中的sing()方法遲早要被子類Cat、Dog重寫，而且在多態實現下，Animal的sing()完全是多餘的。因此，可以將Animal的sing()方法的方法體刪掉。更徹底一點，將sing()方法加上abstract關鍵字，這個 ...