Solr5.5.1 IK中文分詞配置與使用

-Advertisement-

前言用過Lucene.net的都知道，我們自己搭建索引伺服器時和解決搜索匹配度的問題都用到過盤古分詞。其中包含一個詞典。那麼既然用到了這種國際化的框架，那麼就避免不了中文分詞。尤其是國內特殊行業比較多。比如油田系統從勘探、打井、投產等若幹環節都涉及一些專業辭彙。再像電商，手機、手機配件、筆記本 ...

前言

用過Lucene.net的都知道，我們自己搭建索引伺服器時和解決搜索匹配度的問題都用到過盤古分詞。其中包含一個詞典。那麼既然用到了這種國際化的框架，那麼就避免不了中文分詞。尤其是國內特殊行業比較多。比如油田系統從勘探、打井、投產等若幹環節都涉及一些專業辭彙。再像電商，手機、手機配件、筆記本、筆記本配件之類。汽車，品牌、車系、車型等等，這一系列數據背後都涉及各自領域的專業名次，所以中文分詞就最終的目的還是為瞭解決搜索結果的精確度和匹配度的問題。

IK搜索預覽

我的univeral Core里包含兩條數據，第二條數據的title和author都是中文的。然後我用關鍵字q=title:平凡來搜索，搜索出來第二條數據。如果你在你的索引庫里沒搜索出來也不要奇怪，配置下IK中文分詞就可以了。

中文語義分析

在索引庫Core左側菜單Analysis中，你可以輸入複雜的查詢【關鍵字】，選擇對應欄位，點擊【Analysis Values】會幫你分析出當前這個複雜的片語都會分解出那幾個搜索關鍵字或關鍵詞來。如果這裡滿足不了你的專業辭彙，那就該從詞典下手了。我這裡輸入了：平凡的世界。分析後得出兩個詞：平凡、世界。也就是我在上一張圖中用平凡搜索的結果。

中文分詞的配置和使用

1、下載對應IK版本。我本地部署的Solr5.5.1。所以就下載最新版本。

2、把ik目錄下的文件複製到tomcat/webapps/solr/WEB-INF/lib目錄下。 ik目錄里有一個ext.dic、stopword.dic。可以打開看一看裡面內容。

3、修改schema.xml。我本地是univeral/conf/managed-schema。增加中文分詞配置節點，內容如下

<fieldType name="text_ik" class="solr.TextField">   
        <analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>   
        <analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>   
</fieldType>

4、修改對應field的類型。我修改了兩個欄位

<field name="title" type="text_ik" indexed="true" stored="true" required="true" multiValued="false" />
<field name="author" type="text_ik" indexed="true" stored="true" required="true" multiValued="false" />

參考教程：http://www.cnblogs.com/zhangweizhong/p/5593909.html

備註

如果之前你已經創建了索引，那麼配置IK中文分詞後先修改schema.xml中的field對應類型。清空索引後重新創建索引。 OK。大功搞成。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

C#限製程序只能運行一個實例（防多開）

//方法一：只禁止多個進程運行 using System; using System.Collections.Generic; using System.Windows.Forms; namespace DuoYeMianIE { static class Program { /// <summar ...
遞歸方法綁定多級動態目錄

在編程中很可能使用到多級動態目錄,如果使用一般的方法將多級目錄綁定到Treeview就顯得非常局促了,所以,最好的辦法就是使用遞歸,使用遞歸就完全不用去考慮目錄的層次有多深.代碼其實很簡單. View Code 1 protected void Page_Load(object sender, Ev ...
C#與sql類型

1bit 符號位,11bit 指數位,52bit 尾數位,±5.0E−324 到±1.79E+308 的浮點精度數字 15位有效數字 (char,nchar,text,ntext,varchar,nvarchar,xml) ...
ListView靈活的用法

以下是示例的效果圖： WinForm的ListView控制項是可以分組顯示的，還可排序。可以把ListView的View屬性設置為Details完整項目請到下麵網址查找下載http://hovertree.com/hovertreescj/或者：http://hovertree.com/h/bjaf/ ...
EntityFramework性能之預生成視圖

前面提到過這個網址:性能註意事項（實體框架） https://msdn.microsoft.com/zh-cn/library/cc853327.aspx註意版本: .NET Framework (current version) (還有一個其他版本, .NET Framework 4). 此文提到 ...
ASP.NET Identity 使用TIP (一)

1.ASP.NET Identity 適用所有類型的asp.net程式 ASP.NET MVC, Web Forms, Web Pages, Web API, and SignalR。 2.非常方便的擴展用戶數據欄位。只需一行代碼設置好你的資料庫連接信息：修改context的名稱：打開試圖-》... ...
Signalr實現消息推送

一、前言大多數系統裡面好像都有獲取消息的功能，但這些消息來源都不是實時的，比如你開兩個瀏覽器，用兩個不同的賬號登錄，用一個賬號給另外一個賬號發送消息，然而並不會實時收到消息，必須要自己手動F5刷新一下頁面才會顯示自己的消息，這樣感覺用戶體驗不太好。之前看了Learning hard關於Signal ...
【轉】asp.net(c#)使用HttpWebRequest附加攜帶請求參數以post方式模擬上傳大文件(以圖片為例)到Web伺服器端

原文地址：http://docode.top/Article/Detail/10002 目錄： 1、Http協議上傳文件（以圖片為例）請求報文體內容格式 2、完整版HttpWebRequest模擬上傳文件請求報文內容封裝 3、asp.net(c#)使用HttpWebRequest攜帶請求參數模擬上傳 ...