【轉】jieba.NET與Lucene.Net的集成

来源:http://www.cnblogs.com/yunspider/archive/2017/10/20/7700765.html
-Advertisement-
Play Games

首先聲明:我對Lucene.Net並不熟悉,但搜索確實是分詞的一個重要應用,所以這裡還是嘗試將兩者集成起來,也許對你有一參考。 看到了兩個中文分詞與Lucene.Net的集成項目:Lucene.Net.Analysis.PanGu和Lucene.Net.Analysis.MMSeg,參考其中的代碼實 ...


首先聲明:我對Lucene.Net並不熟悉,但搜索確實是分詞的一個重要應用,所以這裡還是嘗試將兩者集成起來,也許對你有一參考。

看到了兩個中文分詞與Lucene.Net的集成項目:Lucene.Net.Analysis.PanGuLucene.Net.Analysis.MMSeg,參考其中的代碼實現了最簡單的集成:jiebaForLuceneNet。下麵給出簡單的介紹。

1、JiebaTokenizer

主要的集成點是自定義一個Tokenizer的子類,此時必須要實現它的抽象方法IncrementToken,該方法用於對文本流中的文本生成的token進行遍歷,這正是分片語件發揮作用的地方。

複製代碼
public override bool IncrementToken()
{
    ClearAttributes();
    position++;
    if (position < tokens.Count)
    {
        var token = tokens[position];
        termAtt.SetTermBuffer(token.Word);
        offsetAtt.SetOffset(token.StartIndex, token.EndIndex);
        typeAtt.Type = "Jieba";
        return true;
    }

    End();
    return false;
}
複製代碼

termAtt和offsetAtt所在的兩行代碼需要用到每一個token的詞本身、起始索引和終止索引,而這三個值恰好是JiebaSegmenter.Tokenize方法所實現的,所以只要在初始化JiebaTokenizer時使用:

tokens = segmenter.Tokenize(text, TokenizerMode.Search).ToList();

就可以得到所有分詞所得的token,另外TokenizerMode.Search參數使得Tokenize方法的結果中包含更全面的分詞結果,比如“語言學家”會得到四個token,即“[語言, (0, 2)], [學家, (2, 4)], [語言學, (0, 3)], [語言學家, (0, 4)]”,這在創建索引和搜索時都很有幫助。

2、JiebaAnalyzer

Tokenizer類實現分詞,而添加索引和搜索需要的是Analyzer,JiebaAnalyzer只要調用JiebaTokenizer即可。

複製代碼
public override TokenStream TokenStream(string fieldName, TextReader reader)
{
    var seg = new JiebaSegmenter();
    TokenStream result = new JiebaTokenizer(seg, reader);
    // This filter is necessary, because the parser converts the queries to lower case.
    result = new LowerCaseFilter(result);
    result = new StopFilter(true, result, StopWords);
    return result;
}
複製代碼

除了JiebaTokenizer,JiebaAnalyzer還會用到LowerCaseFilterStopFilter。前者可將索引和搜索的內容正則化,忽略大小寫,後者則過濾掉停用詞。這裡使用的停用詞列表合併了NLTK的英文停用詞和哈工大的中文停用詞。

3、創建索引和搜索

創建索引時,IndexWriter要使用JiebaAnalyzer的實例:

複製代碼
var analyzer = new JiebaAnalyzer();

using (var writer = new IndexWriter(Directory, analyzer, IndexWriter.MaxFieldLength.UNLIMITED))
{
    // replaces older entry if any
    foreach (var sd in data)
    {
        AddToLuceneIndex(sd, writer);
    }

    analyzer.Close();
}
複製代碼

搜索的時候,先將用戶的輸入分詞:

複製代碼
private static string GetKeyWordsSplitBySpace(string keywords, JiebaTokenizer tokenizer)
{
    var result = new StringBuilder();

    var words = tokenizer.Tokenize(keywords);

    foreach (var word in words)
    {
        if (string.IsNullOrWhiteSpace(word.Word))
        {
            continue;
        }

        result.AppendFormat("{0} ", word.Word);
    }

    return result.ToString().Trim();
}
複製代碼

比如如果用戶輸入的是“語言學家”,那麼該函數的返回值是“語言 學家 語言學 語言學家”,為後面的搜索做好準備(另外,我們還可以為每個詞加上一個*,這樣只要部分匹配就可以搜到結果)。最後的搜索實現是:

複製代碼
private static IEnumerable<News> SearchQuery(string searchQuery, string searchField = "")
{
    if (string.IsNullOrEmpty(searchQuery.Replace("*", "").Replace("?", "")))
    {
        return new List<News>();
    }

    using (var searcher = new IndexSearcher(Directory, false))
    {
        var hitsLimit = 1000;
        //var analyzer = new StandardAnalyzer(Version.LUCENE_30);
        var analyzer = GetAnalyzer();

        if (!string.IsNullOrEmpty(searchField))
        {
            var parser = new QueryParser(Version.LUCENE_30, searchField, analyzer);
            var query = ParseQuery(searchQuery, parser);
            var hits = searcher.Search(query, hitsLimit).ScoreDocs;
            var results = MapLuceneToDataList(hits, searcher);

            analyzer.Dispose();
            return results;
        }
        else
        {
            var parser = new MultiFieldQueryParser(Version.LUCENE_30, new[] { "Id", "Title", "Content" }, analyzer);
            var query = ParseQuery(searchQuery, parser);
            var hits = searcher.Search(query, null, hitsLimit, Sort.RELEVANCE).ScoreDocs;
            var results = MapLuceneToDataList(hits, searcher);

            analyzer.Close();
            return results;
        }
    }
}
複製代碼

這裡的searchField參數可以指定特定欄位進行搜索,如果為空,則對所有欄位進行搜索。至此實現了最基本的集成。

JiebaTokenizer、JiebaAnalyzer的實現和示例代碼都可在jiebaForLuceneNet找到。

4、Luke.Net

Luke.Net可以查看Lucene.Net生成的索引內容,這在開發和調試Lucene的時候會特別有幫助。

 

參考:

Lucene.Net ultra fast search for MVC or WebForms site

Lucene.Net – Custom Synonym Analyzer

https://github.com/JimLiu/Lucene.Net.Analysis.PanGu

http://pangusegment.codeplex.com/wikipage?title=PanGu4Lucene

http://luke.codeplex.com/releases/view/82033


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • #前提條件: 宿主機:windows7 虛擬機:REDHAT 開發環境 qt4.7.4 +vs2010 。 代碼在windows7 上編譯成功 ,運行正常 在linux下編譯需要的第三方庫已經編譯成功放在同一目錄,(其中建立不同版本的庫的軟鏈接) #目的:在linux上從新編譯。 #步驟:在虛擬機上 ...
  • 首先sudo su到root用戶 終端輸入 1. apt-get install mysql-server 2.apt-get isntall mysql-client 3.apt-get install libmysqlclient-dev 檢查MySQL狀態 netstat -tap | gre ...
  • 本文目錄: 1.1 URL重寫簡介1.2 if指令1.3 rewrite指令1.4 URL重寫和反向代理的區別 1.1 簡介 url重寫由ngx_http_rewrite_module模塊提供,預設會安裝,但該模塊功能的實現需要pcre。URL重寫技術不僅要求掌握幾個指令的語法、熟悉簡單的正則表達式 ...
  • 一、聲明: 本文采用操作系統版本: Centos 7 Linux系統 版本源:CentOS-7-x86_64-DVD-1708.iso 官網下載地址:http://isoredirect.centos.org/centos/7/isos/x86_64/CentOS-7-x86_64-DVD-1708 ...
  • 在實際的項目開發中,可能會遇到同一張表同時保存自身和上級(或下級)的信息(一般是通過設置一個上級主鍵【ParentId】的列與主鍵【Id】關係) 例如:城市庫,有國家、省、市...,省的ParentId是國家的Id,同理市的ParentId是省的Id public class City { /// ...
  • Linux 的基本命令 1、 文件操作 a) Windows 是多根的文件系統,物理上是 1 到多塊硬碟,邏輯上分為 C、D、E……盤, 每個盤都是一棵樹。Linux 是單根的文件系統,不分 CDE 盤,多塊硬碟/U 盤/光碟 也是相當於多個文件夾。不同硬碟/U 盤/光碟對應的文件夾叫做“掛載點”, ...
  • 一、查詢用戶及相應的角色 1.在Controller中修改Index方法,添加相關View, 顯示所有用戶。 (1) 將model作為參數傳過去,即在Index方法中,return返回(db.SysUsers) (2) 在Views ——Account —— Index.cshtml 中的頂部添加強 ...
  • 在網上有很多圖片都是gif,那麼如何在 wpf 解析 gif? 本文告訴大家如何使用 GifBitmapDecoder 把gif分開為一張一張,獲得他的信息 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...