首先聲明:我對Lucene.Net並不熟悉,但搜索確實是分詞的一個重要應用,所以這裡還是嘗試將兩者集成起來,也許對你有一參考。 看到了兩個中文分詞與Lucene.Net的集成項目:Lucene.Net.Analysis.PanGu和Lucene.Net.Analysis.MMSeg,參考其中的代碼實 ...
首先聲明:我對Lucene.Net並不熟悉,但搜索確實是分詞的一個重要應用,所以這裡還是嘗試將兩者集成起來,也許對你有一參考。
看到了兩個中文分詞與Lucene.Net的集成項目:Lucene.Net.Analysis.PanGu和Lucene.Net.Analysis.MMSeg,參考其中的代碼實現了最簡單的集成:jiebaForLuceneNet。下麵給出簡單的介紹。
1、JiebaTokenizer
主要的集成點是自定義一個Tokenizer的子類,此時必須要實現它的抽象方法IncrementToken,該方法用於對文本流中的文本生成的token進行遍歷,這正是分片語件發揮作用的地方。
public override bool IncrementToken() { ClearAttributes(); position++; if (position < tokens.Count) { var token = tokens[position]; termAtt.SetTermBuffer(token.Word); offsetAtt.SetOffset(token.StartIndex, token.EndIndex); typeAtt.Type = "Jieba"; return true; } End(); return false; }
termAtt和offsetAtt所在的兩行代碼需要用到每一個token的詞本身、起始索引和終止索引,而這三個值恰好是JiebaSegmenter.Tokenize方法所實現的,所以只要在初始化JiebaTokenizer時使用:
tokens = segmenter.Tokenize(text, TokenizerMode.Search).ToList();
就可以得到所有分詞所得的token,另外TokenizerMode.Search參數使得Tokenize方法的結果中包含更全面的分詞結果,比如“語言學家”會得到四個token,即“[語言, (0, 2)], [學家, (2, 4)], [語言學, (0, 3)], [語言學家, (0, 4)]”,這在創建索引和搜索時都很有幫助。
2、JiebaAnalyzer
Tokenizer類實現分詞,而添加索引和搜索需要的是Analyzer,JiebaAnalyzer只要調用JiebaTokenizer即可。
public override TokenStream TokenStream(string fieldName, TextReader reader) { var seg = new JiebaSegmenter(); TokenStream result = new JiebaTokenizer(seg, reader); // This filter is necessary, because the parser converts the queries to lower case. result = new LowerCaseFilter(result); result = new StopFilter(true, result, StopWords); return result; }
除了JiebaTokenizer,JiebaAnalyzer還會用到LowerCaseFilter和StopFilter。前者可將索引和搜索的內容正則化,忽略大小寫,後者則過濾掉停用詞。這裡使用的停用詞列表合併了NLTK的英文停用詞和哈工大的中文停用詞。
3、創建索引和搜索
創建索引時,IndexWriter要使用JiebaAnalyzer的實例:
var analyzer = new JiebaAnalyzer(); using (var writer = new IndexWriter(Directory, analyzer, IndexWriter.MaxFieldLength.UNLIMITED)) { // replaces older entry if any foreach (var sd in data) { AddToLuceneIndex(sd, writer); } analyzer.Close(); }
搜索的時候,先將用戶的輸入分詞:
private static string GetKeyWordsSplitBySpace(string keywords, JiebaTokenizer tokenizer) { var result = new StringBuilder(); var words = tokenizer.Tokenize(keywords); foreach (var word in words) { if (string.IsNullOrWhiteSpace(word.Word)) { continue; } result.AppendFormat("{0} ", word.Word); } return result.ToString().Trim(); }
比如如果用戶輸入的是“語言學家”,那麼該函數的返回值是“語言 學家 語言學 語言學家”,為後面的搜索做好準備(另外,我們還可以為每個詞加上一個*,這樣只要部分匹配就可以搜到結果)。最後的搜索實現是:
private static IEnumerable<News> SearchQuery(string searchQuery, string searchField = "") { if (string.IsNullOrEmpty(searchQuery.Replace("*", "").Replace("?", ""))) { return new List<News>(); } using (var searcher = new IndexSearcher(Directory, false)) { var hitsLimit = 1000; //var analyzer = new StandardAnalyzer(Version.LUCENE_30); var analyzer = GetAnalyzer(); if (!string.IsNullOrEmpty(searchField)) { var parser = new QueryParser(Version.LUCENE_30, searchField, analyzer); var query = ParseQuery(searchQuery, parser); var hits = searcher.Search(query, hitsLimit).ScoreDocs; var results = MapLuceneToDataList(hits, searcher); analyzer.Dispose(); return results; } else { var parser = new MultiFieldQueryParser(Version.LUCENE_30, new[] { "Id", "Title", "Content" }, analyzer); var query = ParseQuery(searchQuery, parser); var hits = searcher.Search(query, null, hitsLimit, Sort.RELEVANCE).ScoreDocs; var results = MapLuceneToDataList(hits, searcher); analyzer.Close(); return results; } } }
這裡的searchField參數可以指定特定欄位進行搜索,如果為空,則對所有欄位進行搜索。至此實現了最基本的集成。
JiebaTokenizer、JiebaAnalyzer的實現和示例代碼都可在jiebaForLuceneNet找到。
4、Luke.Net
Luke.Net可以查看Lucene.Net生成的索引內容,這在開發和調試Lucene的時候會特別有幫助。
參考:
Lucene.Net ultra fast search for MVC or WebForms site
Lucene.Net – Custom Synonym Analyzer
https://github.com/JimLiu/Lucene.Net.Analysis.PanGu
http://pangusegment.codeplex.com/wikipage?title=PanGu4Lucene
http://luke.codeplex.com/releases/view/82033