Lucence

来源:http://www.cnblogs.com/hd976521/archive/2017/06/21/7062177.html
-Advertisement-
Play Games

Lucene是apache軟體基金會4 jakarta項目組的一個子項目,是一個開放源代碼的全文檢索引擎工具包,但它不是一個完整的全文檢索引擎,而是一個全文檢索引擎的架構,提供了完整的查詢引擎和索引引擎,部分文本分析引擎。Lucene的目的是為軟體開發人員提供一個簡單易用的工具包. 粘貼這句話的意思 ...


Lucene是apache軟體基金會4 jakarta項目組的一個子項目,是一個開放源代碼的全文檢索引擎工具包,但它不是一個完整的全文檢索引擎,而是一個全文檢索引擎的架構,提供了完整的查詢引擎和索引引擎,部分文本分析引擎。Lucene的目的是為軟體開發人員提供一個簡單易用的工具包.

粘貼這句話的意思就是想說明  Lucene僅僅是一個工具包,搜索引擎的工具包.

有人會問?Lucene和solr的區別,solr是一個搜索系統,打個比方,就如servlet和struts2的區別   Lucene就是servlet,solr就好比solr,solr封裝了Lucene.

下麵說說Lucene的原理:

我們使用Lucene,其實使用的是他的倒排查詢

什麼是倒排查詢?舉個例子

新華字典,我們都用過吧,新華字典分為兩部分,第一部門就是目錄的邊旁部首,第二部分就是正文,一個一個字的解釋,

我們在用新華字典的時候,一般我們都是通過邊旁部首找字,沒有人一頁一頁的翻字典找字吧.

Lucene的倒排就是如此,他會檢索文本,資料庫,web網頁,在把內容分詞,就像邊旁部首

再次強調

搜索引擎(百度,谷歌)和lucene的區別 搜索引擎就是一個應用,lucene就是一個搜索工具類

 

name:lucene表示要搜索name這個Field域中,內容為“lucene”的文檔。 desc:lucene AND desc:java 表示要搜索即包括關鍵字“lucene”也包括“java”的文檔。   看不懂沒關係 我接下來說明Doucment和Field關係 這裡我用資料庫中的一條數據說明

這一條數據就是一個document文檔

 每一個欄位就是一個Field域 這樣說是不是豁然開朗了.     接下來,我們說說分詞器 這個lucene是外國人搞得,對中文的支持不說你也知道,不多外國人也想到這一點,"我是中國人">>我  是  中  國  人   >> 這樣的效果其實還不是我們想要的,我們要的是"中國","國人"這樣的辭彙,這裡我也不打啞謎了,市場上有很多中文分詞器,無敵的存在我覺得就是IK了,這是一個jar包,導入項目即可,說他無敵是因為他可以自己加詞,比如"屌絲","高富帥",這也詞,可以自己加到分詞器中,讓程式認得.

這就是要用到的包;

ik下載後把這3個文件也要導入項目中,ext.dic是加詞的,stop是停詞的.

 

前面的都是Lucece的理論,只有理論搞懂了,下麵的代碼實現過程也就輕鬆了

  1 package com.itheima.lucene;
  2 
  3 import java.io.File;
  4 import java.util.ArrayList;
  5 import java.util.List;
  6 
  7 import org.apache.lucene.analysis.Analyzer;
  8 import org.apache.lucene.analysis.standard.StandardAnalyzer;
  9 import org.apache.lucene.document.Document;
 10 import org.apache.lucene.document.Field.Store;
 11 import org.apache.lucene.document.TextField;
 12 import org.apache.lucene.index.DirectoryReader;
 13 import org.apache.lucene.index.IndexReader;
 14 import org.apache.lucene.index.IndexWriter;
 15 import org.apache.lucene.index.IndexWriterConfig;
 16 import org.apache.lucene.queryparser.classic.QueryParser;
 17 import org.apache.lucene.search.IndexSearcher;
 18 import org.apache.lucene.search.Query;
 19 import org.apache.lucene.search.ScoreDoc;
 20 import org.apache.lucene.search.TopDocs;
 21 import org.apache.lucene.store.Directory;
 22 import org.apache.lucene.store.FSDirectory;
 23 import org.apache.lucene.util.Version;
 24 import org.junit.Test;
 25 import org.wltea.analyzer.lucene.IKAnalyzer;
 26 
 27 import com.itheima.dao.BookDao;
 28 import com.itheima.dao.impl.BookDaoImpl;
 29 import com.itheima.pojo.Book;
 30 
 31 public class CreateIndexTest {
 32     //分詞
 33     @Test
 34     public void testCreateIndex() throws Exception{
 35     //    1. 採集數據
 36         BookDao bookDao = new BookDaoImpl();
 37         List<Book> listBook = bookDao.queryBookList();
 38         
 39     //    2. 創建Document文檔對象
 40         List<Document> documents = new ArrayList<>();
 41         for (Book bk : listBook) {
 42             
 43             Document doc = new Document();
 44             doc.add(new TextField("id", String.valueOf(bk.getId()), Store.YES));// Store.YES:表示存儲到文檔域中
 45             doc.add(new TextField("name", bk.getName(), Store.YES));
 46             doc.add(new TextField("price", String.valueOf(bk.getPrice()), Store.YES));
 47             doc.add(new TextField("pic", bk.getPic(), Store.YES));
 48             doc.add(new TextField("desc", bk.getDesc(), Store.YES));
 49             
 50             // 把Document放到list中
 51             documents.add(doc);
 52         }
 53         
 54     //    3. 創建分析器(分詞器)
 55         //Analyzer analyzer = new StandardAnalyzer();
 56         //中文  IK
 57         Analyzer analyzer = new IKAnalyzer();
 58         
 59     //    4. 創建IndexWriterConfig配置信息類
 60         IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_4_10_3, analyzer);
 61         
 62     //    5. 創建Directory對象,聲明索引庫存儲位置
 63         Directory directory = FSDirectory.open(new File("H:\\temp"));
 64         
 65     //    6. 創建IndexWriter寫入對象
 66         IndexWriter writer = new IndexWriter(directory, config);
 67         
 68     //    7. 把Document寫入到索引庫中
 69         for (Document doc : documents) {
 70             writer.addDocument(doc);
 71         }
 72         
 73     //    8. 釋放資源
 74         writer.close();
 75     }
 76 

//查 77 @Test 78 public void serachIndex() throws Exception{ 79 //創建分詞器 必須和檢索時的分析器一致 80 Analyzer analyzer = new StandardAnalyzer(); 81 // 創建搜索解析器,第一個參數:預設Field域,第二個參數:分詞器 82 QueryParser queryParser = new QueryParser("desc", analyzer); 83 84 // 1. 創建Query搜索對象 85 Query query = queryParser.parse("desc:java AND lucene"); 86 87 // 2. 創建Directory流對象,聲明索引庫位置 88 Directory directory = FSDirectory.open(new File("H:\\temp")); 89 90 // 3. 創建索引讀取對象IndexReader 91 IndexReader indexReader = DirectoryReader.open(directory); 92 93 // 4. 創建索引搜索對象IndexSearcher 94 IndexSearcher indexSearcher = new IndexSearcher(indexReader); 95 96 // 5. 使用索引搜索對象,執行搜索,返回結果集TopDocs 97 // 第一個參數:搜索對象,第二個參數:返回的數據條數,指定查詢結果最頂部的n條數據返回 98 TopDocs topDocs = indexSearcher.search(query, 10); 99 System.out.println("查詢到的數據總條數是:" + topDocs.totalHits); 100 //獲得結果集 101 ScoreDoc[] docs = topDocs.scoreDocs; 102 103 // 6. 解析結果集 104 for (ScoreDoc scoreDoc : docs) { 105 //獲得文檔 106 int docID = scoreDoc.doc; 107 Document doc = indexSearcher.doc(docID); 108 109 System.out.println("docID:"+docID); 110 System.out.println("bookid:"+doc.get("id")); 111 System.out.println("pic:"+doc.get("pic")); 112 System.out.println("name:"+doc.get("name")); 113 System.out.println("desc:"+doc.get("desc")); 114 System.out.println("price:"+doc.get("price")); 115 } 116 117 // 7. 釋放資源 118 indexReader.close(); 119 } 120 }

 

 

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 本節詳細討論和分析一些常見的正則表達式,包括郵編、日期和時間、手機和固定電話、身份證、Email地址、IP地址、URL和中文字元。 ...
  • 原理是這樣的 svn伺服器一般放在公共的伺服器上,大家連這個伺服器,在MyEclipse上使用svn控制項 可以下載svn上的項目至本地,所以很多公司將開發要用到的軟體都放在svn上,有同事來只要連上svn 就可以把需要的東西下下來了1.update更新更新,是指 伺服器上變動了的 而你本地沒有變動,... ...
  • IOC(Inverse of Control)控制反轉 Java即生活,鄙人的感悟. 好比我們需要租房.現在我們房源不需要找到某個具體的房東(new fangdong() 房東對象才能租他的房 fangdong.rent()).如果我們對這個房東的房源不滿意,離地鐵太遠了.....heh.我們還需要 ...
  • 題目描述 你領到了一個鋪設校園內自來水管道的任務。校園內有若幹需要供水的點,每兩個供水點可能存在多種鋪設路徑。對於每一種鋪設路徑,其成本是預知的。 任務要求最終鋪設的管道保證任意兩點可以直接或間接的聯通,同時總成本最低。 你領到了一個鋪設校園內自來水管道的任務。校園內有若幹需要供水的點,每兩個供水點 ...
  • 這是小白偶爾一直null指針的錯誤,調試了好久,原來是自己對spring註入的不夠瞭解 我相信有很多跟我差不多的初學者會遇上,所以特地寫出來,防止有人跟我一樣。哈哈,也寫上去,以防自己下次還犯這樣的錯誤。 一樣,首先,舉個反例 所有類 有個城市類 有個華北地區類,有個城市類的集合屬性 同上,華南地區 ...
  • 代碼如下: 題目的意思是通過一個函數將列表的列表顯示在組織良好的表格中,每列右對齊 ''' apples Alice dogs oranges Bob catscherries Carol moose banana David goose ''' #輸出每一列右對齊 我想不應該是字元串最後一個對齊麽 ...
  • 從數塔頂層出發,每個結點可以選擇向左走或向右走,要求一直走到塔底,使得走過的路徑上的數值和最大。 #include <iostream> #include <cstdio> using namespace std; const int N = 100; // 下麵這個函數實現的是更新最大值,o賦值為 ...
  • 什麼是Maven? 安裝Maven環境: 下載地址:https://maven.apache.org/download.cgi Maven3.3+JDK1.7以上版本 下載windows版本 解壓到本地即可,對其中的文件夾進行講解 bin目錄:包含mvn的運行腳本 boot目錄:包含一個類載入器的框 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...