Luence

来源:http://www.cnblogs.com/one--way/archive/2016/07/26/5708456.html
-Advertisement-
Play Games

Luence 是Apache軟體基金會的一個項目,是一個開發源碼的全文檢索引擎工具包,是一個全文檢索引擎的一個架構。提供了完成的查詢引擎和檢索引擎,部分文本分析引擎。 全文檢索程式庫,雖然與搜索引擎相關,但是不能混淆。 官方網址:https://lucene.apache.org/ 幫助文檔:htt ...


Luence

是Apache軟體基金會的一個項目,是一個開發源碼的全文檢索引擎工具包,是一個全文檢索引擎的一個架構。提供了完成的查詢引擎和檢索引擎,部分文本分析引擎。

全文檢索程式庫,雖然與搜索引擎相關,但是不能混淆。

 

官方網址:https://lucene.apache.org/

幫助文檔:https://lucene.apache.org/core/4_9_1/index.html

 

官方解釋:

Lucene is a Java full-text search engine. Lucene is not a complete application, but rather a code library and API that can easily be used to add search capabilities to applications.

 

倒排索引

瞭解Luence要知道倒排索引;

通俗解釋,我們通常都是通過查找文件位置及文件名,再查找文件的內容。倒排索引可以理解為通過文件內容來查找文件位置及文件名的。

倒排索引是一種索引方法,被用來存儲在全文搜索下某個單詞在一個文檔或者一組文檔中的存儲位置的映射。它是文檔檢索系統中最常用的數據結構。通過倒排索引,可以根據單詞快速獲取包含這個單詞的文檔列表。

倒排索引也是lucence的索引核心。

 

文件內容可以表示一個field,文件名稱可以表示一個field,將整個field進行分詞,然後根據分詞創建索引,建立一個個term;

如:文件的內容作為一個field,命名為"contents",將文件內容進行分詞,假設文件內容為"A B",分詞結果為"A","B",這樣term的信息就為兩條,field的內容為"contents",term對應的文本內容分別為"A"和"B"。

當查找指定分詞的時候就可以獲取這個分詞所在的doc,並獲取doc相關的信息。

 

demo編程

例子參考官方demo; package位置:org.apache.lucene.demo

 

自己寫了一個demo

MyIndexFiles.java

  1 import org.apache.commons.io.FileUtils;
  2 import org.apache.lucene.analysis.Analyzer;
  3 import org.apache.lucene.analysis.standard.StandardAnalyzer;
  4 import org.apache.lucene.document.*;
  5 import org.apache.lucene.index.*;
  6 import org.apache.lucene.queryparser.classic.ParseException;
  7 import org.apache.lucene.queryparser.classic.QueryParser;
  8 import org.apache.lucene.search.IndexSearcher;
  9 import org.apache.lucene.search.Query;
 10 import org.apache.lucene.search.ScoreDoc;
 11 import org.apache.lucene.search.TopDocs;
 12 import org.apache.lucene.store.Directory;
 13 import org.apache.lucene.store.FSDirectory;
 14 import org.apache.lucene.util.Version;
 15 import org.junit.Test;
 16 
 17 import java.io.File;
 18 import java.io.IOException;
 19 
 20 /**
 21  * Created by Edward on 2016/7/25.
 22  */
 23 public class MyIndexFiles {
 24 
 25 
 26     public static void main(String[] args) throws IOException {
 27 
 28         //文件方式存儲索引文件
 29         FSDirectory directory = FSDirectory.open(new File("D:\\documents\\Lucene\\MyDemo\\index"));
 30 
 31         //文本解析器,分詞器
 32         Analyzer analyzer= new StandardAnalyzer(Version.LUCENE_4_9);
 33 
 34         //索引寫配置,要指定解析器及版本信息
 35         IndexWriterConfig indexWriterConfig = new IndexWriterConfig(Version.LUCENE_4_9, analyzer);
 36 
 37         //創建寫索引
 38         IndexWriter indexWriter = new IndexWriter(directory, indexWriterConfig );
 39 
 40         //路徑
 41         File path = new File("D:\\documents\\Lucene\\MyDemo\\docs");
 42         //文件列表
 43         File[] listFile = path.listFiles();
 44         for(File file: listFile){
 45             //創建doc
 46             Document doc = new Document();
 47 
 48             //獲取文件屬性信息
 49             String filename = file.getName();
 50             long lastModified = file.lastModified();
 51 
 52             //通過commons-io-2.4.jar包中的FileUtils方法,讀文件內容轉化為String
 53             String readFile2Sting = FileUtils.readFileToString(file);
 54 
 55             //將field添加到doc
 56             //StringField不進行分詞,當做一個分詞
 57             //Field的有索引和存儲屬性,
 58                  //Field.Store.NO代表數據不進行存儲,僅能索引到,多用來處理文本內容,可獲取文件名然後通過文件位置打開文件獲取內容
 59                  //Field.Store.YES代表存儲數據,通常用來直接獲取文件路徑
 60             doc.add(new StringField("filename", filename, Field.Store.YES));
 61             doc.add(new LongField("modify", lastModified, Field.Store.YES));
 62             doc.add(new TextField("contents",readFile2Sting, Field.Store.NO));
 63 
 64             //新增的方式
 65             //indexWriter.addDocument(doc);
 66 
 67             //更新的方式, 更新與term匹配的docs
 68             indexWriter.updateDocument(new Term("filename", file.getName()), doc);
 69         }
 70         indexWriter.close();
 71     }
 72 
 73 
 74     @Test
 75     public void serach() throws IOException, ParseException {
 76 
 77         //本地索引文件
 78         Directory directory = FSDirectory.open(new File("D:\\documents\\Lucene\\MyDemo\\index"));
 79 
 80         //讀索引目錄
 81         IndexReader indexReader = DirectoryReader.open(directory);
 82 
 83         //創建索引搜索對象
 84         IndexSearcher indexSearcher = new IndexSearcher(indexReader);
 85 
 86         Analyzer analyzer= new StandardAnalyzer(Version.LUCENE_4_9);
 87 
 88         //查詢解析  指定查詢的item,解析器,版本
 89         QueryParser queryParse = new QueryParser(Version.LUCENE_4_9, "contents", analyzer);
 90 
 91         //查詢內容
 92         Query query = queryParse.parse("111");
 93 
 94         //查詢指定條數
 95         int num = 6;
 96         TopDocs topDocs= indexSearcher.search(query, num);
 97 
 98         //採集數
 99         ScoreDoc[] docs = topDocs.scoreDocs;
100 
101         for(ScoreDoc doc:docs){
102 
103             //獲取doc編號
104             int i = doc.doc;
105 
106             //通過文檔編號獲取文檔信息
107             Document d = indexSearcher.doc(i);
108 
109             //列印文檔信息
110             System.out.println(d.get("filename"));
111             System.out.println(d.get("modify"));
112             System.out.println(d.get("contents"));
113         }
114         indexReader.close();
115     }
116
117 }

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • package hello; import java.util.Scanner; public class Hello { public static void main(String[] args) { // TODO Auto-generated method stub System.out.p ...
  • R擁有許多用於存儲數據的對象類型,包括標量、向量、矩陣、數組、數據框、列表、因數。 1.標量:標量是只包含一個元素的向量 > a <- 1; # 數值型 > b <- "China"; # 字元型 > c <- TRUE; # 邏輯型 2.向量:向量用於存儲數值型、字元型或邏輯型數據的一維數組。通過 ...
  • Xml代碼 第一種 DOM 實現方法: 第二種,DOM4J實現方法 第三種 JDOM實現方法: 第四種SAX實現方法: ...
  • package hello; import java.util.Scanner; public class Hello { public static void main(String[] args) { // TODO Auto-generated method stub System.out.p ...
  • Mac 安裝 GO語言開發環境 官網:https://golang.org/ go語言的安裝:http://docscn.studygolang.com/doc/install 下載:go1.7rc3.darwin-amd64.pkg 預設安裝,被安裝了 /usr/local/go 目錄 並自設置了 ...
  • 一、Python介紹 Python(英國發音:/ˈpaɪθən/ 美國發音:/ˈpaɪθɑːn/),由吉多·範羅蘇姆(Guido van Rossum)於1989年發明,第一個公開發行版發行於1991年。 Python是一個高層次的結合瞭解釋型、動態強類型的、面向對象的腳本語言 Python 是一種 ...
  • 本人新手,由於要做郵件發送驗證碼,所以找到和搜集到這些,本人親測完全可以用 這是163郵箱的 因為不是企業郵箱填寫的賬號是163的賬號,但是密碼是授權碼 授權碼的獲取方式為: 然後 然後在這個頁面向下看可以看到 接下來就是執行代碼了 qq現在也要獲取授權碼登陸 獲取方式設置-》賬戶 這樣就可以了 如 ...
  • 1、算術運算符 常見的算術運算符 2、邏輯運算符 PHP中的邏輯運算符 3、賦值運算符 賦值運算符“=”是PHP中最基本的運算符,即把“=”右邊表達式的值賦給左邊的運算數。 另外PHP中也常用到複合賦值運算符。 複合賦值運算符 4、比較運算符 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...