lucene

来源:https://www.cnblogs.com/myblogpengjia/archive/2019/02/21/10415693.html
-Advertisement-
Play Games

一、 lucene簡介 1. Lucene Lucene是apache下的一個開源的全文檢索引擎工具包。它為軟體開發人員提供一個簡單易用的工具包(類庫),以方便的在目標系統中實現全文檢索的功能。 官網: http://lucene.apache.org/ 2. 全文檢索 全文檢索是指電腦索引程式通 ...


一、 lucene簡介

1. Lucene

Luceneapache下的一個開源的全文檢索引擎工具包。它為軟體開發人員提供一個簡單易用的工具包(類庫),以方便的在目標系統中實現全文檢索的功能。

官網: http://lucene.apache.org/

 

2. 全文檢索

全文檢索是指電腦索引程式通過掃描文章中的每一個詞,對每一個詞建立一個索引,指明該詞在文章中出現的次數和位置,當用戶查詢時,檢索程式就根據事先建立的索引進行查找,並將查找的結果反饋給用戶的檢索方式。這個過程類似於通過字典中的檢索字表查字的過程。

總結:先建索引再通過索引進行查詢

 

3. 全文檢索的應用場景

註意:Lucene和搜索引擎是不同的,Lucene是一套用java或其它語言寫的全文檢索的

工具包。它為應用程式提供了很多個api介面去調用,可以簡單理解為是一套實現全文檢索的類庫搜索引擎是一個全文檢索系統,它是一個單獨運行的軟體系統。

 

4. 為什麼要使用全文檢索

1.搜索速度:將數據源中的數據都通過全文索引

2.匹配效果:詞語進行匹配,通過語言分析介面的實現,可以實現對中文等非英語的支持。

3.相關度:有匹配度演算法,將匹配程度(相似度)比較高的結果排在前面。

4.適用場景:關係資料庫中進行模糊查詢時,資料庫自帶的索引將不起作用,此時需要通過全文檢索來提高速度;比如:網站系統中針對內容的模糊查詢select * from article where content like %廣州

5. lucene全文檢索流程

 

全文檢索的流程分為兩大部分:索引流程、搜索流程。

索引流程:即採集數據構建文檔對象分析文檔(分詞)創建索引。

搜索流程:即用戶通過搜索界面創建查詢執行搜索,搜索器從索引庫搜索渲染搜索結.

 

6. 索引流程

對文檔索引的過程,就是將用戶要搜索的文檔內容進行索引,然後把索引存儲在索引庫(index)中。

6.1 採集數據

全文檢索要搜索的數據信息格式多種多樣,拿搜索引擎(百度, google)來說,通過搜索引擎網站能搜索互聯網站上的網頁(html)、互聯網上的音樂(mp3..)、視頻(avi..)pdf電子書等。

全文檢索搜索的這些數據稱為非結構化數據。

6.1.1 結構化數據和非結構化數

結構化數據:指具有固定格式或有限長度的數據,如資料庫,元數據等。

非結構化數據:指不定長或無固定格式的數據,如郵件,word文檔等。

6.1.2 結構化數據搜索

由於結構化數據是固定格式,所以就可以針對固定格式的數據設計演算法來搜索,比如資料庫like查詢,like查詢採用順序掃描法,使用關鍵字匹配內容,對於內容量大的like查詢速度慢。

6.1.3 非結構化數據搜索

需要將所有要搜索的非結構化數據通過技術手段採集到一個固定的地方,將這些非結構化的數據想辦法組成結構化的數據,再以一定的演算法去搜索。

6.2 採集數據技術有哪些

對於互聯網上網頁採用http將網頁抓取到本地生成html文件。

數據在資料庫中就連接資料庫讀取表中的數據。

數據是文件系統中的某個文件,就通過文件系統讀取文件的內容。

6.2.1 網頁採集(瞭解)

因為目前搜索引擎主要搜索數據的來源是互聯網,搜索引擎使用一種爬蟲程式抓取網頁( 通過http抓取html網頁信息),以下是一些爬蟲項目:

Solrhttp://lucene.apache.org/solr solrapache的一個子項目,支持從關係資料庫、xml文檔中提取原始數據。

Nutchhttp://lucene.apache.org/nutch, Nutchapache的一個子項目,包括大規模爬蟲工具,能夠抓取和分辨web網站數據。

jsouphttp://jsoup.org/ ),jsoup 是一款Java HTML解析器,可直接解析某個URL地址、HTML文本內容。它提供了一套非常省力的API,可通過DOMCSS以及類似於jQuery的操作方法來取出和操作數據。

heritrixhttp://sourceforge.net/projects/archive-crawler/files/),Heritrix 是一個由 java 開發的、開源的網路爬蟲,用戶可以使用它來從網上抓取想要的資源。其最出色之處在於它良好的可擴展性,方便用戶實現自己的抓取邏輯。

6.3 資料庫採集(掌握)

針對電商站內搜索功能,全文檢索的數據源在資料庫中,需要通過jdbc或者orm框架訪問資料庫中book表的內容。

6.4 索引文件邏輯結構

 

文檔域:對非結構化的數據統一格式為document文檔格式,一個文檔有多個field域,不同的文檔其field的個數可以不同,建議相同類型的文檔包括相同的field。本例子一個document對應一 條 book表的記錄。

索引域:用於搜索,搜索程式將從索引域中搜索一個一個詞,根據詞找到對應的文檔將Document中的Field的內容進行分詞,將分好的詞創建索引,索引=Field功能變數名稱:

倒排索引表

傳統方法是先找到文件,如何在文件中找內容,在文件內容中匹配搜索關鍵字,這種方法是順序掃描方法,數據量大就搜索慢。

倒排索引結構是根據內容(詞語)找文檔,倒排索引結構也叫反向索引結構,包括索引和文檔兩部分,索引即辭彙表,它是在索引中匹配搜索關鍵字,由於索引內容量有限並且採用固定優化演算法搜索速度很快,找到了索引中的辭彙,辭彙與文檔關聯,從而最終找到了文件

6.5 創建索引流程

 

分詞器Analyzer進行分詞 ,主要過程就是分詞、過濾兩步。

分詞就是將採集到的文檔內容切分成一個一個的詞,具體應該說是將DocumentFieldvalue值切分成一個一個的詞。

This is a the book.

過濾包括去除標點符號、去除停用詞(的、是、aanthe等)、大寫轉小寫、詞的形還原(複數形式轉成單數形參、過去式轉成現在式。。。)等。 (停用詞)

IndexWriter是索引過程的核心組件,通過IndexWriter可以創建新索引、更新索引、刪除索引操作。 IndexWriter需要通過Directory對索引進行存儲操作。

Directory描述了索引的存儲位置,底層封裝了I/O操作,負責對索引進行存儲。它是一個抽象類,它的子類常 用的包括FSDirectory(在文件系統存儲索引)、

RAMDirectory(在記憶體存儲索引)

6.6 lucene的使用

Lucene是開發全文檢索功能的工具包,使用時從官方網站下載,並解壓。

官方網站:http://lucene.apache.org/

下載地址:http://archive.apache.org/dist/lucene/java/

可以使用maven直接添加依賴,本教程使用這一種

7. 搜索流程

 

查詢對象Query:用戶定義查詢語句,用戶確定查詢什麼內容(輸入什麼關鍵字)

指定查詢語法,相當於sql語句。

IndexSearcher索引搜索對象,定義了很多搜索方法,程式員調用此方法搜索。

IndexReader索引讀取對象,它對應的索引維護對象IndexWriterIndexSearcher

通過IndexReader讀取索引目錄中的索引文件

Directory索引流對象,IndexReader需要Directory讀取索引庫,使用

FSDirectory文件系統流對象

IndexSearcher搜索完成,返回一個TopDocs(匹配度高的前邊的一些記錄)

二、 Hello lucene

業務需求:使用Lucene實現電商項目中圖書類商品的索引和搜索功能。

1. 前期準備

數據初始化準備:

book.sql

導入到資料庫中

操作資料庫準備(使用SpringBoot+MyBatis

導入book.sql(過程省略,顯示效果)

 

 

2. 添加依賴

 1 <dependency>
 2     <groupId>org.mybatis.spring.boot</groupId>
 3     <artifactId>mybatis-spring-boot-starter</artifactId>
 4     <version>2.0.0</version>
 5 </dependency>
 6 
 7 <dependency>
 8     <groupId>mysql</groupId>
 9     <artifactId>mysql-connector-java</artifactId>
10     <version>5.1.37</version>
11     <scope>runtime</scope>
12 </dependency>
13 <dependency>
14     <groupId>org.springframework.boot</groupId>
15     <artifactId>spring-boot-starter-test</artifactId>
16     <scope>test</scope>
17 </dependency>

 

  

3. 編寫實體bin

 
public class Book {
    /**
     * 編號
     */
    private int id;
    /**
     * 書名
     */
    private String bookName;
    /**
     * 價格
     */
    private double price;
    /**
     * 圖片路徑
     */
    private String pic;
    /**
     * 描述
     */
    private String description;

    public int getId() {
        return id;
    }

    public void setId(int id) {
        this.id = id;
    }

    public String getBookName() {
        return bookName;
    }

    public void setBookName(String bookName) {
        this.bookName = bookName;
    }

    public double getPrice() {
        return price;
    }

    public void setPrice(double price) {
        this.price = price;
    }

    public String getPic() {
        return pic;
    }

    public void setPic(String pic) {
        this.pic = pic;
    }

    public String getDescription() {
        return description;
    }

    public void setDescription(String description) {
        this.description = description;
    }

    @Override
    public String toString() {
        return "Book{" +
                "id=" + id +
                ", bookName='" + bookName + '\'' +
                ", price=" + price +
                ", pic='" + pic + '\'' +
                ", description='" + description + '\'' +
                '}';
    }
}

 

 

4. MyBatis配置

  
mybatis.type-aliases-package=com.hx.springbootmybatis
spring.datasource.driver-class-name=com.mysql.jdbc.Driver
spring.datasource.url=jdbc:mysql://192.168.10.120:3306/test_db?useUnicode=true&characterEncoding=utf-8
spring.datasource.username=root
spring.datasource.password=123456
#日誌配置
logging.path=D:/log
logging.level.org.springframework.web=INFO
logging.level.com.hx.springbootmybatis.domain=DEBUG

 

5. 編寫Mapper

 
@Mapper
public interface BookMapper {

    /**
     * 查詢所有書籍信息
     * @return
     */
    @Select("select id,bookname,price,pic,description from book")
    public List<Book> getAllBook();
}

 




 
 



 

6. 測試Mybatis

 
@RunWith(SpringRunner.class)
@SpringBootTest
public class LuceneApplicationTests {

    @Autowired
    private BookMapper bookMapper;
    @Test
    public void test1() {
        List<Book> allBook = bookMapper.getAllBook();
        System.out.println(allBook);
     }
}

 

    

7. lucene配置

7.1 添加依賴

 
<!-- https://mvnrepository.com/artifact/org.apache.lucene/lucene-core -->
<dependency>
    <groupId>org.apache.lucene</groupId>
    <artifactId>lucene-core</artifactId>
    <version>7.5.0</version>
</dependency>
<!-- https://mvnrepository.com/artifact/org.apache.lucene/lucene-queryparser -->
<dependency>
    <groupId>org.apache.lucene</groupId>
    <artifactId>lucene-queryparser</artifactId>
    <version>7.5.0</version>
</dependency>
<!-- https://mvnrepository.com/artifact/org.apache.lucene/lucene-analyzers-common -->
<dependency>
    <groupId>org.apache.lucene</groupId>
    <artifactId>lucene-analyzers-common</artifactId>
    <version>7.5.0</version>
</dependency>

 

      

8. 創建索引

 
@Test
public void test2() throws IOException {
    //1採集數據
    List<Book> allBook = bookMapper.getAllBook();

    //2創建索引

    //Document集合對象
    List<Document> documents = new ArrayList<Document>();

    //將非結構化數據結構化,創建索引域和文檔域
    Document doc;
    for (Book book : allBook) {
        doc = new Document();
        Field id = new TextField("id", String.valueOf(book.getId()), Field.Store.YES);
        Field bookName = new TextField("name", book.getBookName().toString(), Field.Store.YES);
        Field price = new TextField("price", String.valueOf(book.getPrice()), Field.Store.YES);
        Field pic = new TextField("pic", book.getPic(), Field.Store.YES);
        Field description = new TextField("description", book.getDescription(), Field.Store.YES);
        doc.add(id);
        doc.add(bookName);
        doc.add(price);
        doc.add(pic);
        doc.add(description);
        documents.add(doc);
    }
    //構建分詞器
    Analyzer analyzer=new StandardAnalyzer();

    //構建存儲目錄和配置參數

    Directory directory= FSDirectory.open(Paths.get("D:\\test\\lucene"));

    //構建存儲目錄和配置
    IndexWriterConfig cfg=new IndexWriterConfig(analyzer);
    //構建IndexWriter索引寫對象並添加文檔對象
    IndexWriter indexWriter=new IndexWriter(directory,cfg);


    for (Document document:documents){
        indexWriter.addDocument(document);
    }

    //關閉indexWriter
    indexWriter.close();
}

 

    

 

 

 

9. 使用工具Luke查看索引

Luke作為Lucene工具包中的一個工具,可以通過界面來進行索引文件的查詢、修改。

下載網址:http://www.getopt.org/luke/

下載對應版本:https://github.com/DmitryKey/luke/releases

打開Luke方法:

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Python環境的安裝 安裝Python: windows: 1、下載安裝包 https://www.python.org/downloads/ 2、安裝 預設安裝路徑:C:\python27 3、配置環境變數 【右鍵電腦】--》【屬性】--》【高級系統設置】--》【高級】--》【環境變數】--》 ...
  • 前言 開心一刻 一名劫匪慌忙中竄上了一輛車的後座,上車後發現主駕和副駕的一男一女疑惑地回頭看著他,他立即拔出槍威脅到:“趕快開車,甩掉後面的警車,否則老子一槍崩了你!”,於是副駕上的男人轉過臉對那女的說:“大姐,別慌,聽我口令把剛纔的動作再練習一遍,掛一檔,輕鬆離合,輕踩油門,走...走,哎 走.. ...
  • 題意 "題目鏈接" 有$n$個位置,每次你需要以$1 \sim n 1$的一個排列的順序去染每一個顏色,第$i$個數可以把$i$和$i+1$位置染成黑色。一個排列的價值為最早把所有位置都染成黑色的次數。問所有排列的分數之和 Sol 神仙題Orz 不難想到我們可以枚舉染色的次數$i \in [\lce ...
  • 《數據結構》這門課程的安排,就要開始各種演算法和數構的燒腦學習了,從最簡單的應用題型入手吧。 本題要求你寫個程式把給定的符號列印成沙漏的形狀。例如給定17個“*”,要求按下列格式列印 所謂“沙漏形狀”,是指每行輸出奇數個符號;各行符號中心對齊;相鄰兩行符號數差2;符號數先從大到小順序遞減到1,再從小到 ...
  • 在做關於NIO TCP編程小案例時遇到無法監聽write的問題,沒想到只是我的if語句的位置放錯了位置,哎,看了半天沒看出來 貼下課堂筆記: 在Java中使用NIO進行網路TCP套接字編程主要以下幾個類: ServerSocketChannel: 服務端套接字通道,主要監聽接收客戶端請求 Selec ...
  • wxPython框架雖然成熟穩定,但是相對最近更火的PyQt框架來說,還是顯得古老了一些,控制項風格不符合現代審美觀,因此痞子衡決定學習一下PyQt的用法,感受下PyQt做出來的界面效果到底如何。根據wxPython學習經驗,當然首先要從PyQt的可視化GUI構建工具Qt Designer開始下手,因... ...
  • 本文通過講解如何解析application.properties屬性,介紹了幾個註解的運用@Value @ConfigurationProperties @EnableConfigurationProperties @Autowired @ConditionalOnProperty ...
  • 一個項目里只能有一個main函數, 如果出現 error:LNK2005 的錯誤,那麼需要檢查你是不是有兩個源代碼文件中都定義了main函數。 例如: 如果在a.cpp中定義了main函數,在b.cpp中也定義main函數,編譯執行就會報 error:LNK2005 的錯誤。 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...