lucene

来源:https://www.cnblogs.com/myblogpengjia/archive/2019/02/21/10415693.html
-Advertisement-
Play Games

一、 lucene簡介 1. Lucene Lucene是apache下的一個開源的全文檢索引擎工具包。它為軟體開發人員提供一個簡單易用的工具包(類庫),以方便的在目標系統中實現全文檢索的功能。 官網: http://lucene.apache.org/ 2. 全文檢索 全文檢索是指電腦索引程式通 ...


一、 lucene簡介

1. Lucene

Luceneapache下的一個開源的全文檢索引擎工具包。它為軟體開發人員提供一個簡單易用的工具包(類庫),以方便的在目標系統中實現全文檢索的功能。

官網: http://lucene.apache.org/

 

2. 全文檢索

全文檢索是指電腦索引程式通過掃描文章中的每一個詞,對每一個詞建立一個索引,指明該詞在文章中出現的次數和位置,當用戶查詢時,檢索程式就根據事先建立的索引進行查找,並將查找的結果反饋給用戶的檢索方式。這個過程類似於通過字典中的檢索字表查字的過程。

總結:先建索引再通過索引進行查詢

 

3. 全文檢索的應用場景

註意:Lucene和搜索引擎是不同的,Lucene是一套用java或其它語言寫的全文檢索的

工具包。它為應用程式提供了很多個api介面去調用,可以簡單理解為是一套實現全文檢索的類庫搜索引擎是一個全文檢索系統,它是一個單獨運行的軟體系統。

 

4. 為什麼要使用全文檢索

1.搜索速度:將數據源中的數據都通過全文索引

2.匹配效果:詞語進行匹配,通過語言分析介面的實現,可以實現對中文等非英語的支持。

3.相關度:有匹配度演算法,將匹配程度(相似度)比較高的結果排在前面。

4.適用場景:關係資料庫中進行模糊查詢時,資料庫自帶的索引將不起作用,此時需要通過全文檢索來提高速度;比如:網站系統中針對內容的模糊查詢select * from article where content like %廣州

5. lucene全文檢索流程

 

全文檢索的流程分為兩大部分:索引流程、搜索流程。

索引流程:即採集數據構建文檔對象分析文檔(分詞)創建索引。

搜索流程:即用戶通過搜索界面創建查詢執行搜索,搜索器從索引庫搜索渲染搜索結.

 

6. 索引流程

對文檔索引的過程,就是將用戶要搜索的文檔內容進行索引,然後把索引存儲在索引庫(index)中。

6.1 採集數據

全文檢索要搜索的數據信息格式多種多樣,拿搜索引擎(百度, google)來說,通過搜索引擎網站能搜索互聯網站上的網頁(html)、互聯網上的音樂(mp3..)、視頻(avi..)pdf電子書等。

全文檢索搜索的這些數據稱為非結構化數據。

6.1.1 結構化數據和非結構化數

結構化數據:指具有固定格式或有限長度的數據,如資料庫,元數據等。

非結構化數據:指不定長或無固定格式的數據,如郵件,word文檔等。

6.1.2 結構化數據搜索

由於結構化數據是固定格式,所以就可以針對固定格式的數據設計演算法來搜索,比如資料庫like查詢,like查詢採用順序掃描法,使用關鍵字匹配內容,對於內容量大的like查詢速度慢。

6.1.3 非結構化數據搜索

需要將所有要搜索的非結構化數據通過技術手段採集到一個固定的地方,將這些非結構化的數據想辦法組成結構化的數據,再以一定的演算法去搜索。

6.2 採集數據技術有哪些

對於互聯網上網頁採用http將網頁抓取到本地生成html文件。

數據在資料庫中就連接資料庫讀取表中的數據。

數據是文件系統中的某個文件,就通過文件系統讀取文件的內容。

6.2.1 網頁採集(瞭解)

因為目前搜索引擎主要搜索數據的來源是互聯網,搜索引擎使用一種爬蟲程式抓取網頁( 通過http抓取html網頁信息),以下是一些爬蟲項目:

Solrhttp://lucene.apache.org/solr solrapache的一個子項目,支持從關係資料庫、xml文檔中提取原始數據。

Nutchhttp://lucene.apache.org/nutch, Nutchapache的一個子項目,包括大規模爬蟲工具,能夠抓取和分辨web網站數據。

jsouphttp://jsoup.org/ ),jsoup 是一款Java HTML解析器,可直接解析某個URL地址、HTML文本內容。它提供了一套非常省力的API,可通過DOMCSS以及類似於jQuery的操作方法來取出和操作數據。

heritrixhttp://sourceforge.net/projects/archive-crawler/files/),Heritrix 是一個由 java 開發的、開源的網路爬蟲,用戶可以使用它來從網上抓取想要的資源。其最出色之處在於它良好的可擴展性,方便用戶實現自己的抓取邏輯。

6.3 資料庫採集(掌握)

針對電商站內搜索功能,全文檢索的數據源在資料庫中,需要通過jdbc或者orm框架訪問資料庫中book表的內容。

6.4 索引文件邏輯結構

 

文檔域:對非結構化的數據統一格式為document文檔格式,一個文檔有多個field域,不同的文檔其field的個數可以不同,建議相同類型的文檔包括相同的field。本例子一個document對應一 條 book表的記錄。

索引域:用於搜索,搜索程式將從索引域中搜索一個一個詞,根據詞找到對應的文檔將Document中的Field的內容進行分詞,將分好的詞創建索引,索引=Field功能變數名稱:

倒排索引表

傳統方法是先找到文件,如何在文件中找內容,在文件內容中匹配搜索關鍵字,這種方法是順序掃描方法,數據量大就搜索慢。

倒排索引結構是根據內容(詞語)找文檔,倒排索引結構也叫反向索引結構,包括索引和文檔兩部分,索引即辭彙表,它是在索引中匹配搜索關鍵字,由於索引內容量有限並且採用固定優化演算法搜索速度很快,找到了索引中的辭彙,辭彙與文檔關聯,從而最終找到了文件

6.5 創建索引流程

 

分詞器Analyzer進行分詞 ,主要過程就是分詞、過濾兩步。

分詞就是將採集到的文檔內容切分成一個一個的詞,具體應該說是將DocumentFieldvalue值切分成一個一個的詞。

This is a the book.

過濾包括去除標點符號、去除停用詞(的、是、aanthe等)、大寫轉小寫、詞的形還原(複數形式轉成單數形參、過去式轉成現在式。。。)等。 (停用詞)

IndexWriter是索引過程的核心組件,通過IndexWriter可以創建新索引、更新索引、刪除索引操作。 IndexWriter需要通過Directory對索引進行存儲操作。

Directory描述了索引的存儲位置,底層封裝了I/O操作,負責對索引進行存儲。它是一個抽象類,它的子類常 用的包括FSDirectory(在文件系統存儲索引)、

RAMDirectory(在記憶體存儲索引)

6.6 lucene的使用

Lucene是開發全文檢索功能的工具包,使用時從官方網站下載,並解壓。

官方網站:http://lucene.apache.org/

下載地址:http://archive.apache.org/dist/lucene/java/

可以使用maven直接添加依賴,本教程使用這一種

7. 搜索流程

 

查詢對象Query:用戶定義查詢語句,用戶確定查詢什麼內容(輸入什麼關鍵字)

指定查詢語法,相當於sql語句。

IndexSearcher索引搜索對象,定義了很多搜索方法,程式員調用此方法搜索。

IndexReader索引讀取對象,它對應的索引維護對象IndexWriterIndexSearcher

通過IndexReader讀取索引目錄中的索引文件

Directory索引流對象,IndexReader需要Directory讀取索引庫,使用

FSDirectory文件系統流對象

IndexSearcher搜索完成,返回一個TopDocs(匹配度高的前邊的一些記錄)

二、 Hello lucene

業務需求:使用Lucene實現電商項目中圖書類商品的索引和搜索功能。

1. 前期準備

數據初始化準備:

book.sql

導入到資料庫中

操作資料庫準備(使用SpringBoot+MyBatis

導入book.sql(過程省略,顯示效果)

 

 

2. 添加依賴

 1 <dependency>
 2     <groupId>org.mybatis.spring.boot</groupId>
 3     <artifactId>mybatis-spring-boot-starter</artifactId>
 4     <version>2.0.0</version>
 5 </dependency>
 6 
 7 <dependency>
 8     <groupId>mysql</groupId>
 9     <artifactId>mysql-connector-java</artifactId>
10     <version>5.1.37</version>
11     <scope>runtime</scope>
12 </dependency>
13 <dependency>
14     <groupId>org.springframework.boot</groupId>
15     <artifactId>spring-boot-starter-test</artifactId>
16     <scope>test</scope>
17 </dependency>

 

  

3. 編寫實體bin

 
public class Book {
    /**
     * 編號
     */
    private int id;
    /**
     * 書名
     */
    private String bookName;
    /**
     * 價格
     */
    private double price;
    /**
     * 圖片路徑
     */
    private String pic;
    /**
     * 描述
     */
    private String description;

    public int getId() {
        return id;
    }

    public void setId(int id) {
        this.id = id;
    }

    public String getBookName() {
        return bookName;
    }

    public void setBookName(String bookName) {
        this.bookName = bookName;
    }

    public double getPrice() {
        return price;
    }

    public void setPrice(double price) {
        this.price = price;
    }

    public String getPic() {
        return pic;
    }

    public void setPic(String pic) {
        this.pic = pic;
    }

    public String getDescription() {
        return description;
    }

    public void setDescription(String description) {
        this.description = description;
    }

    @Override
    public String toString() {
        return "Book{" +
                "id=" + id +
                ", bookName='" + bookName + '\'' +
                ", price=" + price +
                ", pic='" + pic + '\'' +
                ", description='" + description + '\'' +
                '}';
    }
}

 

 

4. MyBatis配置

  
mybatis.type-aliases-package=com.hx.springbootmybatis
spring.datasource.driver-class-name=com.mysql.jdbc.Driver
spring.datasource.url=jdbc:mysql://192.168.10.120:3306/test_db?useUnicode=true&characterEncoding=utf-8
spring.datasource.username=root
spring.datasource.password=123456
#日誌配置
logging.path=D:/log
logging.level.org.springframework.web=INFO
logging.level.com.hx.springbootmybatis.domain=DEBUG

 

5. 編寫Mapper

 
@Mapper
public interface BookMapper {

    /**
     * 查詢所有書籍信息
     * @return
     */
    @Select("select id,bookname,price,pic,description from book")
    public List<Book> getAllBook();
}

 




 
 



 

6. 測試Mybatis

 
@RunWith(SpringRunner.class)
@SpringBootTest
public class LuceneApplicationTests {

    @Autowired
    private BookMapper bookMapper;
    @Test
    public void test1() {
        List<Book> allBook = bookMapper.getAllBook();
        System.out.println(allBook);
     }
}

 

    

7. lucene配置

7.1 添加依賴

 
<!-- https://mvnrepository.com/artifact/org.apache.lucene/lucene-core -->
<dependency>
    <groupId>org.apache.lucene</groupId>
    <artifactId>lucene-core</artifactId>
    <version>7.5.0</version>
</dependency>
<!-- https://mvnrepository.com/artifact/org.apache.lucene/lucene-queryparser -->
<dependency>
    <groupId>org.apache.lucene</groupId>
    <artifactId>lucene-queryparser</artifactId>
    <version>7.5.0</version>
</dependency>
<!-- https://mvnrepository.com/artifact/org.apache.lucene/lucene-analyzers-common -->
<dependency>
    <groupId>org.apache.lucene</groupId>
    <artifactId>lucene-analyzers-common</artifactId>
    <version>7.5.0</version>
</dependency>

 

      

8. 創建索引

 
@Test
public void test2() throws IOException {
    //1採集數據
    List<Book> allBook = bookMapper.getAllBook();

    //2創建索引

    //Document集合對象
    List<Document> documents = new ArrayList<Document>();

    //將非結構化數據結構化,創建索引域和文檔域
    Document doc;
    for (Book book : allBook) {
        doc = new Document();
        Field id = new TextField("id", String.valueOf(book.getId()), Field.Store.YES);
        Field bookName = new TextField("name", book.getBookName().toString(), Field.Store.YES);
        Field price = new TextField("price", String.valueOf(book.getPrice()), Field.Store.YES);
        Field pic = new TextField("pic", book.getPic(), Field.Store.YES);
        Field description = new TextField("description", book.getDescription(), Field.Store.YES);
        doc.add(id);
        doc.add(bookName);
        doc.add(price);
        doc.add(pic);
        doc.add(description);
        documents.add(doc);
    }
    //構建分詞器
    Analyzer analyzer=new StandardAnalyzer();

    //構建存儲目錄和配置參數

    Directory directory= FSDirectory.open(Paths.get("D:\\test\\lucene"));

    //構建存儲目錄和配置
    IndexWriterConfig cfg=new IndexWriterConfig(analyzer);
    //構建IndexWriter索引寫對象並添加文檔對象
    IndexWriter indexWriter=new IndexWriter(directory,cfg);


    for (Document document:documents){
        indexWriter.addDocument(document);
    }

    //關閉indexWriter
    indexWriter.close();
}

 

    

 

 

 

9. 使用工具Luke查看索引

Luke作為Lucene工具包中的一個工具,可以通過界面來進行索引文件的查詢、修改。

下載網址:http://www.getopt.org/luke/

下載對應版本:https://github.com/DmitryKey/luke/releases

打開Luke方法:

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Python環境的安裝 安裝Python: windows: 1、下載安裝包 https://www.python.org/downloads/ 2、安裝 預設安裝路徑:C:\python27 3、配置環境變數 【右鍵電腦】--》【屬性】--》【高級系統設置】--》【高級】--》【環境變數】--》 ...
  • 前言 開心一刻 一名劫匪慌忙中竄上了一輛車的後座,上車後發現主駕和副駕的一男一女疑惑地回頭看著他,他立即拔出槍威脅到:“趕快開車,甩掉後面的警車,否則老子一槍崩了你!”,於是副駕上的男人轉過臉對那女的說:“大姐,別慌,聽我口令把剛纔的動作再練習一遍,掛一檔,輕鬆離合,輕踩油門,走...走,哎 走.. ...
  • 題意 "題目鏈接" 有$n$個位置,每次你需要以$1 \sim n 1$的一個排列的順序去染每一個顏色,第$i$個數可以把$i$和$i+1$位置染成黑色。一個排列的價值為最早把所有位置都染成黑色的次數。問所有排列的分數之和 Sol 神仙題Orz 不難想到我們可以枚舉染色的次數$i \in [\lce ...
  • 《數據結構》這門課程的安排,就要開始各種演算法和數構的燒腦學習了,從最簡單的應用題型入手吧。 本題要求你寫個程式把給定的符號列印成沙漏的形狀。例如給定17個“*”,要求按下列格式列印 所謂“沙漏形狀”,是指每行輸出奇數個符號;各行符號中心對齊;相鄰兩行符號數差2;符號數先從大到小順序遞減到1,再從小到 ...
  • 在做關於NIO TCP編程小案例時遇到無法監聽write的問題,沒想到只是我的if語句的位置放錯了位置,哎,看了半天沒看出來 貼下課堂筆記: 在Java中使用NIO進行網路TCP套接字編程主要以下幾個類: ServerSocketChannel: 服務端套接字通道,主要監聽接收客戶端請求 Selec ...
  • wxPython框架雖然成熟穩定,但是相對最近更火的PyQt框架來說,還是顯得古老了一些,控制項風格不符合現代審美觀,因此痞子衡決定學習一下PyQt的用法,感受下PyQt做出來的界面效果到底如何。根據wxPython學習經驗,當然首先要從PyQt的可視化GUI構建工具Qt Designer開始下手,因... ...
  • 本文通過講解如何解析application.properties屬性,介紹了幾個註解的運用@Value @ConfigurationProperties @EnableConfigurationProperties @Autowired @ConditionalOnProperty ...
  • 一個項目里只能有一個main函數, 如果出現 error:LNK2005 的錯誤,那麼需要檢查你是不是有兩個源代碼文件中都定義了main函數。 例如: 如果在a.cpp中定義了main函數,在b.cpp中也定義main函數,編譯執行就會報 error:LNK2005 的錯誤。 ...
一周排行
    -Advertisement-
    Play Games
  • 前言 本文介紹一款使用 C# 與 WPF 開發的音頻播放器,其界面簡潔大方,操作體驗流暢。該播放器支持多種音頻格式(如 MP4、WMA、OGG、FLAC 等),並具備標記、實時歌詞顯示等功能。 另外,還支持換膚及多語言(中英文)切換。核心音頻處理採用 FFmpeg 組件,獲得了廣泛認可,目前 Git ...
  • OAuth2.0授權驗證-gitee授權碼模式 本文主要介紹如何筆者自己是如何使用gitee提供的OAuth2.0協議完成授權驗證並登錄到自己的系統,完整模式如圖 1、創建應用 打開gitee個人中心->第三方應用->創建應用 創建應用後在我的應用界面,查看已創建應用的Client ID和Clien ...
  • 解決了這個問題:《winForm下,fastReport.net 從.net framework 升級到.net5遇到的錯誤“Operation is not supported on this platform.”》 本文內容轉載自:https://www.fcnsoft.com/Home/Sho ...
  • 國內文章 WPF 從裸 Win 32 的 WM_Pointer 消息獲取觸摸點繪製筆跡 https://www.cnblogs.com/lindexi/p/18390983 本文將告訴大家如何在 WPF 裡面,接收裸 Win 32 的 WM_Pointer 消息,從消息裡面獲取觸摸點信息,使用觸摸點 ...
  • 前言 給大家推薦一個專為新零售快消行業打造了一套高效的進銷存管理系統。 系統不僅具備強大的庫存管理功能,還集成了高性能的輕量級 POS 解決方案,確保頁面載入速度極快,提供良好的用戶體驗。 項目介紹 Dorisoy.POS 是一款基於 .NET 7 和 Angular 4 開發的新零售快消進銷存管理 ...
  • ABP CLI常用的代碼分享 一、確保環境配置正確 安裝.NET CLI: ABP CLI是基於.NET Core或.NET 5/6/7等更高版本構建的,因此首先需要在你的開發環境中安裝.NET CLI。這可以通過訪問Microsoft官網下載並安裝相應版本的.NET SDK來實現。 安裝ABP ...
  • 問題 問題是這樣的:第三方的webapi,需要先調用登陸介面獲取Cookie,訪問其它介面時攜帶Cookie信息。 但使用HttpClient類調用登陸介面,返回的Headers中沒有找到Cookie信息。 分析 首先,使用Postman測試該登陸介面,正常返回Cookie信息,說明是HttpCli ...
  • 國內文章 關於.NET在中國為什麼工資低的分析 https://www.cnblogs.com/thinkingmore/p/18406244 .NET在中國開發者的薪資偏低,主要因市場需求、技術棧選擇和企業文化等因素所致。歷史上,.NET曾因微軟的閉源策略發展受限,儘管後來推出了跨平臺的.NET ...
  • 在WPF開發應用中,動畫不僅可以引起用戶的註意與興趣,而且還使軟體更加便於使用。前面幾篇文章講解了畫筆(Brush),形狀(Shape),幾何圖形(Geometry),變換(Transform)等相關內容,今天繼續講解動畫相關內容和知識點,僅供學習分享使用,如有不足之處,還請指正。 ...
  • 什麼是委托? 委托可以說是把一個方法代入另一個方法執行,相當於指向函數的指針;事件就相當於保存委托的數組; 1.實例化委托的方式: 方式1:通過new創建實例: public delegate void ShowDelegate(); 或者 public delegate string ShowDe ...