Lucene08-Lucene的相關度排序

来源:https://www.cnblogs.com/shoufeng/archive/2018/08/02/9410785.html
-Advertisement-
Play Games

相關度指兩個事物之間的關聯關係(相關性). Lucene中指的是搜索關鍵詞(Term)與搜索結果之間的相關性. 如: 搜索bookname域中包含java的圖書, 則根據java在bookname中出現的次數和位置來判斷結果的相關性. ...


目錄

1 什麼是相關度

概念: 相關度指兩個事物之間的關聯關係(相關性). Lucene中指的是搜索關鍵詞(Term)與搜索結果之間的相關性. 如: 搜索bookname域中包含java的圖書, 則根據java在bookname中出現的次數和位置來判斷結果的相關性.

2 相關度評分

Lucene對查詢關鍵字和索引文檔的相關度進行打分, 得分越高排序越靠前.

  • Lucene的打分方法: Lucene在用戶進行檢索時根據實時搜索的關鍵字計算分值, 分兩步:
    1. 計算出詞(Term)的權重
    2. 根據詞的權重值, 計算文檔相關度得分.
  • 什麼是詞的權重?

    通過索引部分的說明, 易知索引的最小單位是Term(索引詞典中的一個詞). 搜索也是從索引域中查詢Term, 再根據Term找到文檔. Term對文檔的重要性稱為Term的權重.

  • 影響Term權重的因素有兩個:

    1. Term Frequency(tf):

      指此Term在此文檔中出現了多少次. tf 越大說明越重要.

      詞(Term)在文檔中出現的次數越多, 說明此詞(Term)對該文檔越重要, 如"Lucene"這個詞, 在文檔中出現的次數很多, 說明該文檔可能就是講Lucene技術的.

    2. Document Frequency(df):

      指有多少文檔包含此Term. df 越大說明越不重要.

      如: 在某篇英文文檔中, this出現的次數很多, 能說明this重要嗎? 不是的, 有越多的文檔包含此詞(Term), 說明此詞(Term)越普通, 不足以區分這些文檔, 因而重要性越低.

3 相關度設置

Lucene通過設置關鍵詞Term的權重(boost)值, 影響相關度評分, 從而影響搜索結果的排序.

3.1 需求

出版社做了廣告推廣: Lucene在收到錢之後, 將《Lucene Java精華版》排到第一.
圖片

3.2 廣告設置中......

/**
 * 相關度排序, 通過修改索引庫的方式, 修改需要更改的圖書的權重
 */
@Test
public void updateIndexBoost() throws IOException {
    // 1.建立分析器對象(Analyzer), 用於分詞
    Analyzer analyzer = new IKAnalyzer();

    // 2.建立索引庫配置對象(IndexWriterConfig), 配置索引庫
    IndexWriterConfig iwc = new IndexWriterConfig(Version.LUCENE_4_10_4, analyzer);
   
    // 3.建立索引庫目錄對象(Directory),指定索引庫位置
    Directory directory  = FSDirectory.open(new File("/Users/healchow/Documents/index")); 

    // 4.建立索引庫操作對象(IndexWriter), 操作索引庫
    IndexWriter writer = new IndexWriter(directory,iwc);
   
    // 5.建立文檔對象(Document)
    Document doc = new Document(); 
    // 5 Lucene Java精華版 80 5.jpg 
    doc.add(new StringField("bookId", "5", Store.YES));  
    TextField nameField = new TextField("bookName", "Lucene Java精華版", Store.YES);
    // 設置權重值為100. 預設是1
    nameField.setBoost(100f);
    doc.add(nameField);
    doc.add(new FloatField("bookPrice", 80f, Store.YES));
    doc.add(new StoredField("bookPic","5.jpg"));

    // 6.建立更新條件對象(Term)
    Term term = new Term("bookId", "5");
    
    // 7.使用IndexWriter對象,執行更新
    writer.updateDocument(term, doc);
   
    // 8.釋放資源
    writer.close();
}
// 或在創建索引時即修改權重: 
// 打個廣告: 收到錢之後, 將《Lucene Java精華版》排到第一 
// 5 Lucene Java精華版 80 5.jpg 
TestField bookNameField = new TextField("bookName", book.getBookname(), Store.YES); 
if (book.getId() == 5) {
    // 設置權重值為100. 預設是1
    bookNameField.setBoost(100f);
}
document.add(bookNameField);

圖片

版權聲明

作者: ma_shoufeng(馬瘦風)

出處: 博客園 馬瘦風的博客

您的支持是對博主的極大鼓勵, 感謝您的閱讀.

本文版權歸博主所有, 歡迎轉載, 但未經博主同意必須保留此段聲明, 且在文章頁面明顯位置給出原文鏈接, 否則博主保留追究法律責任的權利.


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 簡介: 組織單位簡稱OU,OU是(Organizational Unit)的縮寫,組織單位是可以將用戶、組、電腦和組織單位放入其中的容器。是可以指派組策略設置或委派管理許可權的最小作用域或單元。 建立步驟 一、組織單位的創建 1)打開伺服器管理器,點 工具》Active Directory用戶和計算 ...
  • VIM (Unix及類Unix系統文本編輯器) Vim是一個類似於Vi的著名的功能強大、高度可定製的文本編輯器,在Vi的基礎上改進和增加了很多特性。VIM是開源軟體。 Vim普遍被推崇為類Vi編輯器中最好的一個,事實上真正的勁敵來自Emacs的不同變體。1999 年Emacs被選為Linuxworl ...
  • 簡介: AD是Active Directory的簡寫,中文稱活動目錄。活動目錄(Active Directory)主要提供以下功能: 1)伺服器及客戶端電腦管理 2)用戶服務 3)資源管理 4)桌面配置 5)應用系統支撐等 準備環境: 部署步驟 一、角色安裝 1)打開伺服器管理器,添加 角色和功能 ...
  • CentOS7使用nmtui和nmcli配置網路 CentOS7配置網路推薦使用NetworkManager服務(不推薦network服務)。 圖形化方式:nmtui或Applications->System Tools->Settings->Network 命令方式:nmcli nmtui要求安裝 ...
  • Linux系統下刪除某個文件時提示如下報錯: 執行lsattr命令可以看到隱藏屬性 i ,如下圖: 通過查找資料發現: chattr命令用於改變文件屬性。這項指令可改變存放在ext2文件系統上的文件或目錄屬性,這些屬性共有以下8種模式:a:讓文件或目錄僅供附加用途。b:不更新文件或目錄的最後存取時間 ...
  • 第1章 優化 1.1 修改yum源 epel源 curl -o /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-7.repo curl -o /etc/yum.repos.d/epel.repo http ...
  • gdb調試文件,運行提示沒有那個文件。 報錯During startup program exited with code 127. 查找資料發現是因為文件是32位的,而使用的linux是64位,/lib/ld-linux.so.2 不支持32位文件。 解決方法: sudo apt-get inst ...
  • 占座 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...