Lucene08-Lucene的相關度排序

来源:https://www.cnblogs.com/shoufeng/archive/2018/08/02/9410785.html
-Advertisement-
Play Games

相關度指兩個事物之間的關聯關係(相關性). Lucene中指的是搜索關鍵詞(Term)與搜索結果之間的相關性. 如: 搜索bookname域中包含java的圖書, 則根據java在bookname中出現的次數和位置來判斷結果的相關性. ...


目錄

1 什麼是相關度

概念: 相關度指兩個事物之間的關聯關係(相關性). Lucene中指的是搜索關鍵詞(Term)與搜索結果之間的相關性. 如: 搜索bookname域中包含java的圖書, 則根據java在bookname中出現的次數和位置來判斷結果的相關性.

2 相關度評分

Lucene對查詢關鍵字和索引文檔的相關度進行打分, 得分越高排序越靠前.

  • Lucene的打分方法: Lucene在用戶進行檢索時根據實時搜索的關鍵字計算分值, 分兩步:
    1. 計算出詞(Term)的權重
    2. 根據詞的權重值, 計算文檔相關度得分.
  • 什麼是詞的權重?

    通過索引部分的說明, 易知索引的最小單位是Term(索引詞典中的一個詞). 搜索也是從索引域中查詢Term, 再根據Term找到文檔. Term對文檔的重要性稱為Term的權重.

  • 影響Term權重的因素有兩個:

    1. Term Frequency(tf):

      指此Term在此文檔中出現了多少次. tf 越大說明越重要.

      詞(Term)在文檔中出現的次數越多, 說明此詞(Term)對該文檔越重要, 如"Lucene"這個詞, 在文檔中出現的次數很多, 說明該文檔可能就是講Lucene技術的.

    2. Document Frequency(df):

      指有多少文檔包含此Term. df 越大說明越不重要.

      如: 在某篇英文文檔中, this出現的次數很多, 能說明this重要嗎? 不是的, 有越多的文檔包含此詞(Term), 說明此詞(Term)越普通, 不足以區分這些文檔, 因而重要性越低.

3 相關度設置

Lucene通過設置關鍵詞Term的權重(boost)值, 影響相關度評分, 從而影響搜索結果的排序.

3.1 需求

出版社做了廣告推廣: Lucene在收到錢之後, 將《Lucene Java精華版》排到第一.
圖片

3.2 廣告設置中......

/**
 * 相關度排序, 通過修改索引庫的方式, 修改需要更改的圖書的權重
 */
@Test
public void updateIndexBoost() throws IOException {
    // 1.建立分析器對象(Analyzer), 用於分詞
    Analyzer analyzer = new IKAnalyzer();

    // 2.建立索引庫配置對象(IndexWriterConfig), 配置索引庫
    IndexWriterConfig iwc = new IndexWriterConfig(Version.LUCENE_4_10_4, analyzer);
   
    // 3.建立索引庫目錄對象(Directory),指定索引庫位置
    Directory directory  = FSDirectory.open(new File("/Users/healchow/Documents/index")); 

    // 4.建立索引庫操作對象(IndexWriter), 操作索引庫
    IndexWriter writer = new IndexWriter(directory,iwc);
   
    // 5.建立文檔對象(Document)
    Document doc = new Document(); 
    // 5 Lucene Java精華版 80 5.jpg 
    doc.add(new StringField("bookId", "5", Store.YES));  
    TextField nameField = new TextField("bookName", "Lucene Java精華版", Store.YES);
    // 設置權重值為100. 預設是1
    nameField.setBoost(100f);
    doc.add(nameField);
    doc.add(new FloatField("bookPrice", 80f, Store.YES));
    doc.add(new StoredField("bookPic","5.jpg"));

    // 6.建立更新條件對象(Term)
    Term term = new Term("bookId", "5");
    
    // 7.使用IndexWriter對象,執行更新
    writer.updateDocument(term, doc);
   
    // 8.釋放資源
    writer.close();
}
// 或在創建索引時即修改權重: 
// 打個廣告: 收到錢之後, 將《Lucene Java精華版》排到第一 
// 5 Lucene Java精華版 80 5.jpg 
TestField bookNameField = new TextField("bookName", book.getBookname(), Store.YES); 
if (book.getId() == 5) {
    // 設置權重值為100. 預設是1
    bookNameField.setBoost(100f);
}
document.add(bookNameField);

圖片

版權聲明

作者: ma_shoufeng(馬瘦風)

出處: 博客園 馬瘦風的博客

您的支持是對博主的極大鼓勵, 感謝您的閱讀.

本文版權歸博主所有, 歡迎轉載, 但未經博主同意必須保留此段聲明, 且在文章頁面明顯位置給出原文鏈接, 否則博主保留追究法律責任的權利.


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 簡介: 組織單位簡稱OU,OU是(Organizational Unit)的縮寫,組織單位是可以將用戶、組、電腦和組織單位放入其中的容器。是可以指派組策略設置或委派管理許可權的最小作用域或單元。 建立步驟 一、組織單位的創建 1)打開伺服器管理器,點 工具》Active Directory用戶和計算 ...
  • VIM (Unix及類Unix系統文本編輯器) Vim是一個類似於Vi的著名的功能強大、高度可定製的文本編輯器,在Vi的基礎上改進和增加了很多特性。VIM是開源軟體。 Vim普遍被推崇為類Vi編輯器中最好的一個,事實上真正的勁敵來自Emacs的不同變體。1999 年Emacs被選為Linuxworl ...
  • 簡介: AD是Active Directory的簡寫,中文稱活動目錄。活動目錄(Active Directory)主要提供以下功能: 1)伺服器及客戶端電腦管理 2)用戶服務 3)資源管理 4)桌面配置 5)應用系統支撐等 準備環境: 部署步驟 一、角色安裝 1)打開伺服器管理器,添加 角色和功能 ...
  • CentOS7使用nmtui和nmcli配置網路 CentOS7配置網路推薦使用NetworkManager服務(不推薦network服務)。 圖形化方式:nmtui或Applications->System Tools->Settings->Network 命令方式:nmcli nmtui要求安裝 ...
  • Linux系統下刪除某個文件時提示如下報錯: 執行lsattr命令可以看到隱藏屬性 i ,如下圖: 通過查找資料發現: chattr命令用於改變文件屬性。這項指令可改變存放在ext2文件系統上的文件或目錄屬性,這些屬性共有以下8種模式:a:讓文件或目錄僅供附加用途。b:不更新文件或目錄的最後存取時間 ...
  • 第1章 優化 1.1 修改yum源 epel源 curl -o /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-7.repo curl -o /etc/yum.repos.d/epel.repo http ...
  • gdb調試文件,運行提示沒有那個文件。 報錯During startup program exited with code 127. 查找資料發現是因為文件是32位的,而使用的linux是64位,/lib/ld-linux.so.2 不支持32位文件。 解決方法: sudo apt-get inst ...
  • 占座 ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...