ElasticStack學習(五):ElasticSearch索引與分詞

来源:https://www.cnblogs.com/supersnowyao/archive/2019/07/12/11169354.html
-Advertisement-
Play Games

一、正排索引與倒排索引 1、什麼是正排索引呢? 以一本書為例,一般在書的開始都會有書的目錄,目錄裡面列舉了一本書有哪些章節,大概有哪些內容,以及所對應的頁碼數。這樣,我們在查找一些內容時,就可以通過目錄來定位到這些內容大概在哪頁。因此,書的目錄就可以稱之為正排索引(目錄頁)。 2、什麼時倒排索引呢? ...


一、正排索引與倒排索引

1、什麼是正排索引呢?

  以一本書為例,一般在書的開始都會有書的目錄,目錄裡面列舉了一本書有哪些章節,大概有哪些內容,以及所對應的頁碼數。這樣,我們在查找一些內容時,就可以通過目錄來定位到這些內容大概在哪頁。因此,書的目錄就可以稱之為正排索引(目錄頁)。

2、什麼時倒排索引呢?

  還是以一本書為例,在有些書的最後,會有以詞為單位的列表,指明瞭相應的詞分別出現在了哪些頁中,而這樣的列表就稱之為倒排索引(索引頁)。

3、兩者在搜索引擎中的對比

  正排索引:文檔ID到文檔內容和單詞的關聯;

  倒排索引:單詞到文檔ID的關聯;

如下表所示:

文檔ID 文檔內容
1 mastering elasticsearch
2 elasticsearch server
3 elasticsearch stack

 

 

 

 

 

單詞 出現次數 文檔ID:出現位置
mastering 1 1:0
elasticsearch 3 1:1,2:0,3:0
server 1 2:1
stack 1 3:1

 

 

 

 

 

 

 

 上述兩表就是正排索引與倒排索引的簡單結構說明。

4、倒排索引的組成

倒排索引由兩部分組成:

  1)單詞詞典:它記錄了所有文檔的單詞,同時記錄了單詞到倒排列表的關聯關係。單詞詞典一般比較大,可以通過B+樹或哈希拉鏈法實現,以滿足高性能的插入與查詢。

  2)倒排列表:它記錄單詞所對應的文檔組合體,主要是由倒排索引項組成的。

    倒排索引項的內容包括:

      a)文檔ID;

      b)詞頻(Term Frequency),代表單詞在文檔中出現的次數,用於相關性打分;

      c)位置(Position),表示單詞在文檔中分詞的位置,用於語句搜索;

      d)偏移(Offset),記錄單詞開始和結束位置,用於實現高亮顯示;

 

二、分詞與分詞器

1、分詞:文本分析就是把全文轉換成一系列單詞(term/token)的過程,也叫做分詞。

2、分詞器:分詞是通過分詞器來實現的,它是專門處理分詞的組件。可以使用ElasticSearch內置的分詞器,也可以按需定製化分詞器。

  因此,除了在數據寫入時用分詞器轉換詞條,在匹配查詢語句時,也需要用相同的分詞器對查詢語句進行分析。 

  分詞器由三部分組成:

  1)Character Filters:它的主要作用是對原始文本進行處理,例如去除HTML標簽;

  2)Tokenizer:主要作用是按照規則來切分單詞;

  3)Token Filter:將切分好的單詞進行加工,例如:小寫轉換、刪除停用詞、增加同義詞;

  ElasticSearch內置瞭如下分詞器:

  1)Standard Analyzer:預設分詞器,按詞切分,轉小寫處理;

  

  2)Simple Analyzer:按照非字母切分(符號被過濾),轉小寫處理;

  

  3)Stop Analyzer:停用詞過濾(is/a/the),轉小寫處理;

  

  4)WhiteSpace Analyzer:按照空格切分,轉小寫處理;

  

  5)Keyword Analyzer:直接將輸入當作輸出,不分詞;

  

  6)Pattern Analyzer:正則表達式分詞,預設\W+(非字元分隔);

  

  7)Language:提供了30多種常見語言的分詞器;

  

  8)Custom Analyzer:自定義分詞器;

3、中文分詞

  1)我們採用analysis-icu插件進行中文分詞,可通過命令行:ElasticSearch-plugin install analysis-icu來安裝此插件。該插件提供了Unicode支持,可以更好的支持亞洲語言。如下圖所示:

  

  2)社區中還有其他很好的分詞器,如下:

    a)IK:支持自定義詞庫,支持熱更新分詞字典;下載地址:https://github.com/medcl/elasticsearch-analysis-ik

    b)THULAC:THU Lexucal Analyzer for Chinese,由清華大學自然語言處理和社會人文計算實驗器出的一套中文分詞器;下載地址:https://github.com/microbun/elasticsearch-thulac-plugin

 

    大家可關註我的公眾號

    

     知識學習來源:《Elasticsearch核心技術與實戰》 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 錯誤一:ADF_FACES-60097:For more information, please see the server's error log for an entry beginning with: ADF_FACES-60096:Server Exception during PPR, ...
  • 1.在已經安裝好系統的linux伺服器上關閉selinux和iptables 2.在所有linux伺服器上配置ntp服務並設置ntp時間同步 3.在所有linux伺服器上安裝好cm和cdh版本所需要對應的java版本 (1).下載java包到/usr/local目錄解壓 (2).添加java環境到/... ...
  • 備份 使用維護計劃嚮導創建備份 1. 啟動維護計劃嚮導 2. 填入計劃名稱,選擇每項任務單獨計劃 3. 選擇完整備份和清除任務 4. 配置完整備份任務,選擇備份資料庫 5. 設置備份文件保存位置, 6. 指定壓縮備份,設置執行計劃時間為每天執行,並 勾選僅複製備份 7. 配置清除任務的文件位置,擴展 ...
  • 在進行Spark Streaming的開發時,我們常常需要將DStream轉為DataFrame來進行進一步的處理, 共有兩種方式,方式一: 利用map運算元和tuple來完成,一般的場景下採用這種方式即可。 但是有的時候我們會遇到列數大於22的情況,這個時候會受到scala的tuple數不能超過22 ...
  • 前言(廢話) 昨天抽了點時間在網上搜列了一個開源項目,項目挺完整的,前後臺分離還帶有微信小程式,我Clone下代碼,經過一番倒騰,嘿~還真就跑起來了。在這個過程中,體驗了一把VUE項目工程細節,因為之前沒有接觸過這一塊,所以還是花費了點時間,好在開源項目的QQ群里樓主幫忙看了一下,才得以順利往後進行 ...
  • 本篇文章首發於頭條號 "單機如何搭建Elasticsearch集群?使用容器技術快速構建集群環境" ,歡迎關註 "頭條號" 和微信公眾號“大數據技術和人工智慧”(微信搜索bigdata_ai_tech)獲取更多乾貨,也歡迎關註 "CSDN博客" 。 在之前的文章里分別介紹過 "Elasticsear ...
  • 報錯信息 無法為該請求檢索數據。 (Microsoft.SqlServer.Management.Sdk.Sfc) 未知屬性 IsMemoryOptimized (Microsoft.SqlServer.Management.Sdk.Sfc) 參考資料 MSSQL Server Management ...
  • 用法:目的更新B表的數據 查詢出A表的欄位,命名為表1。然後更新B表 實例: ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...