Elasticsearch 系列(二)- ES的基本概念

来源:https://www.cnblogs.com/xyh9039/archive/2023/11/20/17842159.html
-Advertisement-
Play Games

本章將和大家分享 Elasticsearch 的一些基本概念。話不多說,下麵我們直接進入主題。 一、什麼是Lucene Lucene是Apache的開源搜索引擎類庫,提供了搜索引擎的核心API。 1、Lucene的優勢:易擴展、高性能(基於倒排索引) 2、Lucene的缺點:只限於Java語言開發、 ...


本章將和大家分享 Elasticsearch 的一些基本概念。話不多說,下麵我們直接進入主題。

一、什麼是Lucene

Lucene是Apache的開源搜索引擎類庫,提供了搜索引擎的核心API。

1、Lucene的優勢:易擴展、高性能(基於倒排索引)

2、Lucene的缺點:只限於Java語言開發、學習曲線陡峭、不支持水平擴展

二、什麼是Elasticsearch

Elasticsearch(簡稱ES)是一個開源的,分散式的全文搜索和分析引擎。它可以幫助我們從海量數據中快速找到需要的內容。

1、Elasticsearch 是基於 Lucene 開發的,相比與Lucene,Elasticsearch具備以下優勢:支持分散式,可水平擴展;提供Restful介面,可被任何語言調用。

2、Elasticsearch 結合 Kibana、Logstash、Beats,也就是elastic stack(ELK)。被廣泛應用在日誌數據分析、實時監控等領域。

3、Elasticsearch 是 elastic stack(ELK)的核心,負責存儲、搜索、分析數據。

4、官網地址:https://www.elastic.co/cn/

三、什麼是elastic stack(ELK)

是以Elasticsearch為核心的技術棧,包括Beats、Logstash、Kibana、Elasticsearch。

四、正向索引和倒排索引

1、什麼是正向索引

正向索引:基於文檔id創建索引。查詢詞條時必須先找到文檔,而後判斷是否包含詞條。

傳統資料庫(如MySQL)採用正向索引,例如給下表(tb_goods)中的id創建索引:

這是我們傳統的正向索引,如果通過索引id去做檢索那效率就比較高,但是如果通過局部內容去做檢索那效率就比較差了。 

2、什麼是文檔和詞條

文檔(document):每一條數據就是一個文檔

詞條(term):對文檔中的內容按照語義分詞,得到的詞語就是詞條

3、什麼是倒排索引

倒排索引:對文檔內容分詞,對詞條創建索引,並記錄詞條所在文檔的信息。查詢時先根據詞條查詢到文檔id,而後獲取到文檔。

Elasticsearch採用倒排索引:

文檔(document):每條數據就是一個文檔

詞條(term):文檔按照語義分成的詞語

例如:對 title 創建倒排索引

倒排索引在做存儲的時候,它是將文檔中的內容按照語義去分成不同的詞條,然後再按照詞條去做存儲,關聯文檔id,建立起倒排索引。

搜索過程如下:

倒排索引的搜索過程是經過兩次檢索的,第一次是根據用戶輸入內容的詞條去詞條列表中進行尋找,找到對應的文檔id,第二次則是拿著文檔id去找文檔。雖然經歷了兩次查找,但是每一次查找都是索引級別的查找,所以總體的查詢效率是比較高的。

五、基本概念

1、欄位(Field)

欄位:類似MySQL中的一個欄位。

2、文檔(Document)

文檔:一條數據,用json格式表示。Elasticsearch是面向文檔存儲的,可以是資料庫中的一條商品數據,一個訂單信息。文檔數據會被序列化為json格式後存儲在Elasticsearch中。

3、類型(Type)

類型:逐漸被弱化的概念,Type就像關係型資料庫MySQL中的表,如用戶表、商品表等。註意:在Elasticsearch7.x中,一個索引庫下只有一張表,建表時不能給表取表名,預設表名為_doc。

4、索引(Index)

索引:相同類型文檔的集合,類似MySQL資料庫中的表。(由於Elasticsearch7.x版本之後,就刪除了Type類型,預設Type就是_doc,不然ES中的索引庫更像是MySQL中資料庫的概念)

5、映射(Mapping)

映射:索引中文檔的欄位約束信息,類似表的結構約束

6、Query DSL

Query DSL:ES中提供了一種強大的檢索數據方式,這種檢索方式稱之為Query DSL(Domain Specific Language)。DSL是Elasticsearch提供的JSON風格的請求語句,用來操作Elasticsearch,實現CRUD。

7、分片(shard)

分片:可以將一個Index中的數據切分為多個shard,然後存儲到多台伺服器上,以增大一個Index可以存儲的數據量,加速檢索能力,提升系統性能。

8、副本(replica)

副本:與shard存儲的數據是相同的,起到備份作用。當shard發生故障時,可以從replica中讀取數據,保證系統不受影響。

9、節點(Node)

節點:單個Elasticsearch實例,一臺機器可以有多個節點。節點名稱預設隨機分配。

10、集群(Cluster)

集群:一組Elasticsearch實例,預設集群名稱為 elasticsearch 。

11、概念對比

MySQL  Elasticsearch  說明
 Table  Index  索引(Index),就是文檔的集合,類似資料庫的表(Table)。(由於Elasticsearch7.x版本之後,就刪除了Type類型,預設Type就是_doc,不然ES中的索引庫更像是MySQL中資料庫的概念)
 Row  Document  文檔(Document),就是一條條的數據,類似資料庫中的行(Row),文檔都是JSON格式。
 Column  Field  欄位(Field),就是JSON文檔中的欄位,類似資料庫中的列(Column)。
 Schema  Mapping  映射(Mapping)是索引中對文檔的約束,例如欄位類型約束,類似資料庫的表結構(Schema)。
 SQL  DSL   ES中提供了一種強大的檢索數據方式,這種檢索方式稱之為Query DSL(Domain Specific Language)。DSL是Elasticsearch提供的JSON風格的請求語句,用來操作Elasticsearch,實現CRUD。

12、Elasticsearch與資料庫的關係

MySQL:擅長事務類型操作,可以確保數據的安全和一致性。

Elasticsearch:擅長海量數據的搜索、分析、計算。

13、 元數據(Document MetaData)

元數據:用於標註文檔的相關信息。

1)_index:文檔所在的索引名

2)_type:文檔所在的類型名,預設是_doc

3)_id:文檔唯一id

4)uid:組合id,由type和id組成

5)_source:文檔的原始json數據,可從這裡獲取每個欄位的內容

6)_all:整合所有欄位內容到該欄位,預設禁用

7)_score:得分

六、ES中的數據類型

1、核心數據類型

1)字元串類型:text(可分詞的文本)、keyword(精確值,例如:品牌、國家、ip地址)

2)數值類型:long、integer、short、byte、double、float、half_float、scaled_float

3)日期類型:date

4)布爾類型:boolean

5)二進位類型:binary

6)範圍類型:integer_range、float_range、long_range、double_range、date_range

2、複雜數據類型

1)數組類型:array

2)對象類型:object

3)嵌套類型:nested object

3、地理位置數據類型

1)geo_point

2)geo_shape

4、專用類型

1)記錄ip地址:ip

2)實現自動補全:completion

3)記錄分詞數:token_count

4)記錄字元串hash值:murmur3

 

此文由博主精心撰寫轉載請保留此原文鏈接:https://www.cnblogs.com/xyh9039/p/17842159.html

版權聲明:如有雷同純屬巧合,如有侵權請及時聯繫本人修改,謝謝!!!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 在平時的開發過程中,整數越界是一個容易被忽視的問題,關註潛在的整數越界問題可使我們編寫的代碼更加健壯,規避因整數越界導致的 bug。 ...
  • 對PDF頁面的增刪通常需要藉助專門的工具,而這些工具一般需要付費才能使用。那麼我們可以通過Java代碼免費實現這一功能嗎?答案是肯定的。這篇文章就教大家如何使用一個免費的國產Java庫來刪除PDF中的指定頁面或者刪除PDF中的空白頁。 使用Java快速刪除PDF中的指定頁面 1. 首先,我們需要先將 ...
  • 大家好,我是 Java陳序員。 我們在工作中,經常需要與文件上傳下載進行打交道。甚至有時候要實現文件預覽功能。 如果是一兩種的文件類型,我們或許可以藉助一些插件完成工作,那麼如果是要適配各式各樣的文件類型呢? 今天,給大家介紹一個支持預覽多種文件類型的開源項目 —— kkFileView. 項目介紹 ...
  • 原文翻譯自:https://medium.com 今天,我想談談 Spring 提供的@Transactional(readOnly = true)。 之所以聊這個是因為我公司項目的代碼里有很多@Transactional(readOnly = true),用過的同學都說@Transactional ...
  • 在這篇文章中,我們介紹了函數的兩種不常用的特殊用法:匿名函數和裝飾器函數。匿名函數是一種沒有名稱的函數,通常用於定義簡單的功能。我們可以使用lambda關鍵字來創建匿名函數,併在需要時直接調用它們。裝飾器函數是一種特殊的函數,可以接受一個函數作為參數,並返回一個新的函數。裝飾器函數通常用於在不改變原... ...
  • 使用 Go 語言開髮網絡代理服務可以通過以下步驟完成。這裡,我們將使用 golang.org/x/net/proxy 包來創建一個簡單的 SOCKS5 代理服務作為示例。 步驟 1. 安裝 golang.org/x/net/proxy 包 使用以下命令安裝 golang.org/x/net 包,該包 ...
  • 本文只發佈於利用OpenCV實現尺度不變性與角度不變性的特征找圖演算法和知乎 一般來說,利用OpenCV實現找圖功能,用的比較多的是模板匹配(matchTemplate)。筆者比較喜歡裡面的NCC演算法。但是模板有個很明顯的短板,面對尺度改變,角度改變的目標就無能為力了。因此本文旨在做到模板匹配做不到的 ...
  • ​ .NET主流ORM 下麵是3款.NET 使用最多的ORM,來自公眾號投票結果 ,數據比較真實可靠,也可去搜索公眾號繼續投票 測試項目發佈時間微信公眾號投票 (追逐時間光者)使用難度功能性能 SqlSugar orm 2014 26% 491票 適中 全 中高 EFCore orm 2016 36 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...