Elasticsearch 系列(二)- ES的基本概念

来源:https://www.cnblogs.com/xyh9039/archive/2023/11/20/17842159.html
-Advertisement-
Play Games

本章將和大家分享 Elasticsearch 的一些基本概念。話不多說,下麵我們直接進入主題。 一、什麼是Lucene Lucene是Apache的開源搜索引擎類庫,提供了搜索引擎的核心API。 1、Lucene的優勢:易擴展、高性能(基於倒排索引) 2、Lucene的缺點:只限於Java語言開發、 ...


本章將和大家分享 Elasticsearch 的一些基本概念。話不多說,下麵我們直接進入主題。

一、什麼是Lucene

Lucene是Apache的開源搜索引擎類庫,提供了搜索引擎的核心API。

1、Lucene的優勢:易擴展、高性能(基於倒排索引)

2、Lucene的缺點:只限於Java語言開發、學習曲線陡峭、不支持水平擴展

二、什麼是Elasticsearch

Elasticsearch(簡稱ES)是一個開源的,分散式的全文搜索和分析引擎。它可以幫助我們從海量數據中快速找到需要的內容。

1、Elasticsearch 是基於 Lucene 開發的,相比與Lucene,Elasticsearch具備以下優勢:支持分散式,可水平擴展;提供Restful介面,可被任何語言調用。

2、Elasticsearch 結合 Kibana、Logstash、Beats,也就是elastic stack(ELK)。被廣泛應用在日誌數據分析、實時監控等領域。

3、Elasticsearch 是 elastic stack(ELK)的核心,負責存儲、搜索、分析數據。

4、官網地址:https://www.elastic.co/cn/

三、什麼是elastic stack(ELK)

是以Elasticsearch為核心的技術棧,包括Beats、Logstash、Kibana、Elasticsearch。

四、正向索引和倒排索引

1、什麼是正向索引

正向索引:基於文檔id創建索引。查詢詞條時必須先找到文檔,而後判斷是否包含詞條。

傳統資料庫(如MySQL)採用正向索引,例如給下表(tb_goods)中的id創建索引:

這是我們傳統的正向索引,如果通過索引id去做檢索那效率就比較高,但是如果通過局部內容去做檢索那效率就比較差了。 

2、什麼是文檔和詞條

文檔(document):每一條數據就是一個文檔

詞條(term):對文檔中的內容按照語義分詞,得到的詞語就是詞條

3、什麼是倒排索引

倒排索引:對文檔內容分詞,對詞條創建索引,並記錄詞條所在文檔的信息。查詢時先根據詞條查詢到文檔id,而後獲取到文檔。

Elasticsearch採用倒排索引:

文檔(document):每條數據就是一個文檔

詞條(term):文檔按照語義分成的詞語

例如:對 title 創建倒排索引

倒排索引在做存儲的時候,它是將文檔中的內容按照語義去分成不同的詞條,然後再按照詞條去做存儲,關聯文檔id,建立起倒排索引。

搜索過程如下:

倒排索引的搜索過程是經過兩次檢索的,第一次是根據用戶輸入內容的詞條去詞條列表中進行尋找,找到對應的文檔id,第二次則是拿著文檔id去找文檔。雖然經歷了兩次查找,但是每一次查找都是索引級別的查找,所以總體的查詢效率是比較高的。

五、基本概念

1、欄位(Field)

欄位:類似MySQL中的一個欄位。

2、文檔(Document)

文檔:一條數據,用json格式表示。Elasticsearch是面向文檔存儲的,可以是資料庫中的一條商品數據,一個訂單信息。文檔數據會被序列化為json格式後存儲在Elasticsearch中。

3、類型(Type)

類型:逐漸被弱化的概念,Type就像關係型資料庫MySQL中的表,如用戶表、商品表等。註意:在Elasticsearch7.x中,一個索引庫下只有一張表,建表時不能給表取表名,預設表名為_doc。

4、索引(Index)

索引:相同類型文檔的集合,類似MySQL資料庫中的表。(由於Elasticsearch7.x版本之後,就刪除了Type類型,預設Type就是_doc,不然ES中的索引庫更像是MySQL中資料庫的概念)

5、映射(Mapping)

映射:索引中文檔的欄位約束信息,類似表的結構約束

6、Query DSL

Query DSL:ES中提供了一種強大的檢索數據方式,這種檢索方式稱之為Query DSL(Domain Specific Language)。DSL是Elasticsearch提供的JSON風格的請求語句,用來操作Elasticsearch,實現CRUD。

7、分片(shard)

分片:可以將一個Index中的數據切分為多個shard,然後存儲到多台伺服器上,以增大一個Index可以存儲的數據量,加速檢索能力,提升系統性能。

8、副本(replica)

副本:與shard存儲的數據是相同的,起到備份作用。當shard發生故障時,可以從replica中讀取數據,保證系統不受影響。

9、節點(Node)

節點:單個Elasticsearch實例,一臺機器可以有多個節點。節點名稱預設隨機分配。

10、集群(Cluster)

集群:一組Elasticsearch實例,預設集群名稱為 elasticsearch 。

11、概念對比

MySQL  Elasticsearch  說明
 Table  Index  索引(Index),就是文檔的集合,類似資料庫的表(Table)。(由於Elasticsearch7.x版本之後,就刪除了Type類型,預設Type就是_doc,不然ES中的索引庫更像是MySQL中資料庫的概念)
 Row  Document  文檔(Document),就是一條條的數據,類似資料庫中的行(Row),文檔都是JSON格式。
 Column  Field  欄位(Field),就是JSON文檔中的欄位,類似資料庫中的列(Column)。
 Schema  Mapping  映射(Mapping)是索引中對文檔的約束,例如欄位類型約束,類似資料庫的表結構(Schema)。
 SQL  DSL   ES中提供了一種強大的檢索數據方式,這種檢索方式稱之為Query DSL(Domain Specific Language)。DSL是Elasticsearch提供的JSON風格的請求語句,用來操作Elasticsearch,實現CRUD。

12、Elasticsearch與資料庫的關係

MySQL:擅長事務類型操作,可以確保數據的安全和一致性。

Elasticsearch:擅長海量數據的搜索、分析、計算。

13、 元數據(Document MetaData)

元數據:用於標註文檔的相關信息。

1)_index:文檔所在的索引名

2)_type:文檔所在的類型名,預設是_doc

3)_id:文檔唯一id

4)uid:組合id,由type和id組成

5)_source:文檔的原始json數據,可從這裡獲取每個欄位的內容

6)_all:整合所有欄位內容到該欄位,預設禁用

7)_score:得分

六、ES中的數據類型

1、核心數據類型

1)字元串類型:text(可分詞的文本)、keyword(精確值,例如:品牌、國家、ip地址)

2)數值類型:long、integer、short、byte、double、float、half_float、scaled_float

3)日期類型:date

4)布爾類型:boolean

5)二進位類型:binary

6)範圍類型:integer_range、float_range、long_range、double_range、date_range

2、複雜數據類型

1)數組類型:array

2)對象類型:object

3)嵌套類型:nested object

3、地理位置數據類型

1)geo_point

2)geo_shape

4、專用類型

1)記錄ip地址:ip

2)實現自動補全:completion

3)記錄分詞數:token_count

4)記錄字元串hash值:murmur3

 

此文由博主精心撰寫轉載請保留此原文鏈接:https://www.cnblogs.com/xyh9039/p/17842159.html

版權聲明:如有雷同純屬巧合,如有侵權請及時聯繫本人修改,謝謝!!!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 在平時的開發過程中,整數越界是一個容易被忽視的問題,關註潛在的整數越界問題可使我們編寫的代碼更加健壯,規避因整數越界導致的 bug。 ...
  • 對PDF頁面的增刪通常需要藉助專門的工具,而這些工具一般需要付費才能使用。那麼我們可以通過Java代碼免費實現這一功能嗎?答案是肯定的。這篇文章就教大家如何使用一個免費的國產Java庫來刪除PDF中的指定頁面或者刪除PDF中的空白頁。 使用Java快速刪除PDF中的指定頁面 1. 首先,我們需要先將 ...
  • 大家好,我是 Java陳序員。 我們在工作中,經常需要與文件上傳下載進行打交道。甚至有時候要實現文件預覽功能。 如果是一兩種的文件類型,我們或許可以藉助一些插件完成工作,那麼如果是要適配各式各樣的文件類型呢? 今天,給大家介紹一個支持預覽多種文件類型的開源項目 —— kkFileView. 項目介紹 ...
  • 原文翻譯自:https://medium.com 今天,我想談談 Spring 提供的@Transactional(readOnly = true)。 之所以聊這個是因為我公司項目的代碼里有很多@Transactional(readOnly = true),用過的同學都說@Transactional ...
  • 在這篇文章中,我們介紹了函數的兩種不常用的特殊用法:匿名函數和裝飾器函數。匿名函數是一種沒有名稱的函數,通常用於定義簡單的功能。我們可以使用lambda關鍵字來創建匿名函數,併在需要時直接調用它們。裝飾器函數是一種特殊的函數,可以接受一個函數作為參數,並返回一個新的函數。裝飾器函數通常用於在不改變原... ...
  • 使用 Go 語言開髮網絡代理服務可以通過以下步驟完成。這裡,我們將使用 golang.org/x/net/proxy 包來創建一個簡單的 SOCKS5 代理服務作為示例。 步驟 1. 安裝 golang.org/x/net/proxy 包 使用以下命令安裝 golang.org/x/net 包,該包 ...
  • 本文只發佈於利用OpenCV實現尺度不變性與角度不變性的特征找圖演算法和知乎 一般來說,利用OpenCV實現找圖功能,用的比較多的是模板匹配(matchTemplate)。筆者比較喜歡裡面的NCC演算法。但是模板有個很明顯的短板,面對尺度改變,角度改變的目標就無能為力了。因此本文旨在做到模板匹配做不到的 ...
  • ​ .NET主流ORM 下麵是3款.NET 使用最多的ORM,來自公眾號投票結果 ,數據比較真實可靠,也可去搜索公眾號繼續投票 測試項目發佈時間微信公眾號投票 (追逐時間光者)使用難度功能性能 SqlSugar orm 2014 26% 491票 適中 全 中高 EFCore orm 2016 36 ...
一周排行
    -Advertisement-
    Play Games
  • 一個自定義WPF窗體的解決方案,借鑒了呂毅老師的WPF製作高性能的透明背景的異形視窗一文,併在此基礎上增加了滑鼠穿透的功能。可以使得透明窗體的滑鼠事件穿透到下層,在下層窗體中響應。 ...
  • 在C#中使用RabbitMQ做個簡單的發送郵件小項目 前言 好久沒有做項目了,這次做一個發送郵件的小項目。發郵件是一個比較耗時的操作,之前在我的個人博客裡面回覆評論和友鏈申請是會通過發送郵件來通知對方的,不過當時只是簡單的進行了非同步操作。 那麼這次來使用RabbitMQ去統一發送郵件,我的想法是通過 ...
  • 當你使用Edge等瀏覽器或系統軟體播放媒體時,Windows控制中心就會出現相應的媒體信息以及控制播放的功能,如圖。 SMTC (SystemMediaTransportControls) 是一個Windows App SDK (舊為UWP) 中提供的一個API,用於與系統媒體交互。接入SMTC的好 ...
  • 最近在微軟商店,官方上架了新款Win11風格的WPF版UI框架【WPF Gallery Preview 1.0.0.0】,這款應用引入了前沿的Fluent Design UI設計,為用戶帶來全新的視覺體驗。 ...
  • 1.簡單使用實例 1.1 添加log4net.dll的引用。 在NuGet程式包中搜索log4net並添加,此次我所用版本為2.0.17。如下圖: 1.2 添加配置文件 右鍵項目,添加新建項,搜索選擇應用程式配置文件,命名為log4net.config,步驟如下圖: 1.2.1 log4net.co ...
  • 之前也分享過 Swashbuckle.AspNetCore 的使用,不過版本比較老了,本次演示用的示例版本為 .net core 8.0,從安裝使用開始,到根據命名空間分組顯示,十分的有用 ...
  • 在 Visual Studio 中,至少可以創建三種不同類型的類庫: 類庫(.NET Framework) 類庫(.NET 標準) 類庫 (.NET Core) 雖然第一種是我們多年來一直在使用的,但一直感到困惑的一個主要問題是何時使用 .NET Standard 和 .NET Core 類庫類型。 ...
  • WPF的按鈕提供了Template模板,可以通過修改Template模板中的內容對按鈕的樣式進行自定義。結合資源字典,可以將自定義資源在xaml視窗、自定義控制項或者整個App當中調用 ...
  • 實現了一個支持長短按得按鈕組件,單擊可以觸發Click事件,長按可以觸發LongPressed事件,長按鬆開時觸發LongClick事件。還可以和自定義外觀相結合,實現自定義的按鈕外形。 ...
  • 一、WTM是什麼 WalkingTec.Mvvm框架(簡稱WTM)最早開發與2013年,基於Asp.net MVC3 和 最早的Entity Framework, 當初主要是為瞭解決公司內部開發效率低,代碼風格不統一的問題。2017年9月,將代碼移植到了.Net Core上,併進行了深度優化和重構, ...