Elasticsearch 系列(二)- ES的基本概念

来源:https://www.cnblogs.com/xyh9039/archive/2023/11/20/17842159.html
-Advertisement-
Play Games

本章將和大家分享 Elasticsearch 的一些基本概念。話不多說,下麵我們直接進入主題。 一、什麼是Lucene Lucene是Apache的開源搜索引擎類庫,提供了搜索引擎的核心API。 1、Lucene的優勢:易擴展、高性能(基於倒排索引) 2、Lucene的缺點:只限於Java語言開發、 ...


本章將和大家分享 Elasticsearch 的一些基本概念。話不多說,下麵我們直接進入主題。

一、什麼是Lucene

Lucene是Apache的開源搜索引擎類庫,提供了搜索引擎的核心API。

1、Lucene的優勢:易擴展、高性能(基於倒排索引)

2、Lucene的缺點:只限於Java語言開發、學習曲線陡峭、不支持水平擴展

二、什麼是Elasticsearch

Elasticsearch(簡稱ES)是一個開源的,分散式的全文搜索和分析引擎。它可以幫助我們從海量數據中快速找到需要的內容。

1、Elasticsearch 是基於 Lucene 開發的,相比與Lucene,Elasticsearch具備以下優勢:支持分散式,可水平擴展;提供Restful介面,可被任何語言調用。

2、Elasticsearch 結合 Kibana、Logstash、Beats,也就是elastic stack(ELK)。被廣泛應用在日誌數據分析、實時監控等領域。

3、Elasticsearch 是 elastic stack(ELK)的核心,負責存儲、搜索、分析數據。

4、官網地址:https://www.elastic.co/cn/

三、什麼是elastic stack(ELK)

是以Elasticsearch為核心的技術棧,包括Beats、Logstash、Kibana、Elasticsearch。

四、正向索引和倒排索引

1、什麼是正向索引

正向索引:基於文檔id創建索引。查詢詞條時必須先找到文檔,而後判斷是否包含詞條。

傳統資料庫(如MySQL)採用正向索引,例如給下表(tb_goods)中的id創建索引:

這是我們傳統的正向索引,如果通過索引id去做檢索那效率就比較高,但是如果通過局部內容去做檢索那效率就比較差了。 

2、什麼是文檔和詞條

文檔(document):每一條數據就是一個文檔

詞條(term):對文檔中的內容按照語義分詞,得到的詞語就是詞條

3、什麼是倒排索引

倒排索引:對文檔內容分詞,對詞條創建索引,並記錄詞條所在文檔的信息。查詢時先根據詞條查詢到文檔id,而後獲取到文檔。

Elasticsearch採用倒排索引:

文檔(document):每條數據就是一個文檔

詞條(term):文檔按照語義分成的詞語

例如:對 title 創建倒排索引

倒排索引在做存儲的時候,它是將文檔中的內容按照語義去分成不同的詞條,然後再按照詞條去做存儲,關聯文檔id,建立起倒排索引。

搜索過程如下:

倒排索引的搜索過程是經過兩次檢索的,第一次是根據用戶輸入內容的詞條去詞條列表中進行尋找,找到對應的文檔id,第二次則是拿著文檔id去找文檔。雖然經歷了兩次查找,但是每一次查找都是索引級別的查找,所以總體的查詢效率是比較高的。

五、基本概念

1、欄位(Field)

欄位:類似MySQL中的一個欄位。

2、文檔(Document)

文檔:一條數據,用json格式表示。Elasticsearch是面向文檔存儲的,可以是資料庫中的一條商品數據,一個訂單信息。文檔數據會被序列化為json格式後存儲在Elasticsearch中。

3、類型(Type)

類型:逐漸被弱化的概念,Type就像關係型資料庫MySQL中的表,如用戶表、商品表等。註意:在Elasticsearch7.x中,一個索引庫下只有一張表,建表時不能給表取表名,預設表名為_doc。

4、索引(Index)

索引:相同類型文檔的集合,類似MySQL資料庫中的表。(由於Elasticsearch7.x版本之後,就刪除了Type類型,預設Type就是_doc,不然ES中的索引庫更像是MySQL中資料庫的概念)

5、映射(Mapping)

映射:索引中文檔的欄位約束信息,類似表的結構約束

6、Query DSL

Query DSL:ES中提供了一種強大的檢索數據方式,這種檢索方式稱之為Query DSL(Domain Specific Language)。DSL是Elasticsearch提供的JSON風格的請求語句,用來操作Elasticsearch,實現CRUD。

7、分片(shard)

分片:可以將一個Index中的數據切分為多個shard,然後存儲到多台伺服器上,以增大一個Index可以存儲的數據量,加速檢索能力,提升系統性能。

8、副本(replica)

副本:與shard存儲的數據是相同的,起到備份作用。當shard發生故障時,可以從replica中讀取數據,保證系統不受影響。

9、節點(Node)

節點:單個Elasticsearch實例,一臺機器可以有多個節點。節點名稱預設隨機分配。

10、集群(Cluster)

集群:一組Elasticsearch實例,預設集群名稱為 elasticsearch 。

11、概念對比

MySQL  Elasticsearch  說明
 Table  Index  索引(Index),就是文檔的集合,類似資料庫的表(Table)。(由於Elasticsearch7.x版本之後,就刪除了Type類型,預設Type就是_doc,不然ES中的索引庫更像是MySQL中資料庫的概念)
 Row  Document  文檔(Document),就是一條條的數據,類似資料庫中的行(Row),文檔都是JSON格式。
 Column  Field  欄位(Field),就是JSON文檔中的欄位,類似資料庫中的列(Column)。
 Schema  Mapping  映射(Mapping)是索引中對文檔的約束,例如欄位類型約束,類似資料庫的表結構(Schema)。
 SQL  DSL   ES中提供了一種強大的檢索數據方式,這種檢索方式稱之為Query DSL(Domain Specific Language)。DSL是Elasticsearch提供的JSON風格的請求語句,用來操作Elasticsearch,實現CRUD。

12、Elasticsearch與資料庫的關係

MySQL:擅長事務類型操作,可以確保數據的安全和一致性。

Elasticsearch:擅長海量數據的搜索、分析、計算。

13、 元數據(Document MetaData)

元數據:用於標註文檔的相關信息。

1)_index:文檔所在的索引名

2)_type:文檔所在的類型名,預設是_doc

3)_id:文檔唯一id

4)uid:組合id,由type和id組成

5)_source:文檔的原始json數據,可從這裡獲取每個欄位的內容

6)_all:整合所有欄位內容到該欄位,預設禁用

7)_score:得分

六、ES中的數據類型

1、核心數據類型

1)字元串類型:text(可分詞的文本)、keyword(精確值,例如:品牌、國家、ip地址)

2)數值類型:long、integer、short、byte、double、float、half_float、scaled_float

3)日期類型:date

4)布爾類型:boolean

5)二進位類型:binary

6)範圍類型:integer_range、float_range、long_range、double_range、date_range

2、複雜數據類型

1)數組類型:array

2)對象類型:object

3)嵌套類型:nested object

3、地理位置數據類型

1)geo_point

2)geo_shape

4、專用類型

1)記錄ip地址:ip

2)實現自動補全:completion

3)記錄分詞數:token_count

4)記錄字元串hash值:murmur3

 

此文由博主精心撰寫轉載請保留此原文鏈接:https://www.cnblogs.com/xyh9039/p/17842159.html

版權聲明:如有雷同純屬巧合,如有侵權請及時聯繫本人修改,謝謝!!!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 在平時的開發過程中,整數越界是一個容易被忽視的問題,關註潛在的整數越界問題可使我們編寫的代碼更加健壯,規避因整數越界導致的 bug。 ...
  • 對PDF頁面的增刪通常需要藉助專門的工具,而這些工具一般需要付費才能使用。那麼我們可以通過Java代碼免費實現這一功能嗎?答案是肯定的。這篇文章就教大家如何使用一個免費的國產Java庫來刪除PDF中的指定頁面或者刪除PDF中的空白頁。 使用Java快速刪除PDF中的指定頁面 1. 首先,我們需要先將 ...
  • 大家好,我是 Java陳序員。 我們在工作中,經常需要與文件上傳下載進行打交道。甚至有時候要實現文件預覽功能。 如果是一兩種的文件類型,我們或許可以藉助一些插件完成工作,那麼如果是要適配各式各樣的文件類型呢? 今天,給大家介紹一個支持預覽多種文件類型的開源項目 —— kkFileView. 項目介紹 ...
  • 原文翻譯自:https://medium.com 今天,我想談談 Spring 提供的@Transactional(readOnly = true)。 之所以聊這個是因為我公司項目的代碼里有很多@Transactional(readOnly = true),用過的同學都說@Transactional ...
  • 在這篇文章中,我們介紹了函數的兩種不常用的特殊用法:匿名函數和裝飾器函數。匿名函數是一種沒有名稱的函數,通常用於定義簡單的功能。我們可以使用lambda關鍵字來創建匿名函數,併在需要時直接調用它們。裝飾器函數是一種特殊的函數,可以接受一個函數作為參數,並返回一個新的函數。裝飾器函數通常用於在不改變原... ...
  • 使用 Go 語言開髮網絡代理服務可以通過以下步驟完成。這裡,我們將使用 golang.org/x/net/proxy 包來創建一個簡單的 SOCKS5 代理服務作為示例。 步驟 1. 安裝 golang.org/x/net/proxy 包 使用以下命令安裝 golang.org/x/net 包,該包 ...
  • 本文只發佈於利用OpenCV實現尺度不變性與角度不變性的特征找圖演算法和知乎 一般來說,利用OpenCV實現找圖功能,用的比較多的是模板匹配(matchTemplate)。筆者比較喜歡裡面的NCC演算法。但是模板有個很明顯的短板,面對尺度改變,角度改變的目標就無能為力了。因此本文旨在做到模板匹配做不到的 ...
  • ​ .NET主流ORM 下麵是3款.NET 使用最多的ORM,來自公眾號投票結果 ,數據比較真實可靠,也可去搜索公眾號繼續投票 測試項目發佈時間微信公眾號投票 (追逐時間光者)使用難度功能性能 SqlSugar orm 2014 26% 491票 適中 全 中高 EFCore orm 2016 36 ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...