搜索引擎ElasticSearch入門

来源:https://www.cnblogs.com/yychuyu/archive/2020/06/23/13183891.html
-Advertisement-
Play Games

前言 最近項目上需要用到搜索引擎,由於之前自己沒有瞭解過,所以整理了一下搜索引擎的相關概念知識。 正文 想查數據就免不了搜索,搜索就離不開搜索引擎,百度、谷歌都是一個非常龐大複雜的搜索引擎,他們幾乎索引了互聯網上開放的所有網頁和數據。然而對於我們自己的業務數據來說,肯定就沒必要用這麼複雜的技術了,如 ...


前言

最近項目上需要用到搜索引擎,由於之前自己沒有瞭解過,所以整理了一下搜索引擎的相關概念知識。

正文

想查數據就免不了搜索,搜索就離不開搜索引擎,百度、谷歌都是一個非常龐大複雜的搜索引擎,他們幾乎索引了互聯網上開放的所有網頁和數據。然而對於我們自己的業務數據來說,肯定就沒必要用這麼複雜的技術了,如果我們想實現自己的搜索引擎,方便存儲和檢索,可以快速地儲存、搜索和分析海量數據。搜索引擎有很多種,我這裡主要講兩種比較流行的搜索引擎框架 Elasticsearch 和 Lucene 搜索引擎。

一、搜索引擎實現核心

Lucene/Elasticsearch 實現快速搜索的核心就是倒排索引,Lucene/Elasticsearch 就是儘量將磁碟里的東西搬進記憶體,減少磁碟隨機讀取次數(同時也利用磁碟順序讀特性),結合各種壓縮演算法,高效使用記憶體,從而達到快速搜索的特性。

核心概念https://www.cnblogs.com/valor-xh/p/6206042.html

https://blog.csdn.net/sinat_42338962/article/details/85227902

二、Lucene搜索引擎

百度百科:是 Apache 軟體基金會4 Jakarta項目組的一個子項目,是一個開放源代碼的全文檢索引擎工具包(實際就是一個 Jar 包),但它不是一個完整的全文檢索引擎,而是一個全文檢索引擎的架構,提供了完整的查詢引擎和索引引擎。Lucene 是一套信息檢索工具包,並不包含搜索引擎系統,它包含了索引結構、讀寫索引工具、相關性工具、排序等功能,因此在使用 Lucene 時仍需要關註搜索引擎系統,例如數據獲取、解析、分詞等方面的東西。Lucene 提供了一個簡單卻強大的應用程式介面,能夠做全文索引和搜尋。

Lucene,最先進、功能最強大的搜索庫,直接基於Lucene開發,非常複雜,Api複雜(實現一些簡單的功能,寫大量的java代碼),需要深入理解原理(各種索引結構)。Lucene只是一個庫。想要使用它,你必須使用Java來作為開發語言並將其直接集成到你的應用中,更糟糕的是,Lucene的配置及使用非常複雜,你需要深入瞭解檢索的相關知識來理解它是如何工作的。

三、ElasticSearch搜索引擎

百度百科:ElasticSearch 是一個基於 Lucene 的搜索伺服器。它提供了一個分散式多用戶能力的全文搜索引擎,基於 RESTful web 介面。Elasticsearch 是用Java語言開發的,並作為Apache許可條款下的開放源碼發佈,是一種流行的企業級搜索引擎。ElasticSearch 用於雲計算中,能夠達到實時搜索,穩定,可靠,快速,安裝使用方便。

ElasticSearch 的實現原理主要分為以下幾個步驟,首先用戶將數據提交到Elastic Search 資料庫中,再通過分詞控制器去將對應的語句分詞,將其權重和分詞結果一併存入數據,當用戶搜索數據時候,再根據權重將結果排名,打分,再將返回結果呈現給用戶。

Elasticsearch,基於 Lucene,隱藏複雜性,提供簡單易用的R estful Api 介面、Java Api 介面(還有其他語言的Api 介面)

  • 分散式的文檔存儲引擎

  • 分散式的搜索引擎和分析引擎

  • 分散式,支持PB級數據

四、Lucene和ElasticSearch優缺點對比

這兩種搜索引擎各自都有自己的特點,現在我來總結一下:

聯繫:ElasticSearch 封裝了 Lucene,讓使用變得更簡單,ElasticSearch 除了擁有Lucene 所有優點以外,還有自己的優點:

可用性:支持集群沒有單點障礙,

擴展性:支持集群擴展-高併發

在集群環境中使用:大項目使用

  • ElasticSearch全文檢索伺服器,所有項目都統一訪問索引伺服器,支持在集群環境中使用, Lucene全文檢索引擎工具包,必須集成到項目中使用,不支持在集群環境下使用。
  • ElasticSearch支持多種語言,Lucene只支持java
  • ElasticSearch簡單,都是http請求,而Lucene複雜,都需要調用API執行一大推操作。
  • 一般Lucene在中小型項目中使用,ElasticSearch都適用(大中小),因為ES支持在集群環 境中使用,並且自身也支持集群。
  • Luncene需要二次開發,才能使用。不能像百度或谷歌一樣,它只是提供一個介面需要被實現才能使用。 ElasticSearch直接拿來用。
  • 封裝了更多高級的功能,例如聚合分析的功能,基於地理位置的搜索
  • ES自動可以將海量數據分散到多台伺服器上去存儲和檢索

綜上所述:搜索引擎選擇用 ElasticSearch

五、SpringBoot整合ElasticSearch

SpringBoot 整合 Elasticsearch 常用的方式有以下三種:

  • Java API

這種方式基於TCP和ES通信,官方已經明確表示在ES 7.0版本中將棄用TransportClient客戶端,且在8.0版本中完全移除它,所以不提倡。

  • REST Client

上面的方式1是基於TCP和ES通信的(而且 TransPort 將來會被拋棄……),官方也給出了基於HTTP的客戶端REST Client(推薦使用),官方給出來的REST Client有Java Low Level REST Client和Java Hight Level REST Client兩個,前者相容所有版本的ES,後者是基於前者開發出來的,只暴露了部分API,待完善

  • Spring-Data-Elasticsearch(推薦)

除了上述方式,Spring 也提供了本身基於 SpringData 實現的一套方案Spring-Data-Elasticsearch。為什們推薦這種呢,因為這種方式 Spring 為我們封裝了常見的es操作。和使用 Jpa 操作資料庫一樣方便。

在ES中一個 Index 可以理解為一個庫,Type 就是一張表,一個Index可以對應多個Type,或者一個Index只能對應一個Type(從6.0.0 起就是一對一)。

六、Elasticsearch的安裝

從網上把 Elasticsearch 的安裝包下載下來之後,直接解壓,進入bin目錄下,雙擊執行Elasticsearch.bat,看到Started 說明啟動成功,打開瀏覽器測試一下,輸入http://localhost:9200/,則成功。

Elasticsearch-Head插件

Elasticsearch-Head將是一款專門針對於 Elasticsearch 的客戶端工具,類似 Mysql 的 Sqlyog 或者 Navicat資料庫軟體可視化界面。

運行head插件:grunt server

訪問:localhost:9100

七、ElasticSearch實現聯表查詢

SpringBoot整合ElasticSearch+父子查詢

相關鏈接:https://blog.csdn.net/a_lllk/article/details/83409880

父子關係的type和映射關係要提前建立好。

這裡講一下三種實現方式:

  • 嵌套查詢 Nested Query:文檔包含 nested 類型的欄位。這些欄位用來索引數組對象,其中每個對象作為獨立的文檔可以被檢索(使用 nested 查詢)。

  • 父子查詢Has_Child 和 Has_Parent :父子關係可以在一個單獨的索引中的兩個文檔類型間存在。has_child 查詢返回了父文檔,其子文檔匹配了特定的查詢。而 has_parent 查詢返回子文檔,其父文檔匹配了特定的查詢。(類似於主外鍵)要點:父子關係元數據映射,用於確保查詢時候的高性能,但是有一個限制,就是父子數據必須存在於一個shard中

  • 應用層聯接

八、Nested 和 Parent-Child的區別以及使用場景

嵌套查詢和父子查詢的主要區別

由於存儲結構的不同,Nested 和 Parent-Child 的方式有不同的應用場景,Nested 所有實體存儲在同一個文檔,而 Parent-Child 模式得子 Type 和 父Type 存儲在不同的文檔里。所以查詢效率上 Nested 要高於 Parent-Child,但是更新的時候 Nested 模式下,ElasticSearch 會刪除整個文檔再創建,而 Parent-Child 只會刪除你更新的文檔在重新創建,不影響其他文檔。所以更新效率上 Parent-Child 要高於 Nested。

嵌套查詢和父子查詢的具體的使用場景

Nested:在少量子文檔,並且不會經常改變的情況下使用。比如:訂單裡面的產品,一個訂單不可能會有成千上萬個不同的產品,一般不會很多,並且一旦下單後,下單的產品是不可更新的。

Parent-Child:在大量文檔,並且會經常發生改變的情況下使用。比如:用戶的瀏覽記錄,瀏覽記錄會很大,並且會頻繁更新

總結

以上就是我關於搜索引擎的相關總結,當然這篇文章只能算是對搜索引擎的一個入門,後面我還會出相關的文章的哦。


公眾號:良許Linux

有收穫?希望老鐵們來個三連擊,給更多的人看到這篇文章


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Linux內核記憶體管理的一項重要工作就是如何在頻繁申請釋放記憶體的情況下,避免碎片的產生。Linux採用伙伴系統解決外部碎片的問題,採用slab解決內部碎片的問題,在這裡我們先討論外部碎片問題。避免外部碎片的方法有兩種:一種是之前介紹過的利用非連續記憶體的分配;另外一種則是用一種有效的方法來監視記憶體,保 ...
  • Unix時間戳(Unix timestamp),或稱Unix時間(Unix time)、POSIX時間(POSIX time),是一種時間表示方式,定義為從格林威治時間1970年01月01日00時00分00秒起至現在的總秒數。 Unix時間戳不僅被使用在Unix 系統、類Unix系統中,也在許多其他 ...
  • SDRAM有一個同步介面,在響應控制輸入前會等待一個時鐘信號,這樣就能和電腦的系統匯流排同步。時鐘被用來驅動一個有限狀態機,對進入的指令進行管線(Pipeline)操作。這使得SDRAM與沒有同步介面的非同步DRAM相比,可以有一個更複雜的操作模式。下麵宇芯電子介紹關於靜態SDRAM和動態SDRAM的 ...
  • 原文鏈接:https://www.jianshu.com/p/b29f2762d202 ...
  • 背景 Read the fucking source code! --By 魯迅 A picture is worth a thousand words. --By 高爾基 說明: Kernel版本:4.14 ARM64處理器,Contex-A53,雙核 使用工具:Source Insight 3. ...
  • 使用win10 專業版 + frp + RDPwrap + 阿裡雲伺服器 的組合實現win10 多用戶同時遠程登錄內網機。使用frp 做內網穿透,將內網機的指定埠暴露在外網,通過ip+port 來實現遠程登陸。再使用rdpwrap 來破解win10 不能同時多用戶登陸的問題。 ...
  • 大概的簡述一下,及cpu讀取記憶體里的東西時,並不會直接去記憶體去讀取,這樣會導致讀取的數據很慢。cpu會到一級緩存讀取所需要的數據,而一級緩存則會去記憶體裡面讀取數據,讀取的方式是通過緩存行(cache line)的形式來進行讀取。當一級緩存內的數據需要置換時,則會將緩存內的數據置換到二級緩存內,然後依 ...
  • ls list(列表) 列表目錄文件 例子:ls / 列根/目錄下文件與內容 -l(long)長格式 ll是個別名alias ll='ls -l --color=auto' -a顯示所有文件和文件夾,(包含隱藏文件).預設點開頭的文件都是隱藏的。 -h 要與1一起用,顯示文件大小(k,M,G)單位 ...
一周排行
    -Advertisement-
    Play Games
  • C#TMS系統代碼-基礎頁面BaseCity學習 本人純新手,剛進公司跟領導報道,我說我是java全棧,他問我會不會C#,我說大學學過,他說這個TMS系統就給你來管了。外包已經把代碼給我了,這幾天先把增刪改查的代碼背一下,說不定後面就要趕鴨子上架了 Service頁面 //using => impo ...
  • 委托與事件 委托 委托的定義 委托是C#中的一種類型,用於存儲對方法的引用。它允許將方法作為參數傳遞給其他方法,實現回調、事件處理和動態調用等功能。通俗來講,就是委托包含方法的記憶體地址,方法匹配與委托相同的簽名,因此通過使用正確的參數類型來調用方法。 委托的特性 引用方法:委托允許存儲對方法的引用, ...
  • 前言 這幾天閑來沒事看看ABP vNext的文檔和源碼,關於關於依賴註入(屬性註入)這塊兒產生了興趣。 我們都知道。Volo.ABP 依賴註入容器使用了第三方組件Autofac實現的。有三種註入方式,構造函數註入和方法註入和屬性註入。 ABP的屬性註入原則參考如下: 這時候我就開始疑惑了,因為我知道 ...
  • C#TMS系統代碼-業務頁面ShippingNotice學習 學一個業務頁面,ok,領導開完會就被裁掉了,很突然啊,他收拾東西的時候我還以為他要旅游提前請假了,還在尋思為什麼回家連自己買的幾箱飲料都要叫跑腿帶走,怕被偷嗎?還好我在他開會之前拿了兩瓶芬達 感覺感覺前面的BaseCity差不太多,這邊的 ...
  • 概述:在C#中,通過`Expression`類、`AndAlso`和`OrElse`方法可組合兩個`Expression<Func<T, bool>>`,實現多條件動態查詢。通過創建表達式樹,可輕鬆構建複雜的查詢條件。 在C#中,可以使用AndAlso和OrElse方法組合兩個Expression< ...
  • 閑來無聊在我的Biwen.QuickApi中實現一下極簡的事件匯流排,其實代碼還是蠻簡單的,對於初學者可能有些幫助 就貼出來,有什麼不足的地方也歡迎板磚交流~ 首先定義一個事件約定的空介面 public interface IEvent{} 然後定義事件訂閱者介面 public interface I ...
  • 1. 案例 成某三甲醫預約系統, 該項目在2024年初進行上線測試,在正常運行了兩天後,業務系統報錯:The connection pool has been exhausted, either raise MaxPoolSize (currently 800) or Timeout (curren ...
  • 背景 我們有些工具在 Web 版中已經有了很好的實踐,而在 WPF 中重新開發也是一種費時費力的操作,那麼直接集成則是最省事省力的方法了。 思路解釋 為什麼要使用 WPF?莫問為什麼,老 C# 開發的堅持,另外因為 Windows 上已經裝了 Webview2/edge 整體打包比 electron ...
  • EDP是一套集組織架構,許可權框架【功能許可權,操作許可權,數據訪問許可權,WebApi許可權】,自動化日誌,動態Interface,WebApi管理等基礎功能於一體的,基於.net的企業應用開發框架。通過友好的編碼方式實現數據行、列許可權的管控。 ...
  • .Net8.0 Blazor Hybird 桌面端 (WPF/Winform) 實測可以完整運行在 win7sp1/win10/win11. 如果用其他工具打包,還可以運行在mac/linux下, 傳送門BlazorHybrid 發佈為無依賴包方式 安裝 WebView2Runtime 1.57 M ...