ElasticSearch7.6入門

来源:https://www.cnblogs.com/JayZzzWh/archive/2022/08/22/16612815.html
-Advertisement-
Play Games

筆記記錄 B站狂神說Java的ElasticSearch課程:https://www.bilibili.com/video/BV17a4y1x7zq 一、ElasticSearch概述 官網:https://www.elastic.co/cn/downloads/elasticsearch Elat ...


筆記記錄 B站狂神說Java的ElasticSearch課程:https://www.bilibili.com/video/BV17a4y1x7zq

一、ElasticSearch概述

官網:https://www.elastic.co/cn/downloads/elasticsearch

Elaticsearch,簡稱為es,es是一個開源的高擴展分散式全文檢索引擎,它可以近乎實時的存儲檢索數據;本身擴展性很好,可以擴展到上百台伺服器,處理PB級別(大數據時代)的數據。es也使用java開發並使用Lucene作為其核心來實現所有索引和搜索的功能,但是它的目的通過簡單的RESTful API來隱藏Lucene的複雜性,從而讓全文搜索變得簡單

據國際權威的資料庫產品評測機構DB Engines的統計,在2016年1月,ElasticSearch已超過Solr等,成為排名第一的搜索引擎類應用

誰在使用:

1、維基百科,類似百度百科,全文檢索,高亮,搜索推薦/2
2、The Guardian (國外新聞網站) ,類似搜狐新聞,用戶行為日誌(點擊,瀏覽,收藏,評論) +社交網路數據(對某某新聞的相關看法) ,數據分析,給到每篇新聞文章的作者,讓他知道他的文章的公眾反饋(好,壞,熱門,垃圾,鄙視,崇拜)
3、Stack Overflow (國外的程式異常討論論壇) , IT問題,程式的報錯,提交上去,有人會跟你討論和回答,全文檢索,搜索相關問題和答案,程式報錯了,就會將報錯信息粘貼到裡面去,搜索有沒有對應的答案
4、GitHub (開源代碼管理),搜索 上千億行代碼
5、電商網站,檢索商品
6、日誌數據分析, logstash採集日誌, ES進行複雜的數據分析, ELK技術, elasticsearch+logstash+kibana
7、商品價格監控網站,用戶設定某商品的價格閾值,當低於該閾值的時候,發送通知消息給用戶,比如說訂閱牙膏的監控,如果高露潔牙膏的家庭套裝低於50塊錢,就通知我,我就去買
8、BI系統,商業智能, Business Intelligence。比如說有個大型商場集團,BI ,分析一下某某區域最近3年的用戶消費 金額的趨勢以及用戶群體的組成構成,產出相關的數張報表, **區,最近3年,每年消費金額呈現100%的增長,而且用戶群體85%是高級白領,開-個新商場。ES執行數據分析和挖掘, Kibana進行數據可視化
9、國內:站內搜索(電商,招聘,門戶,等等),IT系統搜索(OA,CRM,ERP,等等),數據分析(ES熱門
的一一個使用場景)

ES和Solr

ElasticSearch簡介

  • Elasticsearch是一個實時分散式搜索和分析引擎。 它讓你以前所未有的速度處理大數據成為可能。
  • 它用於全文搜索、結構化搜索、分析以及將這三者混合使用:
  • 維基百科使用Elasticsearch提供全文搜索高亮關鍵字,以及輸入實時搜索(search-asyou-type)和搜索糾錯(did-you-mean)等搜索建議功能。
  • 英國衛報使用Elasticsearch結合用戶日誌和社交網路數據提供給他們的編輯以實時的反饋,以便及時瞭解公眾對新發表的文章的回應。
  • StackOverflow結合全文搜索與地理位置查詢,以及more-like-this功能來找到相關的問題和答案。
  • Github使用Elasticsearch檢索1300億行的代碼。
  • 但是Elasticsearch不僅用於大型企業,它還讓像DataDog以及Klout這樣的創業公司將最初的想法變成可擴展的解決方案。
  • Elasticsearch可以在你的筆記本上運行,也可以在數以百計的伺服器上處理PB級別的數據。
  • Elasticsearch是一個基於Apache Lucene(TM)的開源搜索引擎。無論在開源還是專有領域, Lucene可被認為是迄今為止最先進、性能最好的、功能最全的搜索引擎庫。
    • 但是, Lucene只是一個庫。 想要使用它,你必須使用Java來作為開發語言並將其直接集成到你的應用中,更糟糕的是, Lucene非常複雜,你需要深入瞭解檢索的相關知識來理解它是如何工作的。
  • Elasticsearch也使用Java開發並使用Lucene作為其核心來實現所有索引和搜索的功能,但是它的目的通過簡單的RESTful API來隱藏Lucene的複雜性,從而讓全文搜索變得簡單。

Solr簡介

  • Solr是Apache下的一個頂級開源項目,採用Java開發,它是基於Lucene的全文搜索伺服器。Solr提供了比Lucene更為豐富的查詢語言,同時實現了可配置可擴展,並對索引、搜索性能進行了優化
  • Solr可以獨立運行,運行在letty. Tomcat等這些Selrvlet容器中 , Solr 索引的實現方法很簡單,用POST方法向Solr伺服器發送一個描述Field及其內容的XML文檔, Solr根據xml文檔添加、刪除、更新索引。Solr 搜索只需要發送HTTP GET請求,然後對Solr返回xml、json等格式的查詢結果進行解析,組織頁面佈局。
  • Solr不提供構建UI的功能, Solr提供了一個管理界面,通過管理界面可以查詢Solr的配置和運行情況。
  • Solr是基於lucene開發企業級搜索伺服器,實際上就是封裝了lucene.
  • Solr是一個獨立的企業級搜索應用伺服器,它對外提供類似於Web-service的API介面。用戶可以通過http請求,向搜索引擎伺服器提交-定格式的文件,生成索引;也可以通過提出查找請求,並得到返回結果。

ElasticSearch與Solr比較

當單純的對已有數據進行搜索時,Solr更快

當實時建立索引時,Solr會產生io阻塞,查詢性能較差,ElasticSearch具有明顯的優勢

隨著數據量的增加,Solr的搜索效率會變得更低,而ElasticSearch卻沒有明顯的變化

轉變我們的搜索基礎設施後從Solr ElasticSearch,我們看見一個即時~ 50x提高搜索性能!

總結

1、es基本是開箱即用(解壓就可以用!) ,非常簡單。Solr安裝略微複雜一丟丟!
2、Solr 利用Zookeeper進行分散式管理,而Elasticsearch自身帶有分散式協調管理功能
3、Solr 支持更多格式的數據,比如JSON、XML、 CSV ,而Elasticsearch僅支持json文件格式
4、Solr 官方提供的功能更多,而Elasticsearch本身更註重於核心功能,高級功能多有第三方插件提供,例如圖形化界面需要kibana友好支撐
5、Solr 查詢快,但更新索引時慢(即插入刪除慢) ,用於電商等查詢多的應用;

  • ES建立索引快(即查詢慢) ,即實時性查詢快,用於facebook新浪等搜索。
  • Solr是傳統搜索應用的有力解決方案,但Elasticsearch更適用於新興的實時搜索應用。

6、Solr比較成熟,有一個更大,更成熟的用戶、開發和貢獻者社區,而Elasticsearch相對開發維護者較少,更新太快,學習使用成本較高。

二、ElasticSearch安裝

JDK8,最低要求

使用Java開發,必須保證ElasticSearch的版本與Java的核心jar包版本對應!(Java環境保證沒錯)

這裡在windows上進行安裝

Windows下安裝

ElasticSearch安裝

下載地址:https://www.elastic.co/cn/downloads/

歷史版本下載:https://www.elastic.co/cn/downloads/past-releases/

解壓即可(儘量將ElasticSearch相關工具放在統一目錄下)

bin 啟動文件目錄
config 配置文件目錄
    1og4j2 日誌配置文件
    jvm.options java 虛擬機相關的配置(預設啟動占1g記憶體,內容不夠需要自己調整)
    elasticsearch.ym1 elasticsearch 的配置文件! 預設9200埠!跨域!
1ib 
    相關jar包
modules 功能模塊目錄
plugins 插件目錄
    ik分詞器
啟動ElasticSearch

一定要檢查自己的java環境是否配置好



安裝可視化界面

elasticsearch-head

使用前提:需要安裝nodejs

elasticsearch-head下載地址

https://github.com/mobz/elasticsearch-head

2、安裝

解壓即可(儘量將ElasticSearch相關工具放在統一目錄下)

3、啟動elasticsearch-head
cd elasticsearch-head# 安裝依賴npm install# 啟動npm run start# 訪問http://localhost:9100/

安裝依賴

運行

訪問

存在跨域問題(只有當兩個頁面同源,才能交互)

同源(埠,主機,協議三者都相同)

https://blog.csdn.net/qq_38128179/article/details/84956552

開啟跨域(在elasticsearch解壓目錄config下elasticsearch.yml中添加)

# 開啟跨域
http.cors.enabled: true
# 所有人訪問
http.cors.allow-origin: "*"

重啟elasticsearch

再次連接

如何理解上圖:

  • 如果你是初學者

    • 索引 可以看做 “資料庫”
    • 類型 可以看做 “表”
    • 文檔 可以看做 “庫中的數據(表中的行)”
  • 這個head,我們只是把它

    當做可視化數據展示工具

    ,之後

    所有的查詢都在kibana中進行

    • 因為不支持json格式化,不方便

安裝kibana

Kibana是一個針對ElasticSearch的開源分析及可視化平臺,用來搜索、查看交互存儲在Elasticsearch索引中的數據。使用Kibana ,可以通過各種圖表進行高級數據分析及展示。Kibana讓海量數據更容易理解。它操作簡單,基於瀏覽器的用戶界面可以快速創建儀錶板( dashboard )實時顯示Elasticsearch查詢動態。設置Kibana非常簡單。無需編碼或者額外的基礎架構,幾分鐘內就可以完成Kibana安裝並啟動Elasticsearch索引監測。

kibana下載地址:

下載的版本需要與ElasticSearch版本對應

https://www.elastic.co/cn/downloads/

歷史版本下載:https://www.elastic.co/cn/downloads/past-releases/

2、安裝

解壓即可(儘量將ElasticSearch相關工具放在統一目錄下)

3、啟動

訪問

localhost:5601

4、開發工具

(Postman、curl、head、谷歌瀏覽器插件)

可以使用 Kibana進行測試

如果說,你在英文方面不太擅長,kibana是支持漢化的

5、kibana漢化

編輯器打開kibana解壓目錄/config/kibana.yml,添加

i18n.locale: "zh-CN"

重啟kibana

漢化成功

瞭解ELK

  • ELK是

    Elasticsearch、Logstash、 Kibana三大開源框架首字母大寫簡稱

    。市面上也被成為Elastic Stack。

    • 其中Elasticsearch是一個基於Lucene、分散式、通過Restful方式進行交互的近實時搜索平臺框架。
      • 像類似百度、谷歌這種大數據全文搜索引擎的場景都可以使用Elasticsearch作為底層支持框架,可見Elasticsearch提供的搜索能力確實強大,市面上很多時候我們簡稱Elasticsearch為es。
    • Logstash是ELK的中央數據流引擎,用於從不同目標(文件/數據存儲/MQ )收集的不同格式數據,經過過濾後支持輸出到不同目的地(文件/MQ/redis/elasticsearch/kafka等)。
    • Kibana可以將elasticsearch的數據通過友好的頁面展示出來 ,提供實時分析的功能。
  • 市面上很多開發只要提到ELK能夠一致說出它是一個日誌分析架構技術棧總稱 ,但實際上ELK不僅僅適用於日誌分析,它還可以支持其它任何數據分析和收集的場景,日誌分析和收集只是更具有代表性。並非唯一性。

收集清洗數據(Logstash) ==> 搜索、存儲(ElasticSearch) ==> 展示(Kibana)

三、ElasticSearch核心概念

概述

1、索引(ElasticSearch)

  • 包多個分片

2、欄位類型(映射)

  • 欄位類型映射(欄位是整型,還是字元型…)

3、文檔

4、分片(Lucene索引,倒排索引)

ElasticSearch是面向文檔,關係行資料庫和ElasticSearch客觀對比!一切都是JSON!

Relational DB ElasticSearch
資料庫(database) 索引(indices)
表(tables) types <慢慢會被棄用!>
行(rows) documents
欄位(columns) fields

elasticsearch(集群)中可以包含多個索引(資料庫) ,每個索引中可以包含多個類型(表) ,每個類型下又包含多個文檔(行) ,每個文檔中又包含多個欄位(列)

物理設計:

elasticsearch在後臺把每個索引劃分成多個分片,每分分片可以在集群中的不同伺服器間遷移

一個人就是一個集群! ,即啟動的ElasticSearch服務,預設就是一個集群,且預設集群名為elasticsearch

邏輯設計:

一個索引類型中,包含多個文檔,比如說文檔1,文檔2。當我們索引一篇文檔時,可以通過這樣的順序找到它:索引 => 類型 => 文檔ID ,通過這個組合我們就能索引到某個具體的文檔。 註意:ID不必是整數,實際上它是個字元串。

文檔(”行“)

之前說elasticsearch是面向文檔的,那麼就意味著索引和搜索數據的最小單位是文檔,elasticsearch中,文檔有幾個重要屬性:

  • 自我包含,一篇文檔同時包含欄位和對應的值,也就是同時包含key:value !
  • 可以是層次型的,一個文檔中包含自文檔,複雜的邏輯實體就是這麼來的! {就是一個json對象 ! fastjson進行自動轉換 !}
  • 靈活的結構,文檔不依賴預先定義的模式,我們知道關係型資料庫中,要提前定義欄位才能使用,在elasticsearch中,對於欄位是非常靈活的,有時候,我們可以忽略該欄位,或者動態的添加一個新的欄位。

儘管我們可以隨意的新增或者忽略某個欄位,但是,每個欄位的類型非常重要,比如一個年齡欄位類型,可以是字元串也可以是整形。因為elasticsearch會保存欄位和類型之間的映射及其他的設置。這種映射具體到每個映射的每種類型,這也是為什麼在elasticsearch中,類型有時候也稱為映射類型。

類型(“表”)

類型是文檔的邏輯容器,就像關係型資料庫一樣,表格是行的容器。類型中對於欄位的定義稱為映射,比如name映射為字元串類型。我們說文檔是無模式的,它們不需要擁有映射中所定義的所有欄位,比如新增一個欄位,那麼elasticsearch是怎麼做的呢?

  • elasticsearch會自動的將新欄位加入映射,但是這個欄位的不確定它是什麼類型,elasticsearch就開始猜,如果這個值是18,那麼elasticsearch會認為它是整形。但是elasticsearch也可能猜不對,所以最安全的方式就是提前定義好所需要的映射,這點跟關係型資料庫殊途同歸了,先定義好欄位,然後再使用,別整什麼么蛾子。

索引(“庫”)

索引是映射類型的容器, elasticsearch中的索引是一個非常大的文檔集合。 索引存儲了映射類型的欄位和其他設置。然後它們被存儲到了各個分片上了。我們來研究下分片是如何工作的。

物理設計:節點和分片 如何工作

創建新索引

一個集群至少有一個節點,而一個節點就是一個elasricsearch進程,節點可以有多個索引預設的,如果你創建索引,那麼索引將會有個5個分片(primary shard ,又稱主分片)構成的,每一個主分片會有一個副本(replica shard,又稱複製分片)

上圖是一個有3個節點的集群,可以看到主分片和對應的複製分片都不會在同一個節點內,這樣有利於某個節點掛掉了,數據也不至於失。實際上,一個分片是一個Lucene索引(一個ElasticSearch索引包含多個Lucene索引一個包含倒排索引的文件目錄,倒排索引的結構使得elasticsearch在不掃描全部文檔的情況下,就能告訴你哪些文檔包含特定的關鍵字。不過,等等,倒排索引是什麼鬼?

倒排索引(Lucene索引底層)

簡單說就是 按(文章關鍵字,對應的文檔<0個或多個>)形式建立索引,根據關鍵字就可直接查詢對應的文檔(含關鍵字的),無需查詢每一個文檔,如下圖

四、IK分詞器(elasticsearch插件)

IK分詞器:中文分詞器

分詞:即把一段中文或者別的劃分成一個個的關鍵字,我們在搜索時候會把自己的信息進行分詞,會把資料庫中或者索引庫中的數據進行分詞,然後進行一一個匹配操作,預設的中文分詞是將每個字看成一個詞不使用用IK分詞器的情況下),比如“我愛狂神”會被分為”我”,”愛”,”狂”,”神” ,這顯然是不符合要求的,所以我們需要安裝中文分詞器ik來解決這個問題。

IK提供了兩個分詞演算法: ik_smartik_max_word ,其中ik_smart最少切分, ik_max_word最細粒度劃分!

1、下載

版本要與ElasticSearch版本對應

下載地址:https://github.com/medcl/elasticsearch-analysis-ik/releases

2、安裝

ik文件夾是自己創建的

加壓即可(但是我們需要解壓到ElasticSearch的plugins目錄ik文件夾下)

3、重啟ElasticSearch

載入了IK分詞器

4、使用 ElasticSearch安裝補錄/bin/elasticsearch-plugin 可以查看插件

E:\ElasticSearch\elasticsearch-7.6.1\bin>elasticsearch-plugin list

5、使用kibana測試

ik_smart:最少切分

ik_max_word:最細粒度劃分(窮盡詞庫的可能)

從上面看,感覺分詞都比較正常,但是大多數,分詞都滿足不了我們的想法,如下例

那麼,我們需要手動將該詞添加到分詞器的詞典當中

6、添加自定義的詞添加到擴展字典中

elasticsearch目錄/plugins/ik/config/IKAnalyzer.cfg.xml

打開 IKAnalyzer.cfg.xml 文件,擴展字典

創建字典文件,添加字典內容

重啟ElasticSearch,再次使用kibana測試


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Python小游戲——外星人入侵(保姆級教程) 第一章:武裝飛船 06:讓飛船移動 下麵來讓玩家能夠左右移動飛船。我們將編寫代碼,在用戶按左或右箭頭鍵時做出響應。我們將首先專註於向右移動,再使用同樣的原理來控制向左移動。通過這樣做,你將學會如何控制屏幕圖像的移動。 ...
  • 哈嘍,大家好,今天咱們試試只用20行代碼來實現批量獲取網抑雲文件保存本地,炒雞簡單! 悄悄的告訴你,其實不到20行代碼~ 你需要準備 本次使用的環境是Python3.8,編輯器是pycharm 模塊使用的是requests、re、os 三個,其中requests是第三方模塊,需要手動安裝一下,re、 ...
  • 鋼鐵知識庫,一個學習python爬蟲、數據分析的知識庫。人生苦短,快用python。 上一章我們講解針對結構化的html、xml數據,使用Xpath實現網頁內容爬取。本章我們再來聊另一個高效的神器:Beautiful Soup4。相比於傳統正則表達方式去解析網頁源代碼,這個就簡單得多,實踐是檢驗真理 ...
  • “談談常用的分散式ID設計方案”! 一個工作了7年的同學,被問到了這樣一個問題。 問題並不難,但是在實際面試的時候,如果只是回答1,2,3 很難通過面試,因為作為一個高級程式員,還需要有自己的理解和思考。 大家好,我是Mic,一個工作了14年的Java程式員。 這個問題的高手回答,我整理到了15W字 ...
  • 二、流程式控制制 1、用戶交互Scanner java.util.Scanner是Java5的新特性,我們可以通過Scanner類來獲取用戶輸入。 基本語法: Scanner s = new Scanner(System.in); 通過Scanner類的net()與nextLine()方法獲取輸入的字元 ...
  • 1、insert 標簽 1.1 獲取SqlSessionFactory 對象的通用方法 方便後面分測試; //獲取SqlSessionFactory 對象的通用方法 public SqlSessionFactory getSqlSessionFactory() throws IOException ...
  • Base 64 不屬於密碼技術,僅是編碼方式。但由於在 Java、JavaScript、區塊鏈等出現的頻率較高,故在本系列文章中首先分享 Base 64 編碼技術。前面部分主要介紹 Base 64 理論性的內容,如果只看在 Java(SpringBoot)或 JS(Vue)中的實現,可以直接跳到最後... ...
  • Docker安裝 卸載舊版本 較舊的 Docker 版本稱為 docker 或 docker-engine 。如果已安裝這些程式,請卸載它們以及相關的依賴項。 yum remove docker \ docker-client \ docker-client-latest \ docker-comm ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...