Elasticsearch 之聚合分析入門

来源:https://www.cnblogs.com/wupeixuan/archive/2020/03/22/12549336.html
-Advertisement-
Play Games

本文主要介紹 Elasticsearch 的聚合功能,介紹什麼是 Bucket 和 Metric 聚合,以及如何實現嵌套的聚合。 首先來看下聚合(Aggregation): 什麼是 Aggregation? 首先舉一個生活中的例子,這個是京東的搜索界面,在搜索框中輸入“華為”進行搜索,就會得到如上界 ...


本文主要介紹 Elasticsearch 的聚合功能,介紹什麼是 Bucket 和 Metric 聚合,以及如何實現嵌套的聚合。

首先來看下聚合(Aggregation):

什麼是 Aggregation?

首先舉一個生活中的例子,這個是京東的搜索界面,在搜索框中輸入“華為”進行搜索,就會得到如上界面,搜索框就是我們常用的搜索功能,而下麵這些,比如分類、熱點、操作系統、CPU 類型等是根據 ES 的聚合分析獲得的相關結果。

看完上面這個例子,下麵來看下聚合的定義:

ES 除了搜索以外,還提供針對 ES 數據進行統計分析的功能,也就是聚合,它的特點是實時性非常高,所有的計算結果都是即時返回的,而 Hadoop 等大數據系統得到一個統計結果需要一天的時間,一般都是 T + 1 級別的。

通過聚合,我們會得到一個數據的概覽,是分析和總結全套的數據,而不是尋找單個文檔,比如海澱區和東城區的客房數量,不同價格區間,可預訂的經濟型酒店和商務型酒店的數量,這樣可以幫助我們過濾搜索的結果,這樣的優點是性能高,只需要一條語句,就可以從 ES 得到分析結果,無需再客戶端自己去實現分析邏輯。

在 ES 的聚合中主要一共分為四大類:

  • Bucket Aggregation:分桶類型,一些列滿足特定條件的文檔的集合
  • Metric Aggregation:指標分析類型,一些數學運算,可以對文檔欄位進行統計分析,比如計算最大值、最小值、平均值等
  • Pipeline Aggregation:管道分析類型,對其他聚合結果進行二次聚合
  • Matrix Aggregation:矩陣分析類型,支持對多個欄位的操作並提供一個結果矩陣

在以後的文章會對這些做詳細的講解,本文先來瞭解下什麼是 Bucket 和 Metric:

Bucket 簡單來說相當於 SQL 中的 GROUP,可以根據條件,把結果分成一個一個的組,那 Metric 相當於 SQL 中的 COUNT,可以去執行一系列的統計方法。

接下來看什麼是 Bucket Aggregation:

Bucket Aggregation

Bucket 就是桶的意思,即按照一定的規則將文檔分配到不同的桶中,達到分類分析的目的。如上圖所示,左邊有一堆文檔,右邊有三個桶,每個桶有不同的規則,比如第一個桶的規則為價格小於 3000 的,第二個桶為價格大於等於 3000 小於 6000 的,最後一個桶的規則為價格大於 6000 的,然後不同的文檔根據不同的價格分到不同的桶中,那麼我們就實現了分類。

有了 Bucket 聚合分析機制,我們就可以把公司員工以年齡方式進行區分,以地理位置的方式來區分客戶,以男性女性來區分演員等。

根據 Bucket 的分桶策略,常見的 Bucket 聚合分析如下:

  • Terms:直接按照 term 來分桶,如果是 text 類型,則按照分詞後的結果分桶
  • Range:指定數值的範圍來設定分桶規則
  • Date Range:指定日期的範圍來設定分桶規則
  • Histogram:直方圖,以固定間隔的策略來分割數據
  • Date Histogram:針對日期的直方圖或者柱狀圖,是時序數據分析中常用的聚合分析類型

下麵以 Terms 為例,讓我們動手實踐下:

Bucket 聚合分析-Terms

這是一個查看航班目的地的統計信息的例子,通過指定關鍵詞為 terms,然後指明 term 欄位 fieldDestCountry,下麵我們請求下,查看下請求結果:

response

從結果中可以看到文檔根據目的地分成了不同的桶,每個桶還包括 doc_count,這樣就可以很輕鬆知道 ES 存儲的航班信息中,去往義大利、美國、中國等國家分別有多少架航班。

在簡單瞭解了 Bucket 聚合分析後,讓我們來看下 Metric 聚合分析:

Metric Aggregation

Metric 是基於數據集計算的結果,除了支持在欄位上進行計算,同樣也支持在腳本產生的結果之上進行計算。Metric 主要分為單值分析和多值分析,具體內容如下:

單值分析,只輸出一個分析結果:

  • Min、Max、Avg、Sum
  • Cardinality

其中,Min、Max、Avg、Sum 這些很容易理解,在這裡說一下 Cardinality,它是指不同數值的個數,相當於 SQL 中的 distinct。

多值分析,輸出多個分析結果:

  • Stats、Extended Stats
  • Percentiles、Percentile Ranks
  • Top Hits

其中,Stats 是做多樣的數據分析,可以一次性得到最大值、最小值、平均值、中值等數據;Extended Stats 是對 Stats 的擴展,包含了更多的統計數據,比如方差、標準差等;PercentilesPercentile Ranks 是百分位數的一個統計;Top Hits 一般用於分桶後獲取桶內最匹配的頂部文檔列表,即詳情數據。

瞭解之後,讓我們實操起來,緊接著剛纔查看航班目的地的統計信息的例子,如果還想知道機票的均價,最高最低價格,該怎麼做呢?這就需要用到 Metric 了:

Metric 聚合分析

我們在請求中加入 aggs,其中 avg_price 為自己定義的名字,這個是為了方便在以後理解這個欄位返回值的含義,然後分別關鍵詞分別選擇 avg、max、min 來完成計算目的地不同的航班的機票均價、最高最低價格,這個請求的執行結果如下所示:

response

從結果中可以看出,飛往義大利的航班一共有 2371 架,其中機票最高價格為 1195 元,最低價格為 100 元,平均價格為 586 元,很快就可以得到統計的一些結果。

另外,聚合分析還支持嵌套,那麼讓我們看下如果實現一個嵌套聚合分析:

嵌套聚合分析

通過這個請求不但可以獲取到航班目的地的統計信息,還可以得到航班抵達時的天氣狀況,運行結果如下所示:

response

可以看出,在抵達義大利的航班中,抵達時的天氣有 424 次為晴天,417 次為下雨天等,所以通過嵌套的方式就可以很快得到更深層次的數據統計值。

總結

本文對 Elasticsearch 的聚合功能做了初步介紹,也學習 Bucket 和 Metric 聚合分析,在後續文章會對聚合功能做一個更加深入的講解。

下麵是我總結的 Elasticsearch 聚合分析的思維導圖,在公眾號【武培軒】回覆【es】獲取思維導圖以及源代碼。

Elasticsearch 聚合分析

參考文獻

Elastic Stack從入門到實踐

Elasticsearch核心技術與實戰

https://www.elastic.co/guide/en/elasticsearch/reference/7.1/search-aggregations.html


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一 Kubernetes網路實現 1.1 Kubernetes網路優勢 在實際的業務場景中,業務組件之間的關係十分複雜,微服務的理念更是讓應用部署的粒度更加細小和靈活。為了支持業務應用組件的通信,Kubernetes網路的設計主要致力於解決以下問題。 容器到容器之間的直接通信。 抽象的Pod到Pod ...
  • 一 Docker網路 1.1 Docker網路類型 標準的Docker支持以下4類網路模式: host模式:使用--net=host指定。 container模式:使用--net=container:NAME_or_ID指定。 none模式:使用--net=none指定。 bridge模式:使用-- ...
  • 工作中我們會遇到安裝軟體需要知道linux是什麼發行版本,話不多話上乾貨(按照我認為常用排序) 1. lsb_release a 名詞解釋:LSB (Linux Standard Base) 2. cat /etc/issue 3. cat /proc/version 4. uname a 查看版本 ...
  • Nginx 介紹 Nginx 是一個高性能的 Web 伺服器,從 2001 年發展至今,由於 Nginx 對硬體和操作系統內核特性的深度挖掘,使得在保持高併發的同時還能夠保持高吞吐量。Nginx 還採用了模塊設計,有大量的第三方模塊可以擴展 Nginx 的功能,因此 Nginx 的場景非常豐富,同時 ...
  • 記下來!以後別忘了 我把自己的小筆記本重裝了下系統 一、linux裝機 centos8 1、U盤啟動 2、進入安裝引導頁 3、按下鍵盤TAB鍵將最下麵的vmlinuz initrd=initrd.img inst.stage2=hd:LABEL=CentOS\x207\x20x86_64 rd.li ...
  • arm裸機,linux開發,編譯器,編譯環境答疑解惑 前言: 最近一直在跟著正點原子的i.mx6ull視頻學習,打算研究一下嵌入式linux的開發,主要是道聽途說單片機開發未來薪資不高,想著反正單片機學的也就半吊子,何不趁此時各大廠商(某點,某火,某山)紛紛推出免費視頻,開始進行價格戰的時候,從中漁 ...
  • 一 Kubernetes網路模型概述 1.1 Kubernetes網路模型 Kubernetes網路模型設計的一個基礎原則是:每個Pod都擁有一個獨立的IP地址,並假定所有Pod都在一個可以直接連通的、扁平的網路空間中。所以不管它們是否運行在同一個Node(宿主機)中,都要求它們可以直接通過對方的I ...
  • 最近在對sql進行性能優化因此對explain相關的知識進行一個簡單的整理歸納。 EXPLAIN: 為SELECT語句中使用到的每個表返回一條 SELECT 執行的詳細信息;按照MySQL在處理語句時讀取它們的順序列出這些表。 命令輸出格式 id = 1 select_type = SIMPLE t ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...