Elasticsearch 之聚合分析入門

-Advertisement-

本文主要介紹 Elasticsearch 的聚合功能，介紹什麼是 Bucket 和 Metric 聚合，以及如何實現嵌套的聚合。首先來看下聚合（Aggregation）：什麼是 Aggregation？首先舉一個生活中的例子，這個是京東的搜索界面，在搜索框中輸入“華為”進行搜索，就會得到如上界 ...

本文主要介紹 Elasticsearch 的聚合功能，介紹什麼是 Bucket 和 Metric 聚合，以及如何實現嵌套的聚合。

首先來看下聚合（Aggregation）：

什麼是 Aggregation？

首先舉一個生活中的例子，這個是京東的搜索界面，在搜索框中輸入“華為”進行搜索，就會得到如上界面，搜索框就是我們常用的搜索功能，而下麵這些，比如分類、熱點、操作系統、CPU 類型等是根據 ES 的聚合分析獲得的相關結果。

看完上面這個例子，下麵來看下聚合的定義：

ES 除了搜索以外，還提供針對 ES 數據進行統計分析的功能，也就是聚合，它的特點是實時性非常高，所有的計算結果都是即時返回的，而 Hadoop 等大數據系統得到一個統計結果需要一天的時間，一般都是 T + 1 級別的。

通過聚合，我們會得到一個數據的概覽，是分析和總結全套的數據，而不是尋找單個文檔，比如海澱區和東城區的客房數量，不同價格區間，可預訂的經濟型酒店和商務型酒店的數量，這樣可以幫助我們過濾搜索的結果，這樣的優點是性能高，只需要一條語句，就可以從 ES 得到分析結果，無需再客戶端自己去實現分析邏輯。

在 ES 的聚合中主要一共分為四大類：

Bucket Aggregation：分桶類型，一些列滿足特定條件的文檔的集合
Metric Aggregation：指標分析類型，一些數學運算，可以對文檔欄位進行統計分析，比如計算最大值、最小值、平均值等
Pipeline Aggregation：管道分析類型，對其他聚合結果進行二次聚合
Matrix Aggregation：矩陣分析類型，支持對多個欄位的操作並提供一個結果矩陣

在以後的文章會對這些做詳細的講解，本文先來瞭解下什麼是 Bucket 和 Metric：

Bucket 簡單來說相當於 SQL 中的 GROUP，可以根據條件，把結果分成一個一個的組，那 Metric 相當於 SQL 中的 COUNT，可以去執行一系列的統計方法。

接下來看什麼是 Bucket Aggregation：

Bucket Aggregation

Bucket 就是桶的意思，即按照一定的規則將文檔分配到不同的桶中，達到分類分析的目的。如上圖所示，左邊有一堆文檔，右邊有三個桶，每個桶有不同的規則，比如第一個桶的規則為價格小於 3000 的，第二個桶為價格大於等於 3000 小於 6000 的，最後一個桶的規則為價格大於 6000 的，然後不同的文檔根據不同的價格分到不同的桶中，那麼我們就實現了分類。

有了 Bucket 聚合分析機制，我們就可以把公司員工以年齡方式進行區分，以地理位置的方式來區分客戶，以男性女性來區分演員等。

根據 Bucket 的分桶策略，常見的 Bucket 聚合分析如下：

Terms：直接按照 term 來分桶，如果是 text 類型，則按照分詞後的結果分桶
Range：指定數值的範圍來設定分桶規則
Date Range：指定日期的範圍來設定分桶規則
Histogram：直方圖，以固定間隔的策略來分割數據
Date Histogram：針對日期的直方圖或者柱狀圖，是時序數據分析中常用的聚合分析類型

下麵以 Terms 為例，讓我們動手實踐下：

Bucket 聚合分析-Terms

這是一個查看航班目的地的統計信息的例子，通過指定關鍵詞為 terms，然後指明 term 欄位 field 為 DestCountry，下麵我們請求下，查看下請求結果：

response

從結果中可以看到文檔根據目的地分成了不同的桶，每個桶還包括 doc_count，這樣就可以很輕鬆知道 ES 存儲的航班信息中，去往義大利、美國、中國等國家分別有多少架航班。

在簡單瞭解了 Bucket 聚合分析後，讓我們來看下 Metric 聚合分析：

Metric Aggregation

Metric 是基於數據集計算的結果，除了支持在欄位上進行計算，同樣也支持在腳本產生的結果之上進行計算。Metric 主要分為單值分析和多值分析，具體內容如下：

單值分析，只輸出一個分析結果：

Min、Max、Avg、Sum
Cardinality

其中，Min、Max、Avg、Sum 這些很容易理解，在這裡說一下 Cardinality，它是指不同數值的個數，相當於 SQL 中的 distinct。

多值分析，輸出多個分析結果：

Stats、Extended Stats
Percentiles、Percentile Ranks
Top Hits

其中，Stats 是做多樣的數據分析，可以一次性得到最大值、最小值、平均值、中值等數據；Extended Stats 是對 Stats 的擴展，包含了更多的統計數據，比如方差、標準差等；Percentiles 和 Percentile Ranks 是百分位數的一個統計；Top Hits 一般用於分桶後獲取桶內最匹配的頂部文檔列表，即詳情數據。

瞭解之後，讓我們實操起來，緊接著剛纔查看航班目的地的統計信息的例子，如果還想知道機票的均價，最高最低價格，該怎麼做呢？這就需要用到 Metric 了：

Metric 聚合分析

我們在請求中加入 aggs，其中 avg_price 為自己定義的名字，這個是為了方便在以後理解這個欄位返回值的含義，然後分別關鍵詞分別選擇 avg、max、min 來完成計算目的地不同的航班的機票均價、最高最低價格，這個請求的執行結果如下所示：

response

從結果中可以看出，飛往義大利的航班一共有 2371 架，其中機票最高價格為 1195 元，最低價格為 100 元，平均價格為 586 元，很快就可以得到統計的一些結果。

另外，聚合分析還支持嵌套，那麼讓我們看下如果實現一個嵌套聚合分析：

嵌套聚合分析

通過這個請求不但可以獲取到航班目的地的統計信息，還可以得到航班抵達時的天氣狀況，運行結果如下所示：

response

可以看出，在抵達義大利的航班中，抵達時的天氣有 424 次為晴天，417 次為下雨天等，所以通過嵌套的方式就可以很快得到更深層次的數據統計值。

總結

本文對 Elasticsearch 的聚合功能做了初步介紹，也學習 Bucket 和 Metric 聚合分析，在後續文章會對聚合功能做一個更加深入的講解。

下麵是我總結的 Elasticsearch 聚合分析的思維導圖，在公眾號【武培軒】回覆【es】獲取思維導圖以及源代碼。

Elasticsearch 聚合分析

參考文獻

Elastic Stack從入門到實踐

Elasticsearch核心技術與實戰

https://www.elastic.co/guide/en/elasticsearch/reference/7.1/search-aggregations.html

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

038.集群網路-K8S網路實現

一 Kubernetes網路實現 1.1 Kubernetes網路優勢在實際的業務場景中，業務組件之間的關係十分複雜，微服務的理念更是讓應用部署的粒度更加細小和靈活。為了支持業務應用組件的通信，Kubernetes網路的設計主要致力於解決以下問題。容器到容器之間的直接通信。抽象的Pod到Pod ...
037.集群網路-Docker網路實現

一 Docker網路 1.1 Docker網路類型標準的Docker支持以下4類網路模式： host模式：使用--net=host指定。 container模式：使用--net=container:NAME_or_ID指定。 none模式：使用--net=none指定。 bridge模式：使用-- ...
linux下查看系統版本

工作中我們會遇到安裝軟體需要知道linux是什麼發行版本，話不多話上乾貨（按照我認為常用排序） 1. lsb_release a 名詞解釋：LSB (Linux Standard Base) 2. cat /etc/issue 3. cat /proc/version 4. uname a 查看版本 ...
Nginx 入門及基本命令行操作

Nginx 介紹 Nginx 是一個高性能的 Web 伺服器，從 2001 年發展至今，由於 Nginx 對硬體和操作系統內核特性的深度挖掘，使得在保持高併發的同時還能夠保持高吞吐量。Nginx 還採用了模塊設計，有大量的第三方模塊可以擴展 Nginx 的功能，因此 Nginx 的場景非常豐富，同時 ...
搭建屬於自己的伺服器

記下來！以後別忘了我把自己的小筆記本重裝了下系統一、linux裝機 centos8 1、U盤啟動 2、進入安裝引導頁 3、按下鍵盤TAB鍵將最下麵的vmlinuz initrd=initrd.img inst.stage2=hd:LABEL=CentOS\x207\x20x86_64 rd.li ...
交叉編譯環境

arm裸機，linux開發，編譯器，編譯環境答疑解惑前言：最近一直在跟著正點原子的i.mx6ull視頻學習，打算研究一下嵌入式linux的開發，主要是道聽途說單片機開發未來薪資不高，想著反正單片機學的也就半吊子，何不趁此時各大廠商(某點，某火，某山)紛紛推出免費視頻，開始進行價格戰的時候，從中漁 ...
036.集群網路-K8S網路模型及Linux基礎網路

一 Kubernetes網路模型概述 1.1 Kubernetes網路模型 Kubernetes網路模型設計的一個基礎原則是：每個Pod都擁有一個獨立的IP地址，並假定所有Pod都在一個可以直接連通的、扁平的網路空間中。所以不管它們是否運行在同一個Node（宿主機）中，都要求它們可以直接通過對方的I ...
關於Explain

最近在對sql進行性能優化因此對explain相關的知識進行一個簡單的整理歸納。 EXPLAIN：為SELECT語句中使用到的每個表返回一條 SELECT 執行的詳細信息；按照MySQL在處理語句時讀取它們的順序列出這些表。命令輸出格式 id = 1 select_type = SIMPLE t ...