ClickHouse(12)ClickHouse合併樹MergeTree家族表引擎之AggregatingMergeTree詳細解析

来源:https://www.cnblogs.com/the-pig-of-zf/archive/2023/02/06/17096571.html
-Advertisement-
Play Games

AggregatingMergeTree引擎繼承自 MergeTree,並改變了數據片段的合併邏輯。ClickHouse會將一個數據片段內所有具有相同主鍵(準確的說是排序鍵)的行替換成一行,這一行會存儲一系列聚合函數的狀態。 可以使用AggregatingMergeTree表來做增量數據的聚合統計, ...


目錄
AggregatingMergeTree引擎繼承自 MergeTree,並改變了數據片段的合併邏輯。ClickHouse會將一個數據片段內所有具有相同主鍵(準確的說是排序鍵)的行替換成一行,這一行會存儲一系列聚合函數的狀態。

可以使用AggregatingMergeTree表來做增量數據的聚合統計,包括物化視圖的數據聚合。

引擎使用以下類型來處理所有列:

  • AggregateFunction
  • SimpleAggregateFunction

AggregatingMergeTree適用於能夠按照一定的規則縮減行數的情況。

建表語法

CREATE TABLE [IF NOT EXISTS] [db.]table_name [ON CLUSTER cluster]
(
    name1 [type1] [DEFAULT|MATERIALIZED|ALIAS expr1],
    name2 [type2] [DEFAULT|MATERIALIZED|ALIAS expr2],
    ...
) ENGINE = AggregatingMergeTree()
[PARTITION BY expr]
[ORDER BY expr]
[SAMPLE BY expr]
[TTL expr]
[SETTINGS name=value, ...]

AggregatingMergeTree表參數與MergeTree表是一致。MergeTree表引擎的解析可以參考ClickHouse(09)ClickHouse合併樹MergeTree家族表引擎之MergeTree詳細解析

查詢和插入數據

要插入數據,需使用帶有-State-聚合函數的INSERT或SELECT語句。從AggregatingMergeTree表中查詢數據時,需使用GROUP BY子句並且要使用與插入時相同的聚合函數,但尾碼要改為-Merge。

對於SELECT查詢的結果,AggregateFunction類型的值對ClickHouse的所有輸出格式都實現了特定的二進位表示法。在進行數據轉儲時,例如使用TabSeparated格式進行SELECT查詢,那麼這些轉儲數據也能直接用INSERT語句導回。

如下麵的例子。

-- 創建一個AggregatingMergeTree物化視圖
CREATE MATERIALIZED VIEW test.basic
ENGINE = AggregatingMergeTree() PARTITION BY toYYYYMM(StartDate) ORDER BY (CounterID, StartDate)
AS SELECT
    CounterID,
    StartDate,
    sumState(Sign)    AS Visits,
    uniqState(UserID) AS Users
FROM test.visits
GROUP BY CounterID, StartDate;

--向 test.visits 表中插入數據,數據會同時插入到表和視圖中,並且視圖 test.basic 會將裡面的數據聚合。

INSERT INTO test.visits ...

-- 獲取聚合數據,需要在test.basic視圖上執行類似SELECT ... GROUP BY ...這樣的查詢

SELECT
    StartDate,
    sumMerge(Visits) AS Visits,
    uniqMerge(Users) AS Users
FROM test.basic
GROUP BY StartDate
ORDER BY StartDate;

數據處理邏輯

最後總結一下AggregatingMergeTree的處理邏輯。

  1. 用ORBER BY排序鍵作為聚合數據的條件Key。
  2. 使用AggregateFunction欄位類型定義聚合函數的類型以及聚合的欄位。
  3. 只有在合併分區的時候才會觸發聚合計算的邏輯。
  4. 以數據分區為單位來聚合數據。當分區合併時,同一數據分區內聚合Key相同的數據會被合併計算,而不同分區之間的數據則不會被計算。
  5. 在進行數據計算時,因為分區內的數據已經基於ORBER BY排序,所以能夠找到那些相鄰且擁有相同聚合Key的數據。
  6. 在聚合數據時,同一分區內,相同聚合Key的多行數據會合併成一行。對於那些非主鍵、非AggregateFunction類型欄位,則會使用第一行數據的取值。
  7. AggregateFunction類型的欄位使用二進位存儲,在寫入數據時,需要調用*State函數;而在查詢數據時,則需要調用相應的*Merge函數。其中,*表示定義時使用的聚合函數。
  8. AggregatingMergeTree通常作為物化視圖的表引擎,與普通MergeTree搭配使用。

ClickHouse相關資料分享

ClickHouse經典中文文檔分享

參考文章:ClickHouse(03)ClickHouse怎麼安裝和部署

本文來自博客園,作者:張飛的豬,轉載請註明原文鏈接:https://www.cnblogs.com/the-pig-of-zf/p/17096571.html

公眾號:張飛的豬大數據分享,不定期分享大數據學習的總結和相關資料,歡迎關註。

個人網站"張飛的豬編程工作室"鏈接: https://zhangfeidezhu.com


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Eureka是Netflix開發的服務發現框架,本身是一個基於REST的服務,主要用於定位運行在AWS域中的中間層服務,以達到負載均衡和中間層服務故障轉移的目的。Eureka提供了完整的Service Registry和Service Discovery實現實現,也是Spring Cloud體系中最... ...
  • 前言 最近有項目需要開發檔案打包下載功能,其中包含很多大附件,項目使用minio存儲且不在同一臺伺服器上,為了優化速度決定使用windows共用功能進行文件傳輸 SMB1.0 集成jcifs類庫,主要適用於一些老舊系統,但下載速度比較慢,僅作參考 此類庫沒有maven引用,官網地址:http://j ...
  • 原文鏈接 https://bysocket.com/nginx-unexpected-end-of-file-expecting-in-key-file/ 一、Nginx unexpected end of file 問題 通過 letsencrypt 申請證書後,預設伺服器安裝了 Nginx 1. ...
  • 寫在前面 很早之前的電腦ThinkPad E440,一直沒怎麼用。最近整理了一下電腦的資料,全部備份到雲盤。整理的過程感覺電腦很慢很慢,難受極了。整理完後,終於我要對它下手了! 我製作了啟動U盤,把Ubuntu 22.04的鏡像燒錄進去,通過U盤啟動,把系統裝在ThinkPad上。居然電腦出奇的好用 ...
  • 背景 REST作為一種現代網路應用非常流行的軟體架構風格,自從Roy Fielding博士在2000年他的博士論文中提出來到現在已經有了20年的歷史。它的簡單易用性,可擴展性,伸縮性受到廣大Web開發者的喜愛。 REST 的 API 配合JSON格式的數據交換,使得前後端分離、數據交互變得非常容易, ...
  • 賽事介紹 賽事起源 CTF(Capture The Flag)中文譯作奪旗賽,原為西方傳統運動,兩隊人馬互相前往對方的基地奪取旗幟。在網路空間安全領域被用來指代技術人員之間進行技術競技的比賽形式。 CTF起源於1996年的DEFCON全球黑客大賽,用於代替黑客間發起真是攻擊的競賽形式。DEFCON ...
  • 1. 寫在前面 之前的文章總結了使用管道進行進程間通信的方法,除了pipe和fifo,Linux內核還為我們提供了其他更高級的IPC方式,包括共用記憶體,消息隊列,信號量等,本篇文章會通過一個具有完整邏輯功能的示例說明如何使用這些IPC方法。畢竟單純地查手冊,寫代碼...周而複始,這個過程還是比較枯燥 ...
  • 運行環境 OS:Windows 10 64位 前期準備 檢查是否刪除navicat歷史文件夾 使用工具everything搜索關鍵詞,將文件刪除 檢查註冊表是否刪除navicat 按鍵【win+R】輸入regedit打開註冊表,刪除【HKEY_CURRENT_USER->SOFTWARE】的【Pre ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...