AggregatingMergeTree引擎繼承自 MergeTree,並改變了數據片段的合併邏輯。ClickHouse會將一個數據片段內所有具有相同主鍵(準確的說是排序鍵)的行替換成一行,這一行會存儲一系列聚合函數的狀態。 可以使用AggregatingMergeTree表來做增量數據的聚合統計, ...
目錄
AggregatingMergeTree引擎繼承自 MergeTree,並改變了數據片段的合併邏輯。ClickHouse會將一個數據片段內所有具有相同主鍵(準確的說是排序鍵)的行替換成一行,這一行會存儲一系列聚合函數的狀態。
可以使用AggregatingMergeTree表來做增量數據的聚合統計,包括物化視圖的數據聚合。
引擎使用以下類型來處理所有列:
- AggregateFunction
- SimpleAggregateFunction
AggregatingMergeTree適用於能夠按照一定的規則縮減行數的情況。
建表語法
CREATE TABLE [IF NOT EXISTS] [db.]table_name [ON CLUSTER cluster]
(
name1 [type1] [DEFAULT|MATERIALIZED|ALIAS expr1],
name2 [type2] [DEFAULT|MATERIALIZED|ALIAS expr2],
...
) ENGINE = AggregatingMergeTree()
[PARTITION BY expr]
[ORDER BY expr]
[SAMPLE BY expr]
[TTL expr]
[SETTINGS name=value, ...]
AggregatingMergeTree表參數與MergeTree表是一致。MergeTree表引擎的解析可以參考ClickHouse(09)ClickHouse合併樹MergeTree家族表引擎之MergeTree詳細解析
查詢和插入數據
要插入數據,需使用帶有-State-聚合函數的INSERT或SELECT語句。從AggregatingMergeTree表中查詢數據時,需使用GROUP BY子句並且要使用與插入時相同的聚合函數,但尾碼要改為-Merge。
對於SELECT查詢的結果,AggregateFunction類型的值對ClickHouse的所有輸出格式都實現了特定的二進位表示法。在進行數據轉儲時,例如使用TabSeparated格式進行SELECT查詢,那麼這些轉儲數據也能直接用INSERT語句導回。
如下麵的例子。
-- 創建一個AggregatingMergeTree物化視圖
CREATE MATERIALIZED VIEW test.basic
ENGINE = AggregatingMergeTree() PARTITION BY toYYYYMM(StartDate) ORDER BY (CounterID, StartDate)
AS SELECT
CounterID,
StartDate,
sumState(Sign) AS Visits,
uniqState(UserID) AS Users
FROM test.visits
GROUP BY CounterID, StartDate;
--向 test.visits 表中插入數據,數據會同時插入到表和視圖中,並且視圖 test.basic 會將裡面的數據聚合。
INSERT INTO test.visits ...
-- 獲取聚合數據,需要在test.basic視圖上執行類似SELECT ... GROUP BY ...這樣的查詢
SELECT
StartDate,
sumMerge(Visits) AS Visits,
uniqMerge(Users) AS Users
FROM test.basic
GROUP BY StartDate
ORDER BY StartDate;
數據處理邏輯
最後總結一下AggregatingMergeTree的處理邏輯。
- 用ORBER BY排序鍵作為聚合數據的條件Key。
- 使用AggregateFunction欄位類型定義聚合函數的類型以及聚合的欄位。
- 只有在合併分區的時候才會觸發聚合計算的邏輯。
- 以數據分區為單位來聚合數據。當分區合併時,同一數據分區內聚合Key相同的數據會被合併計算,而不同分區之間的數據則不會被計算。
- 在進行數據計算時,因為分區內的數據已經基於ORBER BY排序,所以能夠找到那些相鄰且擁有相同聚合Key的數據。
- 在聚合數據時,同一分區內,相同聚合Key的多行數據會合併成一行。對於那些非主鍵、非AggregateFunction類型欄位,則會使用第一行數據的取值。
- AggregateFunction類型的欄位使用二進位存儲,在寫入數據時,需要調用*State函數;而在查詢數據時,則需要調用相應的*Merge函數。其中,*表示定義時使用的聚合函數。
- AggregatingMergeTree通常作為物化視圖的表引擎,與普通MergeTree搭配使用。
ClickHouse相關資料分享
參考文章:ClickHouse(03)ClickHouse怎麼安裝和部署
本文來自博客園,作者:張飛的豬,轉載請註明原文鏈接:https://www.cnblogs.com/the-pig-of-zf/p/17096571.html
公眾號:張飛的豬大數據分享,不定期分享大數據學習的總結和相關資料,歡迎關註。
個人網站"張飛的豬編程工作室"鏈接: https://zhangfeidezhu.com