6.InfluxDB-InfluxQL基礎語法教程--GROUP BY子句

本文翻譯自官網，官網地址：(https://docs.influxdata.com/influxdb/v1.7/query_language/data_exploration/) GROUP BY子句通過用戶自己制定的tags set或time區間，來將查詢結果進行分組。一、GROUP BY ta ...

本文翻譯自官網，官網地址：(https://docs.influxdata.com/influxdb/v1.7/query_language/data_exploration/)

GROUP BY子句通過用戶自己制定的tags set或time區間，來將查詢結果進行分組。

一、GROUP BY tags

GROUP BY 通過用戶指定的tag set，來對查詢結果進行分組。
語法：

SELECT_clause FROM_clause [WHERE_clause]
GROUP BY [* | <tag_key>[,<tag_key]]

GROUP BY子句	意義
GROUP BY *	使用所有tag對查詢結果進行分組
GROUP BY <tag_key>	使用指定tag對查詢結果進行分組
GROUP BY <tag_key>,<tag_key>	使用指定的多個tag對查詢結果進行分組，其中tag之間的順序是無關的。

註：如果在sql中同時存在WHERE子句和GROUP BY子句，則GROUP BY子句一定要在WHERE子句之後！

Other supported features: Regular Expressions

GROUP BY tags 示例sql

Group query results by a single tag

上面的sql使用了MEAN函數，來對h2o_feet這個measurement中的location這個tag進行分組求平均值。
註：在InfluxDB中，0紀元1970-01-01T00:00:00Z這個時間經常被用來表示timestamp的NULL值。如果你的查詢中沒有顯示指定返回一個timestamp，比如上面在調用聚合函數時，就沒有指定時間區間，因此InfluxDB最後返回0紀元來作為timestamp。
Group query results by more than one tag
Group query results by all tags

二、基礎GROUP BY time intervals

GROUP BY time() 查詢會將查詢結果按照用戶指定的時間區間來進行分組。
語法：

SELECT <function>(<field_key>) FROM_clause
WHERE <time_range>
GROUP BY time(<time_interval>),[tag_key] [fill(<fill_option>)]

基本的 GROUP BY time() 查詢用法需要在SELECT子句中調用相關函數，並且在WHERE子句中調用time時間區間。

time(time_interval)
在GROUP BY time()子句中的time_interval是個連續的時間區間，該時間區間決定了InfluxDB如何通過時間來對查詢結果進行分組。比如，如果time_interval為5m，那麼它會將查詢結果分為5分鐘一組（如果在WHERE子句中指定了time區間，那麼就是將WHERE中指定的time區間劃分為沒5分鐘一組）。
fill(<fill_option>)
fill(<fill_option>) 是可選的。它可以填充那些沒有數據的時間區間的值。從 [GROUP BY time intervals and fill() ] (https://docs.influxdata.com/influxdb/v1.7/query_language/data_exploration/#group-by-time-intervals-and-fill) 部分可查看到關於這部分的更多信息。

註：基本的GROUP BY time()查詢通過當前InfluxDB資料庫的預設時間邊界來確定每個時間間隔中包含的原始數據和查詢返回的時間戳。

基本用法示例sql

先看一個WHERE查詢

下麵的GROUP BY time(time_interval)示例是在上面的sql基礎上進行改進的，sql為：

SELECT COUNT("water_level") FROM "h2o_feet"
WHERE "location"='coyote_creek'
    AND time >= '2015-08-18T00:00:00Z'
    AND time <= '2015-08-18T00:30:00Z'
GROUP BY time(12m)

查詢結果：

該sql將h2o_feet表中tag=“coyote_creek”，且在'2015-08-18T00:00:00Z'和'2015-08-18T00:30:00Z'時間區間內的數據查詢出來，並對其劃分為每12分鐘一組，對water_level值進行count計算。
註意：在查詢結果中，時間區間是左閉右開的。拿第一行查詢結果數據來說，2015-08-18T00:00:00Z表示的時間區間是[2015-08-18T00:00:00, 2015-08-18T00:12:00Z )

常見問題

問題：查詢結果中有預期之外的時間區間和值。
在基本用法中，GROUP BY time()查詢通過當前InfluxDB資料庫的預設時間邊界來確定每個時間間隔中包含的原始數據和查詢返回的時間戳，這有可能會導致預期之外的結果值。
比如，通過如下sql:

SELECT "water_level" FROM "h2o_feet"
WHERE "location"='coyote_creek'
    AND time >= '2015-08-18T00:00:00Z'
    AND time <= '2015-08-18T00:18:00Z'

我們查詢到原始數據如下所示：

在接下來的查詢中，我們通過WHERE子句，指定查詢12分鐘內的數據，並通過GROUP BY子句，將查詢結果按12分鐘的時間區間進行分組。

SELECT COUNT("water_level") FROM "h2o_feet"
WHERE "location"='coyote_creek'
    AND time >= '2015-08-18T00:06:00Z'
    AND time < '2015-08-18T00:18:00Z'
GROUP BY time(12m)

按照預想，因為查詢的是12分鐘內的數據，並且group by時是按照12分鐘來進行分組的，所以最後的查詢結果應該只有一行而已。然後實際的查詢結果卻有兩行：

解釋：
influxdb使用預設的整數時間邊界來作為GROUP BY的時間間隔，這些間隔獨立於WHERE子句中的任何時間條件。在計算結果時，所有返回的數據都必須出現在WHERE查詢的顯式時間範圍內，但當按間隔作為GROUP BY分組時是基於預設的時間邊界。
（這裡翻譯的不好，下麵是原版英文：
InfluxDB uses preset round-number time boundaries for GROUP BY intervals that are independent of any time conditions in the WHERE clause. When it calculates the results, all returned data must occur within the query’s explicit time range but the GROUP BY intervals will be based on the preset time boundaries.
）

高級的GROUP BY time()語法允許用戶自定義預設時間邊界的開始時間。在高級語法小節的示例sql3中，將展示這種用法，它查詢的結果如下：

三、高級GROUP BY time() 語法

語法如下：

SELECT <function>(<field_key>)
FROM_clause
WHERE <time_range>
GROUP BY time(<time_interval>,<offset_interval>),[tag_key] [fill(<fill_option>)]

在GROUP BY time()高級語法中，需要在SELECT子句中調用InfluxDB的函數，併在WHERE子句中指定時間區間。並且需要註意到的是，GROUP BY子句必須在WHERE子句之後！

time(time_interval,offset_interval)
在GROUP BY time()子句中的通過time_interval和offset_interval來表示一個連續的時間區間，該時間區間決定了InfluxDB如何通過時間來對查詢結果進行分組。比如，如果時間區間為5m，那麼它會將查詢結果分為5分鐘一組（如果在WHERE子句中指定了time區間，那麼就是將WHERE中指定的time區間劃分為沒5分鐘一組）。
offset_interval是持續時間文本。它向前或向後移動InfluxDB資料庫的預設時間邊界。offset_interval可以為正或負。
fill(<fill_option>)
fill(<fill_option>)是可選的。它可以填充那些沒有數據的時間區間的值。從 GROUP BY time intervals and fill() 部分可查看到關於這部分的更多信息。

註：高級 GROUP BY time() 語法依賴於time_interval、offset_interval、以及 InfluxDB 資料庫的預設時間邊界來確定每組內的數據條數、以及查詢結果的時間戳。

高級用法示例sql

先看如下查詢sql

SELECT "water_level" FROM "h2o_feet"
WHERE "location"='coyote_creek'
    AND time >= '2015-08-18T00:00:00Z'
    AND time <= '2015-08-18T00:54:00Z'

查詢結果：

接下來將使用上面的樣例數據的子集來進行演示。以下sql將按照每18m對數據進行進組，並將預設的時間界限前移。

ELECT MEAN("water_level") FROM "h2o_feet"
WHERE "location"='coyote_creek'
    AND time >= '2015-08-18T00:06:00Z'
    AND time <= '2015-08-18T00:54:00Z'
GROUP BY time(18m,6m)

查詢結果：

可見上面sql將查詢結果按照每18m為一組進行了分組，並且將預設的時間界限偏移了6分鐘。
註意，對於沒有offset_interval的group by time()，它的查詢結果的時間邊界和返回的時間戳遵循influxdb資料庫的預設時間邊界。下麵我們看offset_interval的group by time()的查詢結果：

SELECT MEAN("water_level") FROM "h2o_feet"
WHERE "location"='coyote_creek'
    AND time >= '2015-08-18T00:06:00Z'
    AND time <= '2015-08-18T00:54:00Z'
GROUP BY time(18m)

再看如下sql：

SELECT MEAN("water_level") FROM "h2o_feet"
WHERE "location"='coyote_creek'
    AND time >= '2015-08-18T00:06:00Z'
    AND time <= '2015-08-18T00:54:00Z'
GROUP BY time(18m,-12m);

查詢結果

註：該sql使用的是time(18m,-12m)，offset_interval是負數，它的查詢結果跟使用time(18m,6m)是一樣的。因此在決定正負偏移間隔時，請隨意選擇最直觀的選項。

GROUP BY time intervals and fill()

Fill() 可以填充那些沒有數據的時間區間的值。
語法：

SELECT <function>(<field_key>) FROM_clause
WHERE <time_range>
GROUP BY time(time_interval,[<offset_interval])[,tag_key] [fill(<fill_option>)]

預設情況下，在GROUP BY time()查詢結果中，若某個時間區間沒有數據，則該時間區間對應的值為null。通過fill()，就可以填充那些沒有數據的時間區間的值。
需要註意的是，fill()必須出現在GROUP BY子句的最後。

Fill選項

任何數學數值
使用給定的數學數值進行填充
linear
為沒有數據值的時間區間線性插入數值，使得插入之後的數值，跟其他本來就有數據的區間的值成線性。（這裡翻譯的不是很好，看示例就能明白了）
none
若某個時間區間內沒有數據，則在查詢結果中該區間對應的時間戳將不顯示出來
null
沒有值的區間，顯示為null。這也是預設的選項。
previous
用前一個區間的數值來填充當前沒有數據的區間的值。

示例：

fill(100)
fill(linear)
fill(none)
fill(null)
fill(previous)