一、概念 使用聚合框架可以對集合中的文檔進行變換和組合。基本上,可以用多個構件創建一個管道(pipeline),用於對一連串的文檔進行處理。這些構件包括篩選(filtering)、投射(projecting)、分組(grouping)、排序(sorting)、限制(limiting)和跳過(skip ...
一、概念
使用聚合框架可以對集合中的文檔進行變換和組合。基本上,可以用多個構件創建一個管道(pipeline),用於對一連串的文檔進行處理。這些構件包括篩選(filtering)、投射(projecting)、分組(grouping)、排序(sorting)、限制(limiting)和跳過(skipping)。
二、聚合函數
db.driverLocation.aggregate( {"$match":{"areaCode":"350203"}}, {"$project":{"driverUuid":1,"uploadTime":1,"positionType":1}}, {"$group":{"_id":{"driverUuid":"$driverUuid","positionType":"$positionType"},"uploadTime":{"$first":{"$year":"$uploadTime"}},"count":{"$sum":1}}}, {"$sort":{"count":-1}}, {"$limit":100}, {"$skip":50} )
管道操作符是按照書寫的順序依次執行的,每個操作符都會接受一連串的文檔,對這些文檔做一些類型轉換,最後將轉換後的文檔作為結果傳遞給下一個操作符(對於最後一個管道操作符,是將結果返回給客戶端),稱為流式工作方式。
大部分操作符的工作方式都是流式的,只要有新文檔進入,就可以對新文檔進行處理,但是"$group" 和 "$sort" 必須要等收到所有的文檔之後,才能對文檔進行分組排序,然後才能將各個分組發送給管道中的下一個操作符。這意味著,在分片的情況下,"$group" 或 "$sort"會先在每個分片上執行,然後各個分片上的分組結果會被髮送到mongos再進行最後的統一分組,剩餘的管道工作也都是在mongos(而不是在分片)上運行的。
不同的管道操作符可以按任意順序組合在一起使用,而且可以被重覆任意多次。例如,可以先做"$match",然後做"$group",然後再做"$match"(與之前的"$match"匹配不同的查詢條件)。
$fieldname"語法是為了在聚合框架中引用fieldname欄位。
- 篩選(filtering)—> $match
用於對文檔集合進行篩選,之後就可以在篩選得到的文檔子集上做聚合。例如,如果想對Oregon(俄勒岡州,簡寫為OR)的用戶做統計,就可以使用{$match : {"state" :"OR"}}。"$match"可以使用所有常規的查詢操作符("$gt"、"$lt"、"$in"等)。有一個例外需要註意:不能在"$match"中使用地理空間操作符。
通常,在實際使用中應該儘可能將"$match"放在管道的前面位置。這樣做有兩個好處:一是可以快速將不需要的文檔過濾掉,以減少管道的工作量;二是如果在投射和分組之前執行"$match",查詢可以使用索引。
- 投射(projecting)—> $project
這個語法與查詢中的欄位選擇器比較像:可以通過指定 {"fieldname" : 1} 選擇需要投射的欄位,或者通過指定 { "fieldname":0 } 排除不需要的欄位。執行完這個"$project"操作之後,結果集中的每個文檔都會以{"_id" : id, "fieldname" :"xxx"}這樣的形式表示。這些結果只會在記憶體中存在,不會被寫入磁碟。
還可以對欄位進行重命名:db.users.aggregate({"$project" : {"userId" : "$_id", "_id" : 0}}),在對欄位進行重命名時,MongoDB並不會記錄欄位的歷史名稱。
- 分組(grouping)—> $group
如果選定了需要進行分組的欄位,就可以將選定的欄位傳遞給"$group"函數的"_id"欄位。對於上面的例子:我們選擇了driverUuid 和 positionType 當作我們分組的條件(當然只選擇一個欄位也是可以的)。分組過後,文檔的 driverUuid 和 positionType 組成的對象就變成了文檔的唯一標識(_id)。
"count":{"$sum":1} 是為分組內每個文檔的"count"欄位加1。註意,新加入的文檔中並不會有"count"欄位;這"$group"創建的一個新欄位。
- 排序(sorting)—> $sort
排序方向可以是1(升序)和 -1(降序)。
可以根據任何欄位(或者多個欄位)進行排序,與在普通查詢中的語法相同。如果要對大量的文檔進行排序,強烈建議在管道的第一階段進行排序,這時的排序操作可以使用索引。否則,排序過程就會比較慢,而且會占用大量記憶體。
- 限制(limiting)—> $limit
$limit會接受一個數字n,返回結果集中的前n個文檔。
- 跳過(skipping)—> $skip
$skip也是接受一個數字n,丟棄結果集中的前n個文檔,將剩餘文檔作為結果返回。在“普通”查詢中,如果需要跳過大量的數據,那麼這個操作符的效率會很低。在聚合中也是如此,因為它必須要先匹配到所有需要跳過的文檔,然後再將這些文檔丟棄。
- 拆分(unwind)—> $unwind
可以將數組中的每一個值拆分為單獨的文檔。
例如文檔:{ "_id" : 1, "item" : "ABC1", sizes: [ "S", "M", "L"] }
聚合運算:db.inventory.aggregate( [ { $unwind : "$sizes" } ] )
結果:
{ "_id" : 1, "item" : "ABC1", "sizes" : "S" }
{ "_id" : 1, "item" : "ABC1", "sizes" : "M" }
{ "_id" : 1, "item" : "ABC1", "sizes" : "L" }
Spring Data MongoDB 中使用聚合函數:
/** * db.driverLocation.aggregate( * {"$match":{"areaCode":"350203"}}, * {"$project":{"driverUuid":1,"uploadTime":1,"positionType":1}}, * {"$group":{"_id":{"driverUuid":"$driverUuid","positionType":"$positionType"},"uploadTime":{"$first":{"$year":"$uploadTime"}},"count":{"$sum":1}}}, * {"$sort":{"count":-1}}, * {"$limit":100}, * {"$skip":50} * ) */ @Test public void test04(){ //match Criteria criteria = Criteria.where("350203").is("350203"); AggregationOperation matchOperation = Aggregation.match(criteria); //project AggregationOperation projectionOperation = Aggregation.project("driverUuid", "uploadTime", "positionType"); //group AggregationOperation groupOperation = Aggregation.group("driverUuid", "positionType") .first(DateOperators.dateOf("uploadTime").year()).as("uploadTime") .count().as("count"); //sort Sort sort = new Sort(Sort.Direction.DESC, "count"); AggregationOperation sortOperation = Aggregation.sort(sort); //limit AggregationOperation limitOperation = Aggregation.limit(100L); //skip AggregationOperation skipOperation = Aggregation.skip(50L); Aggregation aggregation = Aggregation.newAggregation(matchOperation, projectionOperation, groupOperation, sortOperation, limitOperation, skipOperation); AggregationResults<Object> driverLocation = mongoOperations.aggregate(aggregation, "driverLocation", Object.class); List<Object> mappedResults = driverLocation.getMappedResults(); }
三、聚合管道操作符
MongoDB提供了很多的操作符用來文檔聚合後欄位間的運算或者分組內的統計,比如上文提到的$sum、$first、$year 等。MongoDB提供了包括分組操作符、數學操作符、日期操作符、字元串表達式 等等 一系列的操作符...
- 分組操作符
類似 SQL中分組後的操作,只適用於分組後的統計工作,不適用於單個文檔。
- {"$sum" : value} 對於分組中的每一個文檔,將value與計算結果相加。
- {"$avg" : value} 返回每個分組的平均值
- {"$max" : expr} 返回分組內的最大值。
- {"$min" : expr} 返回分組內的最小值。
- {"$first" : expr} 返回分組的第一個值,忽略後面所有值。只有排序之後,明確知道數據順序時這個操作才有意義。
- {"$last" : expr} 與"$first"相反,返回分組的最後一個值。
- {"$addToSet" : expr} 針對數組欄位, 如果當前數組中不包含expr ,那就將它添加到數組中。在返回結果集中,每個元素最多只出現一次,而且元素的順序是不確定的。
- {"$push" : expr} 針對數組欄位,不管expr是什麼值,都將它添加到數組中。返回包含所有值的數組。
- 數學操作符
適用於單個文檔的運算。
- {"$add" : [expr1[, expr2, ..., exprN]]} 這個操作符接受一個或多個表達式作為參數,將這些表達式相加。
- {"$subtract" : [expr1, expr2]} 接受兩個表達式作為參數,用第一個表達式減去第二個表達式作為結果。
- {"$multiply" : [expr1[, expr2, ..., exprN]]} 接受一個或者多個表達式,並且將它們相乘。
- {"$divide" : [expr1, expr2]} 接受兩個表達式,用第一個表達式除以第二個表達式的商作為結果。
- {"$mod" : [expr1, expr2]} 接受兩個表達式,將第一個表達式除以第二個表達式得到的餘數作為結果。
- 字元串表達式
適用於單個文檔的運算。
- {$substr" : [expr, startOffset, numToReturn]} 其中第一個參數expr必須是個字元串,這個操作會截取這個字元串的子串(從第startOffset位元組開始的numToReturn位元組,註意,是位元組,不是字元。在多位元組編碼中尤其要註意這一點)expr必須是字元串。
- {"$concat" : [expr1[, expr2, ..., exprN]]} 將給定的表達式(或者字元串)連接在一起作為返回結果。
- {"$toLower" : expr} 參數expr必須是個字元串值,這個操作返回expr的小寫形式。
- {"$toUpper" : expr} 參數expr必須是個字元串值,這個操作返回expr的大寫形式。
- 邏輯表達式
適用於單個文檔的運算,通過這些操作符,就可以在聚合中使用更複雜的邏輯,可以對不同數據執行不同的代碼,得到不同的結果。
- {$cmp" : [expr1, expr2]} 比較expr1和expr2。如果expr1等於expr2,返回0;如果expr1 < expr2,返回一個負數;如果expr1 > expr2,返回一個正數。
- {"$strcasecmp" : [string1, string2]} 比較string1和string2,區分大小寫。只對 ASCII 組成的字元串有效。
- {"$eq"/"$ne"/"$gt"/"$gte"/"$lt"/"$lte" : [expr1, expr2]} 對expr1和expr2執行相應的比較操作,返回比較的結果(true或false)。
- {"$and" : [expr1[, expr2, ..., exprN]]} 如果所有表達式的值都是true,那就返回true,否則返回false。
- {"$or" : [expr1[, expr2, ..., exprN]]} 只要有任意表達式的值為true,就返回true,否則返回false。
- {"$not" : expr} 對expr取反。
- {"$cond" : [booleanExpr, trueExpr, falseExpr]} 如果booleanExpr的值是true,那就返回trueExpr,否則返回falseExpr。
- {"$ifNull" : [expr, replacementExpr]} 如果expr是null,返回replacementExpr,否則返回expr。
- 日期表達式
適用於單個文檔的運算,只能對日期類型的欄位進行日期操作,不能對非日期類型欄位做日期操作。
- {$year: "$date" } 返回日期的年份部分
- {$month: "$date" } 返回日期的月份部分
- {$dayOfMonth: "$date" } 返回日期的天部分
- {$hour: "$date" } 返回日期的小時部分
- {$minute: "$date" } 返回日期的分鐘部分
- {$second: "$date" } 返回日期的秒部分
- {$millisecond: "$date" } 返回日期的毫秒部分
- {$dayOfYear: "$date" } 一年中的第幾天
- {$dayOfWeek: "$date" } 一周中的第幾天,between 1 (Sunday) and 7 (Saturday).
- {$week: "$date" } 以0到53之間的數字返回一年中日期的周數。周從星期日開始,第一周從一年中的第一個星期天開始。一年中第一個星期日之前的日子是在第0周。
可參考:https://docs.mongodb.com/manual/reference/operator/aggregation/
四、結語
應該儘量在管道的開始階段(執行"$project"、"$group"或者"$unwind"操作之前)就將儘可能多的文檔和欄位過濾掉。管道如果不是直接從原先的集合中使用數據,那就無法在篩選和排序中使用索引。如果可能,聚合管道會嘗試對操作進行排序,以便能夠有效使用索引。
MongoDB不允許單一的聚合操作占用過多的系統記憶體:如果MongoDB發現某個聚合操作占用了20%以上的記憶體,這個操作就會直接輸出錯誤。允許將輸出結果利用管道放入一個集合中是為了方便以後使用(這樣可以將所需的記憶體減至最小)。
這篇文章主要摘錄自《MongoDB權威指南第二版》,Mongo系列的最後一篇文章了,最近學MongoDB學得頭都有點大了,準備換個方向學學了...共勉!