MongoDB系列六(聚合).

来源:https://www.cnblogs.com/jmcui/archive/2018/04/18/8858111.html
-Advertisement-
Play Games

一、概念 使用聚合框架可以對集合中的文檔進行變換和組合。基本上,可以用多個構件創建一個管道(pipeline),用於對一連串的文檔進行處理。這些構件包括篩選(filtering)、投射(projecting)、分組(grouping)、排序(sorting)、限制(limiting)和跳過(skip ...


 一、概念

    使用聚合框架可以對集合中的文檔進行變換和組合。基本上,可以用多個構件創建一個管道(pipeline),用於對一連串的文檔進行處理。這些構件包括篩選(filtering)、投射(projecting)、分組(grouping)、排序(sorting)、限制(limiting)和跳過(skipping)。

二、聚合函數

db.driverLocation.aggregate(
    {"$match":{"areaCode":"350203"}},
    {"$project":{"driverUuid":1,"uploadTime":1,"positionType":1}},
    {"$group":{"_id":{"driverUuid":"$driverUuid","positionType":"$positionType"},"uploadTime":{"$first":{"$year":"$uploadTime"}},"count":{"$sum":1}}},
    {"$sort":{"count":-1}},
    {"$limit":100},
    {"$skip":50}
)

     管道操作符是按照書寫的順序依次執行的,每個操作符都會接受一連串的文檔,對這些文檔做一些類型轉換,最後將轉換後的文檔作為結果傳遞給下一個操作符(對於最後一個管道操作符,是將結果返回給客戶端),稱為流式工作方式。

    大部分操作符的工作方式都是流式的,只要有新文檔進入,就可以對新文檔進行處理,但是"$group" 和 "$sort" 必須要等收到所有的文檔之後,才能對文檔進行分組排序,然後才能將各個分組發送給管道中的下一個操作符。這意味著,在分片的情況下,"$group" 或 "$sort"會先在每個分片上執行,然後各個分片上的分組結果會被髮送到mongos再進行最後的統一分組,剩餘的管道工作也都是在mongos(而不是在分片)上運行的。

    不同的管道操作符可以按任意順序組合在一起使用,而且可以被重覆任意多次。例如,可以先做"$match",然後做"$group",然後再做"$match"(與之前的"$match"匹配不同的查詢條件)。

    $fieldname"語法是為了在聚合框架中引用fieldname欄位。

  • 篩選(filtering)—> $match

    用於對文檔集合進行篩選,之後就可以在篩選得到的文檔子集上做聚合。例如,如果想對Oregon(俄勒岡州,簡寫為OR)的用戶做統計,就可以使用{$match : {"state" :"OR"}}。"$match"可以使用所有常規的查詢操作符("$gt"、"$lt"、"$in"等)。有一個例外需要註意:不能在"$match"中使用地理空間操作符。
    通常,在實際使用中應該儘可能將"$match"放在管道的前面位置。這樣做有兩個好處:一是可以快速將不需要的文檔過濾掉,以減少管道的工作量;二是如果在投射和分組之前執行"$match",查詢可以使用索引。

  • 投射(projecting)—> $project

    這個語法與查詢中的欄位選擇器比較像:可以通過指定 {"fieldname" : 1} 選擇需要投射的欄位,或者通過指定 { "fieldname":0 } 排除不需要的欄位。執行完這個"$project"操作之後,結果集中的每個文檔都會以{"_id" : id, "fieldname" :"xxx"}這樣的形式表示。這些結果只會在記憶體中存在,不會被寫入磁碟。

    還可以對欄位進行重命名:db.users.aggregate({"$project" : {"userId" : "$_id", "_id" : 0}}),在對欄位進行重命名時,MongoDB並不會記錄欄位的歷史名稱。

  • 分組(grouping)—> $group

     如果選定了需要進行分組的欄位,就可以將選定的欄位傳遞給"$group"函數的"_id"欄位。對於上面的例子:我們選擇了driverUuid 和 positionType 當作我們分組的條件(當然只選擇一個欄位也是可以的)。分組過後,文檔的 driverUuid 和 positionType 組成的對象就變成了文檔的唯一標識(_id)。

  "count":{"$sum":1} 是為分組內每個文檔的"count"欄位加1。註意,新加入的文檔中並不會有"count"欄位;這"$group"創建的一個新欄位。  

  • 排序(sorting)—> $sort

    排序方向可以是1(升序)和 -1(降序)。  

   可以根據任何欄位(或者多個欄位)進行排序,與在普通查詢中的語法相同。如果要對大量的文檔進行排序,強烈建議在管道的第一階段進行排序,這時的排序操作可以使用索引。否則,排序過程就會比較慢,而且會占用大量記憶體。

  • 限制(limiting)—> $limit

   $limit會接受一個數字n,返回結果集中的前n個文檔。

  • 跳過(skipping)—> $skip

   $skip也是接受一個數字n,丟棄結果集中的前n個文檔,將剩餘文檔作為結果返回。在“普通”查詢中,如果需要跳過大量的數據,那麼這個操作符的效率會很低。在聚合中也是如此,因為它必須要先匹配到所有需要跳過的文檔,然後再將這些文檔丟棄。

  • 拆分(unwind)—> $unwind

   可以將數組中的每一個值拆分為單獨的文檔。

   例如文檔:{ "_id" : 1, "item" : "ABC1", sizes: [ "S", "M", "L"] }

   聚合運算:db.inventory.aggregate( [ { $unwind : "$sizes" } ] )

   結果:

{ "_id" : 1, "item" : "ABC1", "sizes" : "S" }
{ "_id" : 1, "item" : "ABC1", "sizes" : "M" }
{ "_id" : 1, "item" : "ABC1", "sizes" : "L" }

Spring Data MongoDB 中使用聚合函數:

    /**
     * db.driverLocation.aggregate(
     *     {"$match":{"areaCode":"350203"}},
     *     {"$project":{"driverUuid":1,"uploadTime":1,"positionType":1}},
     *     {"$group":{"_id":{"driverUuid":"$driverUuid","positionType":"$positionType"},"uploadTime":{"$first":{"$year":"$uploadTime"}},"count":{"$sum":1}}},
     *     {"$sort":{"count":-1}},
     *     {"$limit":100},
     *     {"$skip":50}
     * )
     */
    @Test
    public void test04(){
        //match
        Criteria criteria = Criteria.where("350203").is("350203");
        AggregationOperation matchOperation = Aggregation.match(criteria);
        //project
        AggregationOperation projectionOperation = Aggregation.project("driverUuid", "uploadTime", "positionType");
        //group
        AggregationOperation groupOperation = Aggregation.group("driverUuid", "positionType")
                .first(DateOperators.dateOf("uploadTime").year()).as("uploadTime")
                .count().as("count");
        //sort
        Sort sort = new Sort(Sort.Direction.DESC, "count");
        AggregationOperation sortOperation = Aggregation.sort(sort);
        //limit
        AggregationOperation limitOperation = Aggregation.limit(100L);
        //skip
        AggregationOperation skipOperation = Aggregation.skip(50L);

        Aggregation aggregation = Aggregation.newAggregation(matchOperation, projectionOperation, groupOperation, sortOperation, limitOperation, skipOperation);
        AggregationResults<Object> driverLocation = mongoOperations.aggregate(aggregation, "driverLocation", Object.class);
        List<Object> mappedResults = driverLocation.getMappedResults();

    }

 

三、聚合管道操作符

    MongoDB提供了很多的操作符用來文檔聚合後欄位間的運算或者分組內的統計,比如上文提到的$sum、$first、$year 等。MongoDB提供了包括分組操作符、數學操作符、日期操作符、字元串表達式 等等 一系列的操作符...

  • 分組操作符

類似 SQL中分組後的操作,只適用於分組後的統計工作,不適用於單個文檔。

  1. {"$sum" : value}  對於分組中的每一個文檔,將value與計算結果相加。
  2. {"$avg" : value} 返回每個分組的平均值
  3. {"$max" : expr} 返回分組內的最大值。
  4. {"$min" : expr} 返回分組內的最小值。
  5. {"$first" : expr} 返回分組的第一個值,忽略後面所有值。只有排序之後,明確知道數據順序時這個操作才有意義。
  6. {"$last" : expr} 與"$first"相反,返回分組的最後一個值。
  7. {"$addToSet" : expr} 針對數組欄位, 如果當前數組中不包含expr ,那就將它添加到數組中。在返回結果集中,每個元素最多只出現一次,而且元素的順序是不確定的。
  8. {"$push" : expr} 針對數組欄位,不管expr是什麼值,都將它添加到數組中。返回包含所有值的數組。
  • 數學操作符

適用於單個文檔的運算。

  1. {"$add" : [expr1[, expr2, ..., exprN]]} 這個操作符接受一個或多個表達式作為參數,將這些表達式相加。
  2. {"$subtract" : [expr1, expr2]} 接受兩個表達式作為參數,用第一個表達式減去第二個表達式作為結果。
  3. {"$multiply" : [expr1[, expr2, ..., exprN]]} 接受一個或者多個表達式,並且將它們相乘。
  4. {"$divide" : [expr1, expr2]} 接受兩個表達式,用第一個表達式除以第二個表達式的商作為結果。
  5. {"$mod" : [expr1, expr2]} 接受兩個表達式,將第一個表達式除以第二個表達式得到的餘數作為結果。
  • 字元串表達式

適用於單個文檔的運算。

  1. {$substr" : [expr, startOffset, numToReturn]} 其中第一個參數expr必須是個字元串,這個操作會截取這個字元串的子串(從第startOffset位元組開始的numToReturn位元組,註意,是位元組,不是字元。在多位元組編碼中尤其要註意這一點)expr必須是字元串。
  2. {"$concat" : [expr1[, expr2, ..., exprN]]} 將給定的表達式(或者字元串)連接在一起作為返回結果。
  3. {"$toLower" : expr} 參數expr必須是個字元串值,這個操作返回expr的小寫形式。
  4. {"$toUpper" : expr} 參數expr必須是個字元串值,這個操作返回expr的大寫形式。
  • 邏輯表達式

適用於單個文檔的運算,通過這些操作符,就可以在聚合中使用更複雜的邏輯,可以對不同數據執行不同的代碼,得到不同的結果。

  1. {$cmp" : [expr1, expr2]} 比較expr1和expr2。如果expr1等於expr2,返回0;如果expr1 < expr2,返回一個負數;如果expr1 > expr2,返回一個正數。
  2. {"$strcasecmp" : [string1, string2]} 比較string1和string2,區分大小寫。只對 ASCII 組成的字元串有效。
  3. {"$eq"/"$ne"/"$gt"/"$gte"/"$lt"/"$lte" : [expr1, expr2]} 對expr1和expr2執行相應的比較操作,返回比較的結果(true或false)。
  4. {"$and" : [expr1[, expr2, ..., exprN]]} 如果所有表達式的值都是true,那就返回true,否則返回false。
  5. {"$or" : [expr1[, expr2, ..., exprN]]} 只要有任意表達式的值為true,就返回true,否則返回false。
  6. {"$not" : expr} 對expr取反。
  7. {"$cond" : [booleanExpr, trueExpr, falseExpr]} 如果booleanExpr的值是true,那就返回trueExpr,否則返回falseExpr。
  8. {"$ifNull" : [expr, replacementExpr]} 如果expr是null,返回replacementExpr,否則返回expr。
  • 日期表達式

適用於單個文檔的運算,只能對日期類型的欄位進行日期操作,不能對非日期類型欄位做日期操作。

  1. {$year: "$date" } 返回日期的年份部分
  2. {$month: "$date" } 返回日期的月份部分
  3. {$dayOfMonth: "$date" } 返回日期的天部分
  4. {$hour: "$date" } 返回日期的小時部分
  5. {$minute: "$date" } 返回日期的分鐘部分
  6. {$second: "$date" } 返回日期的秒部分
  7. {$millisecond: "$date" } 返回日期的毫秒部分
  8. {$dayOfYear: "$date" } 一年中的第幾天
  9. {$dayOfWeek: "$date" } 一周中的第幾天,between 1 (Sunday) and 7 (Saturday).
  10. {$week: "$date" } 以0到53之間的數字返回一年中日期的周數。周從星期日開始,第一周從一年中的第一個星期天開始。一年中第一個星期日之前的日子是在第0周。

可參考:https://docs.mongodb.com/manual/reference/operator/aggregation/

四、結語

    應該儘量在管道的開始階段(執行"$project"、"$group"或者"$unwind"操作之前)就將儘可能多的文檔和欄位過濾掉。管道如果不是直接從原先的集合中使用數據,那就無法在篩選和排序中使用索引。如果可能,聚合管道會嘗試對操作進行排序,以便能夠有效使用索引。

    MongoDB不允許單一的聚合操作占用過多的系統記憶體:如果MongoDB發現某個聚合操作占用了20%以上的記憶體,這個操作就會直接輸出錯誤。允許將輸出結果利用管道放入一個集合中是為了方便以後使用(這樣可以將所需的記憶體減至最小)。

    這篇文章主要摘錄自《MongoDB權威指南第二版》,Mongo系列的最後一篇文章了,最近學MongoDB學得頭都有點大了,準備換個方向學學了...共勉!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • ed2k://%7Cfile%7Ccn_sql_server_2008_r2_enterprise_x86_x64_ia64_dvd_522233.iso%7C4662884352%7C1DB025218B01B48C6B76D6D88630F541%7C/ ...
  • sudo /etc/init.d/mysql startmysql -u xxxx -p*****mysql >_ ...
  • 本文目錄: 1.非遞歸CTE 2.遞歸CTE 2.1 語法 2.2 遞歸CTE示例(1) 2.3 遞歸CTE示例(2) 2.4 遞歸CTE示例(3) 公用表表達式(Common Table Expression,CTE)和派生表類似,都是虛擬的表,但是相比於派生表,CTE具有一些優勢和方便之處。 C ...
  • 前言: 本文是對SQLSkills上一篇關於SQL Server中THREADPOOL等待的博客的翻譯,本文也不是完全翻譯,有些地方適當加入了自己的一些認知。如有翻譯不對或不好的地方,敬請指出,大家一起學習進步。尊重原創和翻譯勞動成果,轉載時請註明出處。謝謝! 英文原文地址:https://www.... ...
  • 第一種方法:一鍵修改LNMP環境下MYSQL資料庫密碼腳本 一鍵腳本肯定是非常方便。具體執行以下命令: ...
  • 已知條件如下: 插入數據如下: 既: 問題如下: Write an SQL query which returns for all current employees the start of their current period of continuous employment. That i ...
  • 本文內容: 什麼是代碼執行結構 順序結構 分支結構 迴圈結構 首發日期:2018-04-18 什麼是代碼執行結構: 這裡所說的代碼執行結構就是多條sql語句的執行順序。 代碼執行結構主要用於觸發器、存儲過程和函數等存儲多條sql語句中。 順序結構: 順序結構就是從上到下依次執行sql語句 一般預設情 ...
  • 本文為mariadb官方手冊:非遞歸CTE的譯文。 原文:https://mariadb.com/kb/en/library/non-recursive-common-table-expressions-overview/我提交到MariaDB官方手冊的譯文:https://mariadb.com/ ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...