發現數據異常波動怎麼辦?別慌,指標監控和歸因分析來幫你

来源:https://www.cnblogs.com/DTinsight/p/18101902
-Advertisement-
Play Games

企業搭建完善、全面的指標體系是企業用數據指導業務經營決策的第一步。但是做完指標之後,對指標的監控,經常被大家忽視。當指標發生了異常波動(上升或下降),需要企業能夠及時發現,並快速找到背後真實的原因,才能針對性地制定相應策略,否則就是盲打,原地打轉。 指標異常波動的具體場景,比如: · 企業關鍵詞的搜 ...


企業搭建完善、全面的指標體系是企業用數據指導業務經營決策的第一步。但是做完指標之後,對指標的監控,經常被大家忽視。當指標發生了異常波動(上升或下降),需要企業能夠及時發現,並快速找到背後真實的原因,才能針對性地制定相應策略,否則就是盲打,原地打轉。

指標異常波動的具體場景,比如:

· 企業關鍵詞的搜索流量突然降低了,是什麼原因?

· 3月的GMV數字比2月下降了40%,應該如何分析?

· 最近某個品類的訂單數猛增,為什麼?

那麼,本文將詳細介紹如何建立完善的指標異常監控及其對應歸因分析機制,讓大家今後在遇到此類問題時,能夠快速從數據中發現業務問題與機會,提升業務推進速度。

基於統計分析檢測指標異常

企業的日常數據走勢會在一定範圍內上下浮動,但不同的指標其浮動範圍會有差異。當業務在高速增長期,指標每日波動幅度較大;業務在平穩期,指標每日波動幅度則較小;統計粒度越粗,數據量越大,統計結果的波動性也越小。因此,對於不同的指標需要用不同的標準去衡量指標波動是否存在異常。

指標異常監控方法主要有三種:

· 基於實際業務經驗進行閾值設置

· 基於數據結果進行統計分析

· 融入演算法進行建模預測

本文將主要介紹如何基於統計分析方法來評估指標波動是否異常。

統計學中,指標的數據分佈通常滿足正態分佈。正態分佈具有對稱性,會用到均值、標準差兩個數據。其中均值可以反應數據的平均水平,標準差可以反應數據波動幅度,標準差越大, 反映出數據波動性越大。標準差的計算公式如下:

file

利用數據在正態分佈中的位置可以判斷指標波動是否符合預期。在正態分佈中,數據分佈在2倍標準差內的概率是95.5%,在3倍標準差的概率內是99.7%。日常可以使用2倍標準差作為衡量標準。

正常數據結果會在 均值±2* 標準差範圍內浮動,若實際數據超出了這個範圍,則認為本次數據波動異常。

日常數據波動規律會以日、周、月、年為單位出現相同或相似的變化規律,此處以日活指標為例,來說明指標異常波動的監測過程。

某游戲類APP日活指標通常以周為單位進行數據波動,現計劃基於過去五周的數據走勢來判斷本周一的日活數據是否出現異常波動。

數據準備如下:

file

上述數據的前五周周一的均值:10900,標準差:1507,數據的2倍標準差分別為7887、13913,本周周一數據為7700,在2倍標準差範圍外,則說明本周一日活指標數據波動異常,需要進一步分析異常波動原因,以判斷業務是否真正存在異常。

指標異動歸因分析

指標異動歸因方法有很多,總結起來可以分為兩大類:橫向歸因分析和縱向歸因分析。

橫向歸因分析

橫向歸因分析,指的是對於組合型的指標可以對過程指標做拆分,分析每個過程指標的波動影響因素,再對多個影響因素做整合分析。

如:昨日的付費金額顯著增高。分析增高原因時,先對付費金額做工時拆解:付費金額 = 日活 * 平均付費金額,平均付費金額在正常範圍內波動,日活顯著增加,進一步對相關業務做分析,發現是昨日買量增加帶來的結果影響。

縱向歸因分析

縱向歸因分析,即對指標通過維度下鑽進行歸因分析。維度下鑽分析主要包括兩個分析粒度:一是分析各維度對指標的貢獻程度,二是分析維度值對指標的貢獻程度。

維度的貢獻程度計算可基於每個維度值的貢獻程度彙總得出,而每個維度值的貢獻程度計算有多種計算方式,貢獻程度的計算可以基於預測演算法等多種方法進行。本文介紹一個簡單的基於增長率平均值計算貢獻程度的方法。

單一維度下,每個維度值貢獻程度可通過下列公式計算:

file

下麵,以銷售額為例,介紹一下計算過程。

某產品線1月1日和1月2日銷售額分別為3097萬元、3300萬元。細分到城市維度,每個城市兩天的數據表現如下:

file

城市維度中:

file

基於上述步驟即可簡單地實現維度貢獻度及維度值貢獻度的計算。

智能指標波動監測&智能歸因分析

在實際的數據場景中,每個維度下維度值的數量少說幾十上百個,多則成千上萬個,每天純手動計算維度貢獻程度將是一個巨大的工作量。分析效率過於低下,導致業務方很容易根據經驗進行結論推斷,如果推斷錯誤,將很有可能產生錯誤決策。

袋鼠雲指標平臺智能指標波動監測智能歸因分析功能可以快速、全面的幫助用戶追蹤業務表現,從而進一步推動業務發展。

指標看板查看

對於企業關註的指標,可以將指標添加到關註看板中進行日常數據觀察與監控。在看板中可直觀查看所有指標的當前數據表現、近期數據走勢。系統會根據當前數據做智能診斷,判斷指標波動是否為正常波動,幫助用戶快速定位異常數據,針對性分析與應對數據變化。

file

指標歸因分析

當一個指標結果出現異常時,如果依次對維度、維度值進行歸因分析是一件工作量很大的事情。能夠將分析方法、分析過程系統化,會大大提升歸因分析效率,對業務發展形成極為正向的促進作用。

file

對執行指標歸因分析時,系統會區分維度值計算指標波動情況,進一步計算出維度貢獻度,並根據貢獻度大小進行降序排序,讓用戶聚焦於頭部更重要的影響因素。

在關註的維度下,用戶可以進一步查看細分維度值的貢獻度,快速發現數據變化原因,通過數據推動業務提升。

點擊下方鏈接可免費試用【指標管理平臺】:
https://www.dtstack.com/easydigit/dataindex?src=szsm

《行業指標體系白皮書》下載地址:https://www.dtstack.com/resources/1057?src=szsm

《數棧產品白皮書》下載地址:https://www.dtstack.com/resources/1004?src=szsm

《數據治理行業實踐白皮書》下載地址:https://www.dtstack.com/resources/1001?src=szsm

想瞭解或咨詢更多有關大數據產品、行業解決方案、客戶案例的朋友,瀏覽袋鼠雲官網:https://www.dtstack.com/?src=szbky


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • GreatSQL 優化技巧:將 MINUS 改寫為標量子查詢 前言 minus 指令運用在兩個 SQL 語句上,取兩個語句查詢結果集的差集。它先找出第一個 SQL 所產生的結果,然後看這些結果有沒有在第二個 SQL 的結果中,如果在,那這些數據就被去除,不會在最後的結果中出現,第二個 SQL 結果集 ...
  • 本文分享自華為雲社區《GeminiDB Cassandra介面新特性FLASHBACK發佈:任意時間點秒級閃回》,作者: GaussDB 資料庫。 技術背景 資料庫作為現代信息系統的核心組成部分,承擔著存儲、管理和檢索大量數據的重要任務。然而,在實際的業務運行過程中,由於各種原因,資料庫可能會出現異 ...
  • 本文首發於公眾號:Hunter後端 原文鏈接:MySQL面試必備一之索引 在面試過程中,會有一些關於 MySQL 索引相關的問題,以下總結了一些: MySQL 的數據存儲使用的是什麼索引結構 B+ 樹的結構是什麼樣子 什麼是複合索引、聚簇索引、覆蓋索引 什麼是最左匹配原則 數據 B+ 樹中是如何查詢 ...
  • 本文分享自華為雲社區《GaussDB(DWS)的cgroup、資源池、用戶的關係》,作者: nullptr_。 1. 前言 本文主要展示了DWS中cgroup、資源池、用戶之間的關係,從而對DWS的資源設置情況有個初步瞭解。 2. 相關對象創建腳本 gs_ssh -c "gs_cgroup -cS ...
  • 作者 | Shawn Gordon 翻譯 | Debra Chen 原文鏈接 | What the Heck is Apache SeaTunnel? 我在2023年初開始註意到Apache SeaTunnel的相關討論,一直低調地關註著。該項目始於2017年,最初名為Waterdrop,在Apac ...
  • 目錄一、環境搭建1、關閉防火牆firewalld,selinux2、每台主機安裝MySQL二、基於GTID的主從複製1、修改/etc/my.cnf文件2、檢查GTID狀態3、配置主從複製4、從庫設置三、部署MHA1、準備環境(所有節點)2、部署管理節點(可以部署在任何機器上)3、配置ssh信任4、啟 ...
  • 什麼是哈希桶 Redis中的哈希桶是一種數據結構,用於在Redis的哈希表(如字典結構)中存儲鍵值對。哈希桶是哈希表數組中的每個元素,可以視為一個容器或槽位,用於存放數據。在Redis中,當插入一個新的鍵值對時,會根據鍵的哈希值計算出一個索引,該索引指向特定的哈希桶。 每個哈希桶可以存儲多個鍵值對, ...
  • 在金融行業數字化轉型背景下,銀行等金融機構面臨著業務模式創新與數據應用的深度融合。業務上所需要的不再是單純的數據,而是數據背後映射的業務趨勢洞察,只有和業務相結合轉化為業務度量指標,經過數據分析處理呈現為報表進行展示,才能真正體現它們的價值。 但在需求轉化為指標的過程中,存在需求管理雜亂、登記維護難 ...
一周排行
    -Advertisement-
    Play Games
  • 隨著Aspire發佈preview5的發佈,Microsoft.Extensions.ServiceDiscovery隨之更新, 服務註冊發現這個屬於老掉牙的話題解決什麼問題就不贅述了,這裡主要講講Microsoft.Extensions.ServiceDiscovery(preview5)以及如何 ...
  • 概述:通過使用`SemaphoreSlim`,可以簡單而有效地限制非同步HTTP請求的併發量,確保在任何給定時間內不超過20個網頁同時下載。`ParallelOptions`不適用於非同步操作,但可考慮使用`Parallel.ForEach`,儘管在非同步場景中謹慎使用。 對於併發非同步 I/O 操作的數量 ...
  • 1.Linux上安裝Docken 伺服器系統版本以及內核版本:cat /etc/redhat-release 查看伺服器內核版本:uname -r 安裝依賴包:yum install -y yum-utils device-mapper-persistent-data lvm2 設置阿裡雲鏡像源:y ...
  • 概述:WPF界面綁定和渲染大量數據可能導致性能問題。通過啟用UI虛擬化、非同步載入和數據分頁,可以有效提高界面響應性能。以下是簡單示例演示這些優化方法。 在WPF中,當你嘗試綁定和渲染大量的數據項時,性能問題可能出現。以下是一些可能導致性能慢的原因以及優化方法: UI 虛擬化: WPF提供了虛擬化技術 ...
  • 引言 上一章節介紹了 TDD 的三大法則,今天我們講一下在單元測試中模擬對象的使用。 Fake Fake - Fake 是一個通用術語,可用於描述 stub或 mock 對象。 它是 stub 還是 mock 取決於使用它的上下文。 也就是說,Fake 可以是 stub 或 mock Mock - ...
  • 為.net6在CentOS7上面做準備,先在vmware虛擬機安裝CentOS 7.9 新建CentOS764位的系統 因為CentOS8不更新了,所以安裝7;簡單就一筆帶過了 選擇下載好的操作系統的iso文件,下載地址https://mirrors.aliyun.com/centos/7.9.20 ...
  • 經過前面幾篇的學習,我們瞭解到指令的大概分類,如:參數載入指令,該載入指令以 Ld 開頭,將參數載入到棧中,以便於後續執行操作命令。參數存儲指令,其指令以 St 開頭,將棧中的數據,存儲到指定的變數中,以方便後續使用。創建實例指令,其指令以 New 開頭,用於在運行時動態生成並初始化對象。方法調用指... ...
  • LiteDB 是一個輕量級的嵌入式 NoSQL 資料庫,其設計理念與 MongoDB 類似,但它是完全使用 C# 開發的,因此與 C# 應用程式的集成非常順暢。與 SQLite 相比,LiteDB 提供了 NoSQL(即鍵值對)的數據存儲方式,並且是一個開源且免費的項目。它適用於桌面、移動以及 We ...
  • 1 開源解析和拆分文檔 第三方的工具去對文件解析拆分,去將我們的文件內容給提取出來,並將我們的文檔內容去拆分成一個小的chunk。常見的PDF word mark down, JSON、HTML。都可以有很好的一些模塊去把這些文件去進行一個東西去提取。 優勢 支持豐富的文檔類型 每種文檔多樣化選擇 ...
  • OOM是什麼?英文全稱為 OutOfMemoryError(記憶體溢出錯誤)。當程式發生OOM時,如何去定位導致異常的代碼還是挺麻煩的。 要檢查OOM發生的原因,首先需要瞭解各種OOM情況下會報的異常信息。這樣能縮小排查範圍,再結合異常堆棧、heapDump文件、JVM分析工具和業務代碼來判斷具體是哪 ...