不懂數據分析的 growth hacker 不是好運營。近日我想要統計我家產品 [xue.cn](https://xue.cn/) 用戶的編程自學行為的頻次,且在不給技術開發部門帶來任何新需求的情況下自力更生。那麼,我該如何定義並統計這個數據指標呢? ...
不懂數據分析的 growth hacker 不是好運營。近日我想要統計我家產品 xue.cn 用戶的編程自學行為的頻次,且在不給技術開發部門帶來任何新需求的情況下自力更生。那麼,我該如何定義並統計這個數據指標呢?
1、定義學習
這個行為。
某些行為是單個事件,某些行為是多種事件的組合。
xue.cn 用戶的編程自學行為包括:完成某書一個章節的閱讀、完成一道習題、獲得一個成就、提交一次評論,完成一次心得打卡等,未來還會有更多。不過,雖然我們有聊天室,但因為使用的是 gitter ,所以數據採集並不容易,這個行為就暫忽略。
以上編程自學行為事件數據分佈在產品資料庫的多個表中。
2、日誌數據的初步篩選。
通過在多個表中聯合查詢 user_id,事件發生日期得到每個 user_id 有學習行為的日期數據,我的 sql 語句是這麼寫的:
with data_study as( -- 獲取有學習行為的用戶名單及學習事件發生時間
select
date(created_at) as time,
user_id
from user_comment
union all
select
date(created_at) as time,
user_id
from user_activity
union all
select
date(created_at) as time,
user_id
from study_card
)
select -- 獲取學慣用戶的學習日期數據
user_id,
min(time) -- 某天有多次學習行為,僅取一條即可
from data_study
group by user_id,time
order by user_id
3、統計的基準線
游客體驗功能是近期剛上線的。已有的學習行為數據,屬於較早版本,那時用戶產生學習行為的前提是至少完成一次時長兌換或小額RMB充值,所以本次我以用戶首次付費的日期作為統計的基準線。
從日誌數據篩選獲取用戶的首次付費日期數據,我的 sql 語句是這麼寫的:
with data as( -- 獲取用戶付費日期
select
user_id,
used_at as 付費日期
from
free_coupons
where
user_id is not null
union all
select
user_id,
created_at as 付費日期
from
rmb_order
where order_status = 'PAY_SUCCESS'
)
select -- 篩選付費用戶的首次付費日期
user_id,
date(min(付費日期)) as reg_date
from
data
group by
user_id
4、統計與分析
至此,有用的數據已從日誌中初步篩選統計得到。接下來,用學習日期 - 首次付費日期
得到血虛行為發生於首次付費後的第N天
。其後統計:
- A:首次付費後的第N天仍有學習行為的用戶數。
- B:首次付費後的第N周(取值0至8),學習天數達到M天(取值1至7)的的用戶數。
A可作為付費版留存率數據。B則是學習頻次分佈數據。
因為我對複雜的 sql 運算還不熟練,所以實操時把第 2 和 3 步的結果從 grafana
導出為 csv 文件,然後採用excel
,部分指標則採用 python pandas
完成演算。
5、精細選擇用戶群體
雖然當前 xue.cn 功能已經完善很多,其實我們是上半年剛立項,這半年多持續開發,某些學習功能在早期並未提供。於是,為了獲取更可信、有效的數據,需要剔除早期批次的用戶。
具體來說,根據用戶首次付費日期,按月拆分用戶批次,再拆分統計學習行為數據較為完善的近期批次數據。
6、小結
以上就是我完成 xue.cn 用戶學習頻次指標的指定與統計分析的實操過程。這次數據洞察探索,幫我發現好幾處增長線索。
筆記的第4、5步對於運營、市場人員都是常用操作,我就不詳細貼步驟或演算方式啦。而前面的第2、3步,我是通過 grafana 直接用查詢語句與我們家產品的資料庫交互。之前我寫過一篇 grafana 的上手筆記,它還是相當簡易的。——具體到我的本次需求來說,是否採用 grafana 不關鍵,grafana 只是一種工具,關鍵是要能與產品資料庫交互拿到原始數據。
筆記雖然解決的是編程自學行為,是我家產品為用戶所提供價值的核心表現,但思路也可借鑒用於其它產品、其它行為頻次的統計。如果對你有幫助或啟發,那就點贊或留言告訴我,鼓勵我分享更多筆記吧!