本篇是「標簽畫像系列」的第四篇,此前我們已經介紹過了標簽畫像體系建設方法論、標簽體系設計與加工、標簽加工與落庫,這次我們來介紹一下「標簽評分」。 標簽評分是標簽治理的一個重要措施,通過給標簽打分,可清晰直觀的從各個維度評估標簽,掌握標簽真實使用情況,進行標簽持續優化,助力業務運營。同時,也能幫助數據 ...
本篇是「標簽畫像系列」的第四篇,此前我們已經介紹過了標簽畫像體系建設方法論、標簽體系設計與加工、標簽加工與落庫,這次我們來介紹一下「標簽評分」。
標簽評分是標簽治理的一個重要措施,通過給標簽打分,可清晰直觀的從各個維度評估標簽,掌握標簽真實使用情況,進行標簽持續優化,助力業務運營。同時,也能幫助數據團隊判斷哪些標簽更應該投入計算與存儲資源,合理規劃集群資源。
一、為何要使用標簽評分?
經過前期標簽體系設計、標簽加工,標簽終於可以上線,讓業務人員使用,發揮價值了!
隨著標簽上線一段時間後,我們開始關心每天占用計算資源與存儲空間,跑出來的上百個標簽,業務同學真的用到了多少,業務收益是否能覆蓋數據成本呢?標簽上線後,其質量怎麼樣,是否存在老規則不適用、需要持續優化的情況?
帶著這一問題,我們需要用一種方法來評估標簽上線後的使用情況,標識各個標簽的價值。參考電影評分、花唄評分等形式,我們決定也給標簽打個分、排個序,簡單明瞭。
二、標簽評分模型
標簽評分模型,經過考慮我們選取了5個維度作為評分入參:
標簽總評分= a * 標簽使用度評分 + b * 標簽關註度評分 + c * 標簽質量評分 + d * 標簽持續優化讀評分 + e * 標簽安全度評分
其中標簽使用度、標簽關註度、標簽質量、標簽持續優化度作為核心維度,標簽安全度可根據實際情況考慮是否納入。a、b、c、d、e是權重,總和為100%。
01 標簽使用度評分
標簽使用度,用以評估標簽被分析、外部系統的使用情況。
在袋鼠雲標簽產品中,標簽有這幾種使用場景:
• 標簽引用:如原子標簽被衍生標簽應用、衍生標簽被組合標簽引用等,基於該場景,計算“標簽引用次數”指標。
• 標簽分析:標簽在標簽圈群、群組畫像、群組對比、顯著性分析等畫像分析功能中被分析的情況,計算“標簽分析次數”指標。
• 標簽調用:標簽通過數據API被外部應用查詢的次數,計算“標簽調用次數”指標。
基於以上3個指標,我們首先採用Sigmoid函數將指標轉化為評分,再將各個指標的評分加權彙總成標簽使用度評分。
02 標簽關註度評分
標簽關註度,用以評估被搜索、查看、收藏的情況。
袋鼠雲標簽產品中,標簽關註度與以下場景有關:
• 標簽搜索:標簽在標簽市場被用戶搜索的情況,計算“標簽搜素次數”指標。
• 標簽查看:標簽被點擊查看基礎信息、分析頁面等的次數,計算“標簽查看次數”指標
• 標簽收藏:收藏該標簽的用戶數,計算“收藏用戶數”指標
以上3個指標可反映標簽的關註熱度,我們依然採用Sigmoid函數將指標轉化為評分,再將各個指標的評分加權彙總成標簽關註度評分。
03 標簽質量評分
標簽質量,用以評估用戶被打標情況,反映標簽規則的合理性。
當我們定義了標簽和標簽值,經過計算之後,標簽值打在用戶身上的很少,那說明我們的規則執行不合理。比如我們定義了“活躍度”這個標簽,分為“高活躍、中活躍、低活躍度”等,但真實被打上的這個標簽的用戶,低於70%,還有很大一部分比例是空值,未打上該標簽,說明我們制定的標簽值規則有漏洞,需要完善。
系統將計算每個標簽的“標簽覆蓋度”,將覆蓋度歸一化為分數,轉化成評分。
04 持續優化度評分
持續優化度,用以評估標簽上線後,是否後續再去優化該標簽。
在客戶的生命周期中,不斷有新用戶流入、沉默用戶流失。公司戰略調整、產品發佈等都會影響客戶行為,這些變化我們需要以數據的方式呈現,所以我們需要不斷根據業務調整、客戶變化調整我們的標簽策略,以追求可通過標簽直接地、迅速地反映客戶情況,指導業務運營。
持續優化度,我們通過“標簽優化次數”指標來評估,指標簽上線後標簽被編輯再次發佈的的次數。我們同樣採用Sigmoid函數將指標轉化為評分。
05 安全度評分
標簽安全度,不能反映標簽的熱度,但也將其作為了標簽評分的一個維度,可根據企業情況考慮是否納入。
在袋鼠雲標簽產品中,標簽安全相關的策略有:
• 標簽的可見度:標簽可編輯、可查看的用戶範圍
• 標簽使用是否需要申請授權:標簽發佈後,其他人使用該標簽,是否需要申請審批
• 標簽是否進行行級許可權控制:上面我們控制了標簽的列許可權,行級許可權反映該標簽是否設置了行級許可權
• 標簽是否脫敏:標簽是否進行脫敏
根據標簽的安全度策略配置情況,我們也採用評分的方式來評估。
基於以上5個維度的評分,我們根據前面提的公式加權彙總,得到總評分。
三、標簽評分的應用
基於標簽評分,為了更加直觀的讓標簽管理員、業務人員查看熱門標簽、沉默標簽等,通過排行榜的方式呈現:
01 熱門標簽排行榜
基於標簽的使用度、關註度、持續優化度3個角度來計算標簽的熱門評分,展示TOP N的熱門標簽。
02 沉默標簽排行榜
熱門的標簽的反向排序便是沉默標簽,沉默標簽說明這些標簽使用率很低,可考慮定期下線,節省集群資源。
03 綜合排行榜
綜合排行榜便根據標簽的綜合評分進行排序,從標簽使用度、關註度、持續優化度、質量、安全等幾個維度評估,全面評估標簽。
04 標簽使用度、關註度、持續有優化度、質量、安全分榜單排行
用戶可根據自己更加關註的維度,查看標簽使用度、關註度、持續優化度、質量、安全各個子維度的排行榜。同時,可查看各個標簽的具體指標,如使用度維度,可查看各個標簽的當前引用次數、分析次數、調用次數,針對具體指標具體分析,滿足不同的標簽分析場景。
標簽評分模型上線後,我們需要根據實際情況調整不同維度的權重,符合自身實際情況。當經過一段時間的應用,大家認可這套評估邏輯之後,便可以將靜態化的評分展示轉化為動態化的告警、自動化治理等,可設置標簽質量告警、評分告警,自動通知標簽管理員、責任人等。
以上便是在產品中應用的評分邏輯,希望對大家有所幫助,也可提出不同思路優化評分模型,達到更好的標簽治理效果。
袋鼠雲開源框架釘釘技術交流qun(30537511),歡迎對大數據開源項目有興趣的同學加入交流最新技術信息,開源項目庫地址:https://github.com/DTStack/Taier