標簽評分:海量標簽如何進行系統治理?

来源:https://www.cnblogs.com/DTinsight/archive/2022/10/13/16787977.html
-Advertisement-
Play Games

本篇是「標簽畫像系列」的第四篇,此前我們已經介紹過了標簽畫像體系建設方法論、標簽體系設計與加工、標簽加工與落庫,這次我們來介紹一下「標簽評分」。 標簽評分是標簽治理的一個重要措施,通過給標簽打分,可清晰直觀的從各個維度評估標簽,掌握標簽真實使用情況,進行標簽持續優化,助力業務運營。同時,也能幫助數據 ...


本篇是「標簽畫像系列」的第四篇,此前我們已經介紹過了標簽畫像體系建設方法論、標簽體系設計與加工、標簽加工與落庫,這次我們來介紹一下「標簽評分」。

標簽評分是標簽治理的一個重要措施,通過給標簽打分,可清晰直觀的從各個維度評估標簽,掌握標簽真實使用情況,進行標簽持續優化,助力業務運營。同時,也能幫助數據團隊判斷哪些標簽更應該投入計算與存儲資源,合理規劃集群資源。

一、為何要使用標簽評分?

經過前期標簽體系設計、標簽加工,標簽終於可以上線,讓業務人員使用,發揮價值了!

隨著標簽上線一段時間後,我們開始關心每天占用計算資源與存儲空間,跑出來的上百個標簽,業務同學真的用到了多少,業務收益是否能覆蓋數據成本呢?標簽上線後,其質量怎麼樣,是否存在老規則不適用、需要持續優化的情況?

帶著這一問題,我們需要用一種方法來評估標簽上線後的使用情況,標識各個標簽的價值。參考電影評分、花唄評分等形式,我們決定也給標簽打個分、排個序,簡單明瞭。

二、標簽評分模型

標簽評分模型,經過考慮我們選取了5個維度作為評分入參:

file
標簽總評分= a * 標簽使用度評分 + b * 標簽關註度評分 + c * 標簽質量評分 + d * 標簽持續優化讀評分 + e * 標簽安全度評分

其中標簽使用度、標簽關註度、標簽質量、標簽持續優化度作為核心維度,標簽安全度可根據實際情況考慮是否納入。a、b、c、d、e是權重,總和為100%。

01 標簽使用度評分

標簽使用度,用以評估標簽被分析、外部系統的使用情況。

在袋鼠雲標簽產品中,標簽有這幾種使用場景:

• 標簽引用:如原子標簽被衍生標簽應用、衍生標簽被組合標簽引用等,基於該場景,計算“標簽引用次數”指標。

• 標簽分析:標簽在標簽圈群、群組畫像、群組對比、顯著性分析等畫像分析功能中被分析的情況,計算“標簽分析次數”指標。

• 標簽調用:標簽通過數據API被外部應用查詢的次數,計算“標簽調用次數”指標。

基於以上3個指標,我們首先採用Sigmoid函數將指標轉化為評分,再將各個指標的評分加權彙總成標簽使用度評分。

file
file

02 標簽關註度評分

標簽關註度,用以評估被搜索、查看、收藏的情況。

袋鼠雲標簽產品中,標簽關註度與以下場景有關:

• 標簽搜索:標簽在標簽市場被用戶搜索的情況,計算“標簽搜素次數”指標。

• 標簽查看:標簽被點擊查看基礎信息、分析頁面等的次數,計算“標簽查看次數”指標

• 標簽收藏:收藏該標簽的用戶數,計算“收藏用戶數”指標

以上3個指標可反映標簽的關註熱度,我們依然採用Sigmoid函數將指標轉化為評分,再將各個指標的評分加權彙總成標簽關註度評分。

file

03 標簽質量評分

標簽質量,用以評估用戶被打標情況,反映標簽規則的合理性。

當我們定義了標簽和標簽值,經過計算之後,標簽值打在用戶身上的很少,那說明我們的規則執行不合理。比如我們定義了“活躍度”這個標簽,分為“高活躍、中活躍、低活躍度”等,但真實被打上的這個標簽的用戶,低於70%,還有很大一部分比例是空值,未打上該標簽,說明我們制定的標簽值規則有漏洞,需要完善。

系統將計算每個標簽的“標簽覆蓋度”,將覆蓋度歸一化為分數,轉化成評分。

file

04 持續優化度評分

持續優化度,用以評估標簽上線後,是否後續再去優化該標簽。

在客戶的生命周期中,不斷有新用戶流入、沉默用戶流失。公司戰略調整、產品發佈等都會影響客戶行為,這些變化我們需要以數據的方式呈現,所以我們需要不斷根據業務調整、客戶變化調整我們的標簽策略,以追求可通過標簽直接地、迅速地反映客戶情況,指導業務運營。

持續優化度,我們通過“標簽優化次數”指標來評估,指標簽上線後標簽被編輯再次發佈的的次數。我們同樣採用Sigmoid函數將指標轉化為評分。
file

05 安全度評分

標簽安全度,不能反映標簽的熱度,但也將其作為了標簽評分的一個維度,可根據企業情況考慮是否納入。

在袋鼠雲標簽產品中,標簽安全相關的策略有:

• 標簽的可見度:標簽可編輯、可查看的用戶範圍

• 標簽使用是否需要申請授權:標簽發佈後,其他人使用該標簽,是否需要申請審批

• 標簽是否進行行級許可權控制:上面我們控制了標簽的列許可權,行級許可權反映該標簽是否設置了行級許可權

• 標簽是否脫敏:標簽是否進行脫敏

根據標簽的安全度策略配置情況,我們也採用評分的方式來評估。

file

基於以上5個維度的評分,我們根據前面提的公式加權彙總,得到總評分。

file

三、標簽評分的應用

基於標簽評分,為了更加直觀的讓標簽管理員、業務人員查看熱門標簽、沉默標簽等,通過排行榜的方式呈現:

01 熱門標簽排行榜

基於標簽的使用度、關註度、持續優化度3個角度來計算標簽的熱門評分,展示TOP N的熱門標簽。

file

02 沉默標簽排行榜

熱門的標簽的反向排序便是沉默標簽,沉默標簽說明這些標簽使用率很低,可考慮定期下線,節省集群資源。

file

03 綜合排行榜

綜合排行榜便根據標簽的綜合評分進行排序,從標簽使用度、關註度、持續優化度、質量、安全等幾個維度評估,全面評估標簽。

file

04 標簽使用度、關註度、持續有優化度、質量、安全分榜單排行

用戶可根據自己更加關註的維度,查看標簽使用度、關註度、持續優化度、質量、安全各個子維度的排行榜。同時,可查看各個標簽的具體指標,如使用度維度,可查看各個標簽的當前引用次數、分析次數、調用次數,針對具體指標具體分析,滿足不同的標簽分析場景。

file

標簽評分模型上線後,我們需要根據實際情況調整不同維度的權重,符合自身實際情況。當經過一段時間的應用,大家認可這套評估邏輯之後,便可以將靜態化的評分展示轉化為動態化的告警、自動化治理等,可設置標簽質量告警、評分告警,自動通知標簽管理員、責任人等。

以上便是在產品中應用的評分邏輯,希望對大家有所幫助,也可提出不同思路優化評分模型,達到更好的標簽治理效果。

袋鼠雲開源框架釘釘技術交流qun(30537511),歡迎對大數據開源項目有興趣的同學加入交流最新技術信息,開源項目庫地址:https://github.com/DTStack/Taier


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 最近在配置Linux系統的ntp校時,涉及到開機啟動問題,總結一下 兩個環境: CentOS release 6.5 (Final) CentOS Linux release 7.9.2009 (Core) centos6.5 設置開機啟動使用chkconfig方式 chkconfig 是設置服務在 ...
  • nginx訪問控制,用戶認證,配置https,zabbix監控nginx狀態頁面 nginx訪問控制 用於location段 allow:設定允許哪台或哪些主機訪問,多個參數間用空格隔開 deny: 設定禁止哪台或哪些主機訪問,多個參數間用空格隔開 //測試 [root@nginx ~]# cd / ...
  • 1、進程結構特征: >>進程式控制制塊的作用: 動態性 進程最基本的特征是動態性 進程的生命周期 進程由創建而產生,由調度而執行,由撤銷而消亡的過程 併發性 獨立性 非同步性 2、進程的三種基本狀態 就緒狀態 執行狀態 阻塞狀態 ...
  • 一、CentOS 7.9 安裝 elasticsearch-7.8.1 地址 https://www.elastic.co https://www.elastic.co/cn/downloads/past-releases https://github.com/elastic https://git ...
  • 邏輯存儲結構 邏輯存儲結構圖 表空間 表空間文件在Linux下存放在 /var/lib/mysql文件中的 xxx.ibd 文件就是表空間文件 表空間文件用來存儲,記錄,索引等數據。 段 段分為,數據段(Leaf node segment) ,索引段(Non-leaf node segment),回 ...
  • 一、結論 dba_segments指定表名查詢到的段大小包含索引、約束、表欄位數據(包含LOB欄位)(1)表(不包含LOB欄位)創建預設分配2個簇,1個簇用於存放表結構及欄位數據,1個簇用於存放cluster類型的索引(2)創建索引預設會分配2個簇,用於存放normal索引數據(3)創建約束不會額外 ...
  • 上一篇我們講到Mysql索引底層邏輯,為了瞭解後續sql知識,我們還是需要先學習一下相關“工具”得使用 一、Explain介紹 EXPLAIN是MySQl必不可少的一個分析工具,主要用來測試sql語句的性能及對sql語句的優化,或者說模擬優化器執行SQL語句。在select語句之前增加explain ...
  • 首發微信公眾號:SQL資料庫運維 原文鏈接:https://mp.weixin.qq.com/s?__biz=MzI1NTQyNzg3MQ==&mid=2247485212&idx=1&sn=450e9e94fa709b5eeff0de371c62072b&chksm=ea37536cdd40da7 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...