終於有人把不同標簽的加工內容與落庫講明白了丨DTVision分析洞察篇

来源:https://www.cnblogs.com/DTinsight/archive/2022/09/08/16669810.html
-Advertisement-
Play Games

上一篇文章詳細給大家介紹了標簽的設計與加工,在標簽生命周期流程中,標簽體系設計完成後,便進入標簽加工與上線運行階段,一般來說數據開發團隊會主導此過程,但我們需要關心以下幾個問題: ·標簽如何快速創建和實現標簽邏輯的線上化管理 ·業務人員怎麼參與到標簽建設流程中 ·百萬級別的標簽如何落表 一、加工方式 ...


上一篇文章詳細給大家介紹了標簽的設計與加工,在標簽生命周期流程中,標簽體系設計完成後,便進入標簽加工與上線運行階段,一般來說數據開發團隊會主導此過程,但我們需要關心以下幾個問題:

·標簽如何快速創建和實現標簽邏輯的線上化管理

·業務人員怎麼參與到標簽建設流程中

·百萬級別的標簽如何落表

一、加工方式:傳統VS線上

當企業無標簽系統時,一般由數據開發在離線數倉中完成標簽的加工和運行,運營或市場同學需要某個標簽需要通過產品經理向數據開發提需求,這個過程存在很多問題:

· 標簽資產不可見:標簽是存在於表裡的欄位,業務人員不清楚現在有多少標簽;標簽的加工邏輯與業務邏輯是否一致只能查看SQL代碼;新上線的標簽只有部分人知道,標簽價值散髮慢等

· 標簽資產不可管:加工好的標簽,有多少在真正被使用,有多少沒人用,完全黑盒,不用的標簽每天繼續運行浪費計算與存儲資源

· 標簽加工效率低:當業務人員需要某個簡單標簽時,也需要提交需求給數據開發,加工到上線基本需要2-3天流程

基於以上這些問題,標簽的線上化創建與管理顯得尤為重要,線上化主要包含以下內容:

· 標簽線上化加工

· 標簽線上化管理

· 標簽線上化更新

其讓標簽加工過程以及有哪些標簽變得透明,業務人員也可以參與進標簽建設的流程中。

二、各類型標簽加工

標簽類型的區分在此處便不再贅述了。在袋鼠雲智能標簽產品——「客戶數據洞察」中,我們按照標簽加工邏輯,將標簽分為以下類型,各類型標簽的加工層次如下圖:

file
接下來,我們來看看具體各類型標簽的加工。

1、原子標簽

該類標簽由數據開發在數倉加工中完成,一般基於數倉DWD、DWS層的明細表與彙總表加工而來,處理邏輯較為複雜,同時維表中的一些欄位也可以作為原子標簽。這類標簽一般包含哪些內容呢?

● 建立用戶的標簽體系:

用戶維表中的用戶基礎屬性:性別、年齡、置業、會員等級、手機號、身份證號等信息,一般用戶系統會有該類信息。

● 基於交易表加工的交易指標

最近30天購買次數、最近30天交易金額、最近7天購買次數、最近7天交易金額。這部分標簽也建議放在數倉中實現,有以下幾點原因:

·因為其本身也是一個指標,除後續作為標簽進行畫像分析外,也常用於在數據門戶、BI報表中分析,可作為對外服務的指標放在ADS層中,並且市場上也會有專門指標管理的產品,來實現該指標的加工

· 這類標簽若屬於同一個統計維度(如都計算最近7天),數據開發可以在一個SQL片段中計算多個標簽,節約計算成本

· 若業務人員直接基於DWS層的輕度彙總表(每天彙總的交易次數、交易金額)、或DWD層的明細表(每條交易記錄一行數據)來加工最近30天購買次數這個標簽,需要針對對應的欄位進行求和,稍微涉及到一點SQL理解,有一些難度

故該類使用場景多、對於業務人員有計算難度,可在數倉中合併加工降低成本的標簽,可在數倉中作為原子標簽加工。

● 基於行為表加工的行為指標

可經過數倉加工成如下表格式,加工行為類的標簽,便於後續業務人員去衍生。

file
原子標簽在數倉加工好後,可導入到標簽系統中,進行線上化管理。

2、規則標簽

該類標簽配置可由數據開發或數據分析師來完成,可基於單張表或關聯表中的欄位進行線上化加工,可設置統計周期、數據過濾條件,其內置常用的聚合函數(求和、均值、計數、去重技術、最大值、最小值等)、操作符(大於、小於、區間、有值、無值、包含等),通過規則化的線上配置完成標簽加工。配置界面如以下:

file

根據上面的描述,該類標簽可以將指標的類型的標簽在數倉或指標平臺加工好,導入至標簽平臺作為原子標簽,再基於這些原子標簽取操作符更好。但在實際場景中,基於不同考慮,有的客戶也會在標簽平臺直接加工此類型標簽,如以下場景:

· 數倉無對應的基礎標簽,但業務人員很著急需要該標簽某標簽,走正常的排期、數倉加工、測試,上線到使用基本2天以上了,基於這種情況可以通過該類標簽在標簽系統直接配置,5分鐘即可配置、更新完成,業務人員便可以使用了

· 客戶方想把標簽的加工邏輯線上化呈現、方便查找與追溯,通過可視化的方式線上配置

3、SQL標簽

SQL標簽主要由數據開發、數據分析師使用,主要解決通過規則標簽無法表達的邏輯,如用到排序函數、字元轉化函數、子查詢等內容,可以通過標準SQL語法靈活完成標簽加工。

file

4、模型標簽

模型標簽可由業務人員創建。系統集成常見的用戶分層RFM模型,用戶營銷AIPL模型、用戶生命周期模型,用戶輸入對應的指標值區間,便可定義對應的標簽值。

以RFM模型舉例,基於該模型生成“客戶價值”標簽。可基於最近一次購買時間、最近一年消費金額、最近一年消費頻率等幾個原子標簽,進行不同區間的取值,給用戶打上“重要價值客戶”、“重要發展客戶”、“重要發展客戶”、“重要輓留客戶”等。

5、組合標簽

模型標簽可由業務人員創建。基於已生成的原子、規則、SQL、模型標簽等,進行規則衍生,生成組合標簽。如組合標簽“高收入低購買”用戶,可通過“收入水平”衍生標簽,與“最近3年消費金額區間”衍生標簽組合加工,如下圖:

file

6、自定義標簽

自定義標簽可由業務人員創建。手動為某些用戶打上標簽,該類標簽手動導入,常見場景如下:

· 客服人員和用戶ID為1001的用戶溝通後,給該用戶打上”性格:溫和、有耐心”標簽

· 如監管機構提供的一些信貸黑名單用戶,該類標簽可直接導入進標簽系統,為用戶打上新的標簽

7、演算法標簽

演算法標簽由演算法開發同學創建,該類標簽可在演算法平臺完成,將算好的結果存儲至Hive表中,標簽系統可獲取演算法標簽的元數據,拿到演算法標簽的中文名、英文名,註冊至標簽系統中,在標簽系統中完成演算法標簽的標簽信息查看、標簽查詢等。

如利用機器學習模型加工預測類的演算法標簽,如根據用戶的特征,預測哪些用戶是否即將流失,流失的概率等,從而在用戶流失之前做一些措施來輓留。

8、實時標簽

實時標簽由數據開發同學創建,該類標簽可在流計算平臺完成,實時行為數據打入到kafka中,用FlinkSQL消費,再輸出到Kafka、或數據表中,下游直接訂閱或查詢。

三、標簽更新與落庫

標簽配置完成後,便需要進行標簽更新與落庫,即將標簽打到對象(如用戶)的身上,這樣業務同學就可以根據標簽圈選目標群組啦。在此處我們需要說明以下幾個問題:

1、技術選型

首先說明一下標簽加工的技術選型,在袋鼠雲智能標簽產品「客戶數據洞察」中我們用的 Trino(Presto)高性能分析引擎讀寫 Hive 表的方式,標簽表存儲在Hive中。主要有以下幾點原因:

· 隨著國家對數字化轉型的支持,從金融、政府到小企業都在建設數倉,進行數字化應用,在這個過程中,大多採用的是分散式的Hadoop系統作為計算存儲引擎(不論是開源Hadoop,還是發行版的CDH、TDH、FusionInsight等),Hive表便是最常用的存儲形式。標簽是基於數倉模型搭建出來的,與數倉用同一種存儲可以節省存儲資源以及不用兩種存儲之間進行數據交換

· 而用Trino(Presto)的原因是其首先是一個分析型引擎,讀寫速度均可;其次是其SQL語法完備、函數豐富、靈活,可以處理絕大多是業務場景的需求;並且支持跨庫同時讀取,如Trino可以同時取Hive與MySQL的數據進行數據處理

但沒有一種完美的技術選型,只能貼合企業自己的業務,選取最合適的技術。在這裡我們就不分析各種標簽的技術選型了。

2、落表方式

上面我們介紹了有各種類型的標簽,那麼標簽如何落表呢,大家看下麵這個圖:

file
在業務場景中,存在有的標簽需要每天更新,如最近30天消費金額區間;而有的標簽周更新、月更新即可,更新頻率不高,如活動類型偏好。

這樣,便需要支持每個標簽有不同的更新頻率,但hive2.x版本不支持單列更新,為瞭解決該問題,我們將每個標簽先在臨時表存一下(就包含2列,1列用戶ID,1列標簽)該臨時表即建即用即刪,每個標簽只有一個臨時表(非分區表),每個標簽占用的占用不大,又能解決標簽更新周期不一致的問題。

但如果後續的標簽圈群、群組畫像分析,我們基於這些單獨表的去做聯合查詢,那效率會很低。

因為每個用營銷活動,我們需要5個標簽圈選出來一批人群,並查詢出這群人的性別、年齡、月消費、會員等級、是否活躍用戶等信息,加起來用到了10個標簽左右,會涉及到10個表的join操作,客戶集群資源不豐裕的情況,查詢速度慢。

所有我們便將多個臨時表通過聚合任務,將所有的臨時表join到一張標簽大寬表中,進行固化,這張表是一個分區表,可以每天存儲一份全量用戶標簽信息,當然可以自行設置該表的更新周期與保存多少個分區。

這樣,業務人員進行圈群和分析就可以一張表查詢數據,查詢效率大大提升。通過標簽跑批時間的消耗換取業務的查詢速度。

但會遇到有些企業標簽數量在500-1000個之間,用戶量在千萬、億級別,這樣的話,用一張表去存所有的標簽會遇到標簽大寬表跑批時間過長或跑不出來的情況,所以便需要分表,可以根據標簽數量分表。

綜上,以上加工存儲方式,有缺點的地方便是大寬表加工時,需要join多個臨時表,消耗記憶體,跑批時間長。

四、寫在最後的話

為解決該問題,袋鼠雲智能標簽產品「客戶數據洞察」在引入數據湖Iceberg進行標簽表的存儲,其可以實現單列更新,每個標簽可以單獨更新,這樣,便不需要那些臨時表了,解決加工效率的問題。

標簽加工與落庫是標簽體系完成後重要的步驟,本篇文章向大家分享了標簽加工與落庫過程中需要關註的註意點,講述了不同標簽的加工內容以及標簽的更新與落庫等內容。

歡迎大家留言與我們討論,也可以分享下自己見到的一些好的標簽加工方式,我們共同進步。

袋鼠雲開源框架釘釘技術交流qun(30537511),歡迎對大數據開源項目有興趣的同學加入交流最新技術信息,開源項目庫地址:https://github.com/DTStack


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 摘要:分散式消息服務Kafka版是一款基於開源社區版Kafka提供的消息隊列服務,向用戶提供計算、存儲和帶寬資源獨占式的Kafka實例。 本文分享自華為雲社區《【雲圖說】第254期 初識分散式消息服務Kafka版》,作者: 閱識風雲。 分散式消息服務Kafka版是一款基於開源社區版Kafka提供的消 ...
  • 語法 {% 開始標簽 %} .... {% 結束標簽%} if標簽 例:{% if ... %} {% elif %} {% else %} {% endif %} if語句支持 and 、or、==、>、<、!=、<=、>=、in、not in、is、is not判斷。 for標簽 # for 標 ...
  • 一般常用寫Bimap保存會報錯GDI+會報錯的寫法 1 public void GetImageLocal() 2 { 3 int num = 9; 4 int initWidth = 256; 5 int initHeight = 256; 6 7 for (var c = '\uff41'; c ...
  • 什麼是 YARP YARP (另一個反向代理) 設計為一個庫,提供核心代理功能,你可以根據應用程式的特定需求進行自定義。 YARP 是使用 .NET的基礎架構構建在 .NET上的。YARP 的主要不同之處在於,它被設計成可以通過 .NET 代碼輕鬆定製和調整,以滿足每個部署場景的特定需求。 同時,Y ...
  • 1.konga核心對象 Kong 的四大核心對象:upstream,target,service,route。下麵分別說: (1)upstream,字面意思上游,實際項目理解是對某一個服務的一個或者多個請求地址的抽象入口,新建upstream可配置基本信息,被動/主動健康檢查。 (2)trarget ...
  • 1.俄羅斯延長接受簡化版認證流程的日期 2022年8月31日,俄羅斯聯邦政府發佈了第1255號法令,主題為“關於第353號法令附錄18的修正”,主要內容是俄羅斯延長接受“簡化版認證流程”的日期,從2022年9月1日延長至2023年9月1日為止。該法令發佈後立即生效。 “簡化版認證流程”的相關細則可以 ...
  • 用戶管理 用戶組 用戶角色 用戶 模板管理 模板組 模板 模板的監控項的參數也可以copy來 加入觸發器 導出模板查看格式 ...
  • 2022-09-08 分組函數 1、按照某個欄位分組並查詢(group by) 以"students"表(id,name,age,gender,is_del,height)為例: select gender from students group by gender; 說明:格式:select 欄位 ...
一周排行
    -Advertisement-
    Play Games
  • 經常看到有群友調侃“為什麼搞Java的總在學習JVM調優?那是因為Java爛!我們.NET就不需要搞這些!”真的是這樣嗎?今天我就用一個案例來分析一下。 昨天,一位學生問了我一個問題:他建了一個預設的ASP.NET Core Web API的項目,也就是那個WeatherForecast的預設項目模 ...
  • 很多軟體工程師都認為MD5是一種加密演算法,然而這種觀點是不對的。作為一個 1992 年第一次被公開的演算法,到今天為止已經被髮現了一些致命的漏洞。本文討論MD5在密碼保存方面的一些問題。 ...
  • Maven可以使我們在構建項目時需要用到很多第三方類jar包,如下一些常用jar包 而maven的出現可以讓我們避免手動導入jar包出現的某些問題,它可以自動下載那須所需要的jar包 我們只需要在創建的maven項目自動生成的pom.xml中輸入如下代碼 <dependencies> <!--ser ...
  • 來源:https://developer.aliyun.com/article/694020 非同步調用幾乎是處理高併發Web應用性能問題的萬金油,那麼什麼是“非同步調用”? “非同步調用”對應的是“同步調用”,同步調用指程式按照定義順序依次執行,每一行程式都必須等待上一行程式執行完成之後才能執行;非同步調 ...
  • 1.面向對象 面向對象編程是在面向過程編程的基礎上發展來的,它比面向過程編程具有更強的靈活性和擴展性,所以可以先瞭解下什麼是面向過程編程: 面向過程編程的核心是過程,就是分析出實現需求所需要的步驟,通過函數一步一步實現這些步驟,接著依次調用即可,再簡單理解就是程式 從上到下一步步執行,從頭到尾的解決 ...
  • 10瓶毒藥其中只有一瓶有毒至少需要幾隻老鼠可以找到有毒的那瓶 身似浮雲,心如飛絮,氣若游絲。 用二分查找和二進位位運算的思想都可以把死亡的老鼠降到最低。 其中,二進位位運算就是每一隻老鼠代表一個二進位0或1,0就代表老鼠存活,1代表老鼠死亡;根據數學運算 23 = 8、24 = 16,那麼至少需要四 ...
  • 一、Kafka存在哪些方面的優勢 1. 多生產者 可以無縫地支持多個生產者,不管客戶端在使用單個主題還是多個主題。 2. 多消費者 支持多個消費者從一個單獨的消息流上讀取數據,而且消費者之間互不影響。 3. 基於磁碟的數據存儲 支持消費者非實時地讀取消息,由於消息被提交到磁碟,根據設置的規則進行保存 ...
  • 大家好,我是陶朱公Boy。 前言 上一篇文章《關於狀態機的技術選型,最後一個真心好》我跟大家聊了一下關於”狀態機“的話題。從眾多技術選型中我也推薦了一款阿裡開源的狀態機—“cola-statemachine”。 於是就有小伙伴私信我,自己項目也考慮引入這款狀態機,但網上資料實在太少,能不能系統的介紹 ...
  • 使用腳本自動跑實驗(Ubuntu),將實驗結果記錄在文件中,併在實驗結束之後將結果通過郵件發送到郵箱,最後在windows端自動解析成excel表格。 ...
  • 話說在前面,我不是小黑子~ 我是超級大黑子😏 表弟大周末的跑來我家,沒事幹天天騷擾我,搞得我都不能跟小姐姐好好聊天了,於是為了打發表弟,我決定用Python做一個小游戲來消耗一下他的精力,我思來想去,決定把他變成小黑子,於是做了一個坤坤打籃球的游戲,沒想到他還挺愛玩的~ 終於解放了,於是我把游戲寫 ...