中台出現的背景 從技術上來看,隨著業務的發展,很多企業在前期搭建了很多的IT系統,系統間像煙囪一樣相互獨立。在面對著越來越複雜的業務,越來越多的數據,企業IT在擴展舊系統上出現了一定的局限,從而產生不斷的重覆建設的問題,企業需要制定數字轉型改革的戰略,來解決複雜業務系統之間的解耦問題,從而降低產品各 ...
中台出現的背景
從技術上來看,隨著業務的發展,很多企業在前期搭建了很多的IT系統,系統間像煙囪一樣相互獨立。在面對著越來越複雜的業務,越來越多的數據,企業IT在擴展舊系統上出現了一定的局限,從而產生不斷的重覆建設的問題,企業需要制定數字轉型改革的戰略,來解決複雜業務系統之間的解耦問題,從而降低產品各個模塊的依賴,提高復用程度。
從管理架構上來看,隨著公司業務的不斷壯大,每個團隊都需要技術,產品,市場等方面的基礎支持,各個團隊開展業務時需要的支持有很大程度上的重覆,但是由於從制度上每個業務部門都是進行獨立考核的,導致業務部門往往從自身利益出發,互相之間爭奪資源,隔閡不斷上升,資源無法高效利用。
企業在這樣的背景下,需要尋求可以打破這樣困境的方法。在2015年,在業務的快速擴張,阿裡巴巴同樣也面臨相同的困境,阿裡巴巴借鑒前人的一些方法,提出數據中台的概念,從組織架構上,不再採用具體的業務模塊下分設事業部的方式,而是將細分事業部打亂,根據具體業務將其中一些能夠為業務線提供基礎技術,數據等支撐部門整合為 “共用事業部”,目的在於有效地利用共用資源,為一線業務提供支持。阿裡巴巴內部在技術上也做了一定的調整,通過ESB(Enterprise Service Bus)來實現SOA(Service Oriented Architecture)的企業級信息系統基礎平臺,降低不同模塊開發團隊間的協同成本,業務相應更快速。打造“大中台,小前臺“體系架構,統一為業務線提供支持和幫助。
理解數據中台
數據中台是企業數據產品和數據服務的搭建和實施的方法論,數據中台不僅僅是工具,它還包括系統架構、數據圖譜、數據質量、組織架構、規範流程等一切與企業數據價值相關的建設體系。它通過一系列方法和體系來為業務系統提供計算和分析服務。
不同行業的經營策略和數據場景千差萬別,所涉及的系統和工具也非常多選擇,同一行業不同企業對於數據架構的建設思路也不盡相同,這就導致了每一家企業的數據中台不能通過簡單複製。但是對於企業在數據中台的體系建設和管理規範流程,都是有規矩可循,可以尋求相似的方法。
怎麼建設數據中台
數據中台整體的建設方案涉及到數據產品,方法論及數據服務的整體的輸出,可以從以下幾個方面來描述:
1. 數據技術搭建。
數據技術搭建包括數據架構的搭建以及數據模型的搭建。數據架構的搭建包括底層架構,數據存儲平臺,數據分析工具的搭建等。數據模型搭建包括業務調研,以及模型設計與開發。
1.1 架構搭建
在我們進行數據運算之前,我們需要先搭建適合數據分析的軟硬體環境。基礎架構的選擇,如伺服器應該用私有雲,公有雲還是自建機房。系統需要處理的數據是離線數據還是實時數據,數據存儲類型是關係型還是非關係型。如何選擇基礎軟體,數據存儲工具,數據處理工具,數據展示工具等。工具的選擇有非常多種,沒有優劣之分,需要跟據企業自身的環境來選擇合適的工具。
1.2 數據模型
1.2.1 業務調研
需要由企業策略部門來分析這些數據應該支撐怎樣的決策,會從哪些方面來進行分析。再細緻到確定哪些業務指標,數據指標的定義,業務場景,以及指標建設的價值。根據指標的業務口徑,來確定指標的技術口徑 ,在存儲層面需要用到什麼樣的表和欄位,過程中使用怎樣的計算公式進行計算。對指標的業務定義進行技術層面的轉換,經行數據計算的原型設計和評審。
1.2.2 模型設計
本文主要參照Inmon 企業信息工廠,Kimball 的維度建模, 阿裡的OneData建模理論等來闡述數據模型的設計。採用三層建模的方式進行數據的組織存儲,分為ODS(操作數據層),CDM(數據公共層)、ADS(應用數據層)。
ODS層(操作數據層):
又叫數據登臺區,把來源於其他系統的數據,幾乎無處理的存放到數據中台,把結構化和非結構化數據抽取和存儲到數據ODS層,把有必要轉換的非結構化數據轉換為結構化數據,對數據做一些必要的清洗和歷史數據沉澱。
CDM層(數據公共層)
又細分為DIM層(公共維度層),DWD層(明細寬表層)和DWS層(公共彙總層)。
DIM層(公共維度層)採用一致性維度規範來進行建設,維度表中維度屬性在不同物理表中的欄位名稱,數據類型,數據內容保持一致。維度可以做適當的合併和拆分。維度中描述業務相關性強的欄位合併在一個物理維表中實現,如品牌和品類。無強相關性,但有一定業務聯繫的屬性可以適當考慮放在雜項維度。對於維度屬性過多,記錄數過大的維度可以適當拆分。
DWD層(明細寬表層)
明細寬表層包含事務型事實表,周期快照型事實表,累計快照事實表。事務性事實表主要用於分析行為與追蹤事件,代表業務過程中的行為細節。周期快照型事實表用於分析事物的狀態和存量事實,以預定時間來採樣事實的狀態。累計快照事實表是指多個業務過程聯合分析的事實的累計情況,如不同事件的時間間隔,支付時長,發貨時長,退款時長等;
DWS層(公共彙總數據層)
公共彙總層基於明細寬表層的數據進行一定程度的彙總和加工;
ADS層(數據應用層)
主要存放為應用而加工的個性化指標和維度,主要來源於CDM層。比如複雜的指標的預處理(比率型指標,排名指標等)。以及基於應用的表處理,行列轉換等。
基於這些數據處理的過程,數據再以各種形式提供給數據應用層來使用。
2. 數據資產管理。
數據資產管理是把數據當成是企業所擁有的資產一樣來進行管理。包括元數據管理(其中會有數據圖譜,血緣分析,影響分析等)、數據質量管理、數據生命周期管理。
2.1 元數據管理
數據中台來源數據多樣,多源,多域,通過數據的清洗、分類、拉通、整合、彙總等,數據的使用者需要有一份清晰的數據資產目錄,從而瞭解數據的來龍去脈,對數據的使用有更清晰的認識。支撐數據的抽取,加工,發佈,維護,歸檔等步驟的生命周期過程的管理。元數據管理會把企業的數據由源頭,入庫,計算,應用的整個處理過程進行梳理和管控。
2.2 數據質量管理
數據質量管理指的是在數據加工鏈路的所有重要環節中需要對數據的質量做評估和控制,根據數據的處理特性來採取相應的數據質量校驗。數據質量必須包括幾個方面:1)完整性 2)規範性 3)一致性 4) 準確性 5) 一致性 6)及時性。通過對數據質量的統一規範的定義,按照定義的標準,對數據中台處理過程中所涉及到的數據進行檢查,從而實現數據質量進行評價和量化。數據質量管理是數據應用的必要步驟,數據應用必須以保證數據是準確,完整的為前提。
3. 數據服務。
一切數據加工和計算都是為數據服務而建立的。數據服務包括數據分析服務和數據應用服務,數據應用服務如生意參謀和阿裡指數是數據中臺中面向商家端提供的數據服務。數據處理的結果通過各種形式的數據呈現,來幫助企業管理層和業務部門進行商業決策,