數據中台架構體系淺析

来源:https://www.cnblogs.com/yunshaninfo/archive/2019/11/25/11928639.html
-Advertisement-
Play Games

中台出現的背景 從技術上來看,隨著業務的發展,很多企業在前期搭建了很多的IT系統,系統間像煙囪一樣相互獨立。在面對著越來越複雜的業務,越來越多的數據,企業IT在擴展舊系統上出現了一定的局限,從而產生不斷的重覆建設的問題,企業需要制定數字轉型改革的戰略,來解決複雜業務系統之間的解耦問題,從而降低產品各 ...


中台出現的背景

從技術上來看,隨著業務的發展,很多企業在前期搭建了很多的IT系統,系統間像煙囪一樣相互獨立。在面對著越來越複雜的業務,越來越多的數據,企業IT在擴展舊系統上出現了一定的局限,從而產生不斷的重覆建設的問題,企業需要制定數字轉型改革的戰略,來解決複雜業務系統之間的解耦問題,從而降低產品各個模塊的依賴,提高復用程度。

 

從管理架構上來看,隨著公司業務的不斷壯大,每個團隊都需要技術,產品,市場等方面的基礎支持,各個團隊開展業務時需要的支持有很大程度上的重覆,但是由於從制度上每個業務部門都是進行獨立考核的,導致業務部門往往從自身利益出發,互相之間爭奪資源,隔閡不斷上升,資源無法高效利用。

 

企業在這樣的背景下,需要尋求可以打破這樣困境的方法。在2015年,在業務的快速擴張,阿裡巴巴同樣也面臨相同的困境,阿裡巴巴借鑒前人的一些方法,提出數據中台的概念,從組織架構上,不再採用具體的業務模塊下分設事業部的方式,而是將細分事業部打亂,根據具體業務將其中一些能夠為業務線提供基礎技術,數據等支撐部門整合為 “共用事業部”,目的在於有效地利用共用資源,為一線業務提供支持。阿裡巴巴內部在技術上也做了一定的調整,通過ESB(Enterprise Service Bus)來實現SOA(Service Oriented Architecture)的企業級信息系統基礎平臺,降低不同模塊開發團隊間的協同成本,業務相應更快速。打造“大中台,小前臺“體系架構,統一為業務線提供支持和幫助。

理解數據中台

數據中台是企業數據產品和數據服務的搭建和實施的方法論,數據中台不僅僅是工具,它還包括系統架構、數據圖譜、數據質量、組織架構、規範流程等一切與企業數據價值相關的建設體系。它通過一系列方法和體系來為業務系統提供計算和分析服務。

 

不同行業的經營策略和數據場景千差萬別,所涉及的系統和工具也非常多選擇,同一行業不同企業對於數據架構的建設思路也不盡相同,這就導致了每一家企業的數據中台不能通過簡單複製。但是對於企業在數據中台的體系建設和管理規範流程,都是有規矩可循,可以尋求相似的方法。

 

怎麼建設數據中台

數據中台整體的建設方案涉及到數據產品,方法論及數據服務的整體的輸出,可以從以下幾個方面來描述:

 

1. 數據技術搭建。

數據技術搭建包括數據架構的搭建以及數據模型的搭建。數據架構的搭建包括底層架構,數據存儲平臺,數據分析工具的搭建等。數據模型搭建包括業務調研,以及模型設計與開發。

1.1 架構搭建

在我們進行數據運算之前,我們需要先搭建適合數據分析的軟硬體環境。基礎架構的選擇,如伺服器應該用私有雲,公有雲還是自建機房。系統需要處理的數據是離線數據還是實時數據,數據存儲類型是關係型還是非關係型。如何選擇基礎軟體,數據存儲工具,數據處理工具,數據展示工具等。工具的選擇有非常多種,沒有優劣之分,需要跟據企業自身的環境來選擇合適的工具。

 

1.2 數據模型

1.2.1 業務調研

需要由企業策略部門來分析這些數據應該支撐怎樣的決策,會從哪些方面來進行分析。再細緻到確定哪些業務指標,數據指標的定義,業務場景,以及指標建設的價值。根據指標的業務口徑,來確定指標的技術口徑 ,在存儲層面需要用到什麼樣的表和欄位,過程中使用怎樣的計算公式進行計算。對指標的業務定義進行技術層面的轉換,經行數據計算的原型設計和評審。

 

1.2.2 模型設計

本文主要參照Inmon 企業信息工廠,Kimball 的維度建模, 阿裡的OneData建模理論等來闡述數據模型的設計。採用三層建模的方式進行數據的組織存儲,分為ODS(操作數據層),CDM(數據公共層)、ADS(應用數據層)。

 

 

ODS層(操作數據層):

又叫數據登臺區,把來源於其他系統的數據,幾乎無處理的存放到數據中台,把結構化和非結構化數據抽取和存儲到數據ODS層,把有必要轉換的非結構化數據轉換為結構化數據,對數據做一些必要的清洗和歷史數據沉澱。

 

CDM層(數據公共層)

又細分為DIM層(公共維度層),DWD層(明細寬表層)和DWS層(公共彙總層)。

 

DIM層(公共維度層)採用一致性維度規範來進行建設,維度表中維度屬性在不同物理表中的欄位名稱,數據類型,數據內容保持一致。維度可以做適當的合併和拆分。維度中描述業務相關性強的欄位合併在一個物理維表中實現,如品牌和品類。無強相關性,但有一定業務聯繫的屬性可以適當考慮放在雜項維度。對於維度屬性過多,記錄數過大的維度可以適當拆分。

 

DWD層(明細寬表層)

明細寬表層包含事務型事實表,周期快照型事實表,累計快照事實表。事務性事實表主要用於分析行為與追蹤事件,代表業務過程中的行為細節。周期快照型事實表用於分析事物的狀態和存量事實,以預定時間來採樣事實的狀態。累計快照事實表是指多個業務過程聯合分析的事實的累計情況,如不同事件的時間間隔,支付時長,發貨時長,退款時長等;

 

DWS層(公共彙總數據層)

公共彙總層基於明細寬表層的數據進行一定程度的彙總和加工;

 

ADS層(數據應用層)

主要存放為應用而加工的個性化指標和維度,主要來源於CDM層。比如複雜的指標的預處理(比率型指標,排名指標等)。以及基於應用的表處理,行列轉換等。

 

基於這些數據處理的過程,數據再以各種形式提供給數據應用層來使用。

 

2. 數據資產管理。

數據資產管理是把數據當成是企業所擁有的資產一樣來進行管理。包括元數據管理(其中會有數據圖譜,血緣分析,影響分析等)、數據質量管理、數據生命周期管理。

 

2.1 元數據管理

數據中台來源數據多樣,多源,多域,通過數據的清洗、分類、拉通、整合、彙總等,數據的使用者需要有一份清晰的數據資產目錄,從而瞭解數據的來龍去脈,對數據的使用有更清晰的認識。支撐數據的抽取,加工,發佈,維護,歸檔等步驟的生命周期過程的管理。元數據管理會把企業的數據由源頭,入庫,計算,應用的整個處理過程進行梳理和管控。

 

2.2 數據質量管理

數據質量管理指的是在數據加工鏈路的所有重要環節中需要對數據的質量做評估和控制,根據數據的處理特性來採取相應的數據質量校驗。數據質量必須包括幾個方面:1)完整性 2)規範性 3)一致性 4) 準確性 5) 一致性 6)及時性。通過對數據質量的統一規範的定義,按照定義的標準,對數據中台處理過程中所涉及到的數據進行檢查,從而實現數據質量進行評價和量化。數據質量管理是數據應用的必要步驟,數據應用必須以保證數據是準確,完整的為前提。

 

3. 數據服務。

一切數據加工和計算都是為數據服務而建立的。數據服務包括數據分析服務和數據應用服務,數據應用服務如生意參謀和阿裡指數是數據中臺中面向商家端提供的數據服務。數據處理的結果通過各種形式的數據呈現,來幫助企業管理層和業務部門進行商業決策,

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • https://sqlserver.code.blog/2019/11/25/password-required-when-you-trying-to-add-a-database-having-a-master-key-to-ag-group/ ...
  • 上一篇說到,在Spark 2.x當中,實際上SQLContext和HiveContext是過時的,相反是採用SparkSession對象的sql函數來操作SQL語句的。使用這個函數執行SQL語句前需要先調用DataFrame的createOrReplaceTempView註冊一個臨時表,所以關鍵是先 ...
  • MongoDB簡介 基於分散式文件存儲的開源資料庫系統 將數據存儲為一個文檔,文檔類似於Json格式 MongoDB進入與退出 進入:mongo 退出:exit 庫級操作 顯示所有庫: show dbs 切換/創建資料庫: use 資料庫名稱 查看所在庫: db 刪除庫:db.dropDatabas ...
  • 一.MHA簡介 作者簡介 松信嘉範: MySQL/Linux專家 2001年索尼公司入職 2001年開始使用oracle 2004年開始使用MySQL 2006年9月 2010年8月MySQL從事顧問 2010年 2012年 DeNA 2012年~至今 Facebook 軟體簡介 MHA能夠在較短的 ...
  • 1.MySQL版本: (目前到8了) 5.x: 5.0-5.1:早期產品的延續,升級維護 5.4 - 5.x : MySQL整合了三方公司的新存儲引擎 (推薦5.5),企業使用最多的是5.5 2.linux下安裝方式 yum tar.gz rpm版(本次使用) 安裝:rpm -ivh rpm軟體名 ...
  • [20191125]oracel SQL parsing function qcplgte 2.txt--//參考前面的測試:http://blog.itpub.net/267265/viewspace-2665273/=>[20191122]oracel SQL parsing function ...
  • [20191125]探究等待事件的本源.txt--//當工作中遇到oracle的性能問題時,查看awr報表提供很好的解決問題途徑.但是有時候很容易想當然.--//比如以前我一看到 log file sync等待事件就很主觀的認為redo 磁碟IO不行,實際上真實的情況可能有許多原因.--//比如提交 ...
  • 之前的SQL基礎1中已經介紹了部分Select的內容,但是,實際使用中select 還有很多其他的用法,本文會再介紹部分select的其他用法。 1. 去重查詢 1.1 創建演示表 創建2張表用於演示,表名分別為student和class,後續也將繼續用這2張表演示,2張表的數據如下: studen ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...