數據中台架構體系淺析

来源:https://www.cnblogs.com/yunshaninfo/archive/2019/11/25/11928639.html
-Advertisement-
Play Games

中台出現的背景 從技術上來看,隨著業務的發展,很多企業在前期搭建了很多的IT系統,系統間像煙囪一樣相互獨立。在面對著越來越複雜的業務,越來越多的數據,企業IT在擴展舊系統上出現了一定的局限,從而產生不斷的重覆建設的問題,企業需要制定數字轉型改革的戰略,來解決複雜業務系統之間的解耦問題,從而降低產品各 ...


中台出現的背景

從技術上來看,隨著業務的發展,很多企業在前期搭建了很多的IT系統,系統間像煙囪一樣相互獨立。在面對著越來越複雜的業務,越來越多的數據,企業IT在擴展舊系統上出現了一定的局限,從而產生不斷的重覆建設的問題,企業需要制定數字轉型改革的戰略,來解決複雜業務系統之間的解耦問題,從而降低產品各個模塊的依賴,提高復用程度。

 

從管理架構上來看,隨著公司業務的不斷壯大,每個團隊都需要技術,產品,市場等方面的基礎支持,各個團隊開展業務時需要的支持有很大程度上的重覆,但是由於從制度上每個業務部門都是進行獨立考核的,導致業務部門往往從自身利益出發,互相之間爭奪資源,隔閡不斷上升,資源無法高效利用。

 

企業在這樣的背景下,需要尋求可以打破這樣困境的方法。在2015年,在業務的快速擴張,阿裡巴巴同樣也面臨相同的困境,阿裡巴巴借鑒前人的一些方法,提出數據中台的概念,從組織架構上,不再採用具體的業務模塊下分設事業部的方式,而是將細分事業部打亂,根據具體業務將其中一些能夠為業務線提供基礎技術,數據等支撐部門整合為 “共用事業部”,目的在於有效地利用共用資源,為一線業務提供支持。阿裡巴巴內部在技術上也做了一定的調整,通過ESB(Enterprise Service Bus)來實現SOA(Service Oriented Architecture)的企業級信息系統基礎平臺,降低不同模塊開發團隊間的協同成本,業務相應更快速。打造“大中台,小前臺“體系架構,統一為業務線提供支持和幫助。

理解數據中台

數據中台是企業數據產品和數據服務的搭建和實施的方法論,數據中台不僅僅是工具,它還包括系統架構、數據圖譜、數據質量、組織架構、規範流程等一切與企業數據價值相關的建設體系。它通過一系列方法和體系來為業務系統提供計算和分析服務。

 

不同行業的經營策略和數據場景千差萬別,所涉及的系統和工具也非常多選擇,同一行業不同企業對於數據架構的建設思路也不盡相同,這就導致了每一家企業的數據中台不能通過簡單複製。但是對於企業在數據中台的體系建設和管理規範流程,都是有規矩可循,可以尋求相似的方法。

 

怎麼建設數據中台

數據中台整體的建設方案涉及到數據產品,方法論及數據服務的整體的輸出,可以從以下幾個方面來描述:

 

1. 數據技術搭建。

數據技術搭建包括數據架構的搭建以及數據模型的搭建。數據架構的搭建包括底層架構,數據存儲平臺,數據分析工具的搭建等。數據模型搭建包括業務調研,以及模型設計與開發。

1.1 架構搭建

在我們進行數據運算之前,我們需要先搭建適合數據分析的軟硬體環境。基礎架構的選擇,如伺服器應該用私有雲,公有雲還是自建機房。系統需要處理的數據是離線數據還是實時數據,數據存儲類型是關係型還是非關係型。如何選擇基礎軟體,數據存儲工具,數據處理工具,數據展示工具等。工具的選擇有非常多種,沒有優劣之分,需要跟據企業自身的環境來選擇合適的工具。

 

1.2 數據模型

1.2.1 業務調研

需要由企業策略部門來分析這些數據應該支撐怎樣的決策,會從哪些方面來進行分析。再細緻到確定哪些業務指標,數據指標的定義,業務場景,以及指標建設的價值。根據指標的業務口徑,來確定指標的技術口徑 ,在存儲層面需要用到什麼樣的表和欄位,過程中使用怎樣的計算公式進行計算。對指標的業務定義進行技術層面的轉換,經行數據計算的原型設計和評審。

 

1.2.2 模型設計

本文主要參照Inmon 企業信息工廠,Kimball 的維度建模, 阿裡的OneData建模理論等來闡述數據模型的設計。採用三層建模的方式進行數據的組織存儲,分為ODS(操作數據層),CDM(數據公共層)、ADS(應用數據層)。

 

 

ODS層(操作數據層):

又叫數據登臺區,把來源於其他系統的數據,幾乎無處理的存放到數據中台,把結構化和非結構化數據抽取和存儲到數據ODS層,把有必要轉換的非結構化數據轉換為結構化數據,對數據做一些必要的清洗和歷史數據沉澱。

 

CDM層(數據公共層)

又細分為DIM層(公共維度層),DWD層(明細寬表層)和DWS層(公共彙總層)。

 

DIM層(公共維度層)採用一致性維度規範來進行建設,維度表中維度屬性在不同物理表中的欄位名稱,數據類型,數據內容保持一致。維度可以做適當的合併和拆分。維度中描述業務相關性強的欄位合併在一個物理維表中實現,如品牌和品類。無強相關性,但有一定業務聯繫的屬性可以適當考慮放在雜項維度。對於維度屬性過多,記錄數過大的維度可以適當拆分。

 

DWD層(明細寬表層)

明細寬表層包含事務型事實表,周期快照型事實表,累計快照事實表。事務性事實表主要用於分析行為與追蹤事件,代表業務過程中的行為細節。周期快照型事實表用於分析事物的狀態和存量事實,以預定時間來採樣事實的狀態。累計快照事實表是指多個業務過程聯合分析的事實的累計情況,如不同事件的時間間隔,支付時長,發貨時長,退款時長等;

 

DWS層(公共彙總數據層)

公共彙總層基於明細寬表層的數據進行一定程度的彙總和加工;

 

ADS層(數據應用層)

主要存放為應用而加工的個性化指標和維度,主要來源於CDM層。比如複雜的指標的預處理(比率型指標,排名指標等)。以及基於應用的表處理,行列轉換等。

 

基於這些數據處理的過程,數據再以各種形式提供給數據應用層來使用。

 

2. 數據資產管理。

數據資產管理是把數據當成是企業所擁有的資產一樣來進行管理。包括元數據管理(其中會有數據圖譜,血緣分析,影響分析等)、數據質量管理、數據生命周期管理。

 

2.1 元數據管理

數據中台來源數據多樣,多源,多域,通過數據的清洗、分類、拉通、整合、彙總等,數據的使用者需要有一份清晰的數據資產目錄,從而瞭解數據的來龍去脈,對數據的使用有更清晰的認識。支撐數據的抽取,加工,發佈,維護,歸檔等步驟的生命周期過程的管理。元數據管理會把企業的數據由源頭,入庫,計算,應用的整個處理過程進行梳理和管控。

 

2.2 數據質量管理

數據質量管理指的是在數據加工鏈路的所有重要環節中需要對數據的質量做評估和控制,根據數據的處理特性來採取相應的數據質量校驗。數據質量必須包括幾個方面:1)完整性 2)規範性 3)一致性 4) 準確性 5) 一致性 6)及時性。通過對數據質量的統一規範的定義,按照定義的標準,對數據中台處理過程中所涉及到的數據進行檢查,從而實現數據質量進行評價和量化。數據質量管理是數據應用的必要步驟,數據應用必須以保證數據是準確,完整的為前提。

 

3. 數據服務。

一切數據加工和計算都是為數據服務而建立的。數據服務包括數據分析服務和數據應用服務,數據應用服務如生意參謀和阿裡指數是數據中臺中面向商家端提供的數據服務。數據處理的結果通過各種形式的數據呈現,來幫助企業管理層和業務部門進行商業決策,

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • https://sqlserver.code.blog/2019/11/25/password-required-when-you-trying-to-add-a-database-having-a-master-key-to-ag-group/ ...
  • 上一篇說到,在Spark 2.x當中,實際上SQLContext和HiveContext是過時的,相反是採用SparkSession對象的sql函數來操作SQL語句的。使用這個函數執行SQL語句前需要先調用DataFrame的createOrReplaceTempView註冊一個臨時表,所以關鍵是先 ...
  • MongoDB簡介 基於分散式文件存儲的開源資料庫系統 將數據存儲為一個文檔,文檔類似於Json格式 MongoDB進入與退出 進入:mongo 退出:exit 庫級操作 顯示所有庫: show dbs 切換/創建資料庫: use 資料庫名稱 查看所在庫: db 刪除庫:db.dropDatabas ...
  • 一.MHA簡介 作者簡介 松信嘉範: MySQL/Linux專家 2001年索尼公司入職 2001年開始使用oracle 2004年開始使用MySQL 2006年9月 2010年8月MySQL從事顧問 2010年 2012年 DeNA 2012年~至今 Facebook 軟體簡介 MHA能夠在較短的 ...
  • 1.MySQL版本: (目前到8了) 5.x: 5.0-5.1:早期產品的延續,升級維護 5.4 - 5.x : MySQL整合了三方公司的新存儲引擎 (推薦5.5),企業使用最多的是5.5 2.linux下安裝方式 yum tar.gz rpm版(本次使用) 安裝:rpm -ivh rpm軟體名 ...
  • [20191125]oracel SQL parsing function qcplgte 2.txt--//參考前面的測試:http://blog.itpub.net/267265/viewspace-2665273/=>[20191122]oracel SQL parsing function ...
  • [20191125]探究等待事件的本源.txt--//當工作中遇到oracle的性能問題時,查看awr報表提供很好的解決問題途徑.但是有時候很容易想當然.--//比如以前我一看到 log file sync等待事件就很主觀的認為redo 磁碟IO不行,實際上真實的情況可能有許多原因.--//比如提交 ...
  • 之前的SQL基礎1中已經介紹了部分Select的內容,但是,實際使用中select 還有很多其他的用法,本文會再介紹部分select的其他用法。 1. 去重查詢 1.1 創建演示表 創建2張表用於演示,表名分別為student和class,後續也將繼續用這2張表演示,2張表的數據如下: studen ...
一周排行
    -Advertisement-
    Play Games
  • 前言 在我們開發過程中基本上不可或缺的用到一些敏感機密數據,比如SQL伺服器的連接串或者是OAuth2的Secret等,這些敏感數據在代碼中是不太安全的,我們不應該在源代碼中存儲密碼和其他的敏感數據,一種推薦的方式是通過Asp.Net Core的機密管理器。 機密管理器 在 ASP.NET Core ...
  • 新改進提供的Taurus Rpc 功能,可以簡化微服務間的調用,同時可以不用再手動輸出模塊名稱,或調用路徑,包括負載均衡,這一切,由框架實現並提供了。新的Taurus Rpc 功能,將使得服務間的調用,更加輕鬆、簡約、高效。 ...
  • 順序棧的介面程式 目錄順序棧的介面程式頭文件創建順序棧入棧出棧利用棧將10進位轉16進位數驗證 頭文件 #include <stdio.h> #include <stdbool.h> #include <stdlib.h> 創建順序棧 // 指的是順序棧中的元素的數據類型,用戶可以根據需要進行修改 ...
  • 前言 整理這個官方翻譯的系列,原因是網上大部分的 tomcat 版本比較舊,此版本為 v11 最新的版本。 開源項目 從零手寫實現 tomcat minicat 別稱【嗅虎】心有猛虎,輕嗅薔薇。 系列文章 web server apache tomcat11-01-官方文檔入門介紹 web serv ...
  • C總結與剖析:關鍵字篇 -- <<C語言深度解剖>> 目錄C總結與剖析:關鍵字篇 -- <<C語言深度解剖>>程式的本質:二進位文件變數1.變數:記憶體上的某個位置開闢的空間2.變數的初始化3.為什麼要有變數4.局部變數與全局變數5.變數的大小由類型決定6.任何一個變數,記憶體賦值都是從低地址開始往高地 ...
  • 如果讓你來做一個有狀態流式應用的故障恢復,你會如何來做呢? 單機和多機會遇到什麼不同的問題? Flink Checkpoint 是做什麼用的?原理是什麼? ...
  • C++ 多級繼承 多級繼承是一種面向對象編程(OOP)特性,允許一個類從多個基類繼承屬性和方法。它使代碼更易於組織和維護,並促進代碼重用。 多級繼承的語法 在 C++ 中,使用 : 符號來指定繼承關係。多級繼承的語法如下: class DerivedClass : public BaseClass1 ...
  • 前言 什麼是SpringCloud? Spring Cloud 是一系列框架的有序集合,它利用 Spring Boot 的開發便利性簡化了分散式系統的開發,比如服務註冊、服務發現、網關、路由、鏈路追蹤等。Spring Cloud 並不是重覆造輪子,而是將市面上開發得比較好的模塊集成進去,進行封裝,從 ...
  • class_template 類模板和函數模板的定義和使用類似,我們已經進行了介紹。有時,有兩個或多個類,其功能是相同的,僅僅是數據類型不同。類模板用於實現類所需數據的類型參數化 template<class NameType, class AgeType> class Person { publi ...
  • 目錄system v IPC簡介共用記憶體需要用到的函數介面shmget函數--獲取對象IDshmat函數--獲得映射空間shmctl函數--釋放資源共用記憶體實現思路註意 system v IPC簡介 消息隊列、共用記憶體和信號量統稱為system v IPC(進程間通信機制),V是羅馬數字5,是UNI ...