數據中台全景架構及模塊解析!一文入門中台架構師!

来源:https://www.cnblogs.com/liuyanling/archive/2020/05/20/12926731.html
-Advertisement-
Play Games

回顧一下,第一篇文章 "大白話 六問數據中台!你想知道的都在這了!" 。把數據中台是什麼?為什麼?有什麼價值?說的明明白白。 數據中台是企業級能力復用平臺,目標是讓數據持續用起來,通過數據中台提供的工具、方法和運行機制,把數據變為一種服務能力,讓數據更方便地被業務所使用 。 今天就來點實際乾貨,把企 ...


回顧一下,第一篇文章大白話 六問數據中台!你想知道的都在這了!。把數據中台是什麼?為什麼?有什麼價值?說的明明白白。數據中台是企業級能力復用平臺,目標是讓數據持續用起來,通過數據中台提供的工具、方法和運行機制,把數據變為一種服務能力,讓數據更方便地被業務所使用

今天就來點實際乾貨,把企業真實數據平臺架構分享給您!相信看完這篇文章,你會真正對數據中台有一個全景的認識與理解,從抽象過度到具體。無圖無真相,我趕緊po一張數據中台總體架構圖:

image.png

數據中台是在底層存儲計算平臺與上層的數據應用之間的一整套體系,屏蔽掉底層存儲平臺的計算技術複雜性,降低對技術人才的需求,可以讓數據的使用成本更低。如果用三句話來概括數據中台的組成架構,那麼一定是:

  • 通過數據中台的數據匯聚、數據開發模塊建立企業數據資產
  • 通過資產管理與治理、數據服務把數據資產變為數據服務能力,服務於企業業務
  • 數據安全體系、數據運營體系保障數據中台可以長期健康、持續運轉

現在您已經知道了,數據中台離不開這幾個模塊:數據匯聚、數據開發、資產管理、數據安全、數據服務。那麼趕緊跟上我的腳步潛入內部去一探究竟吧。

數據匯聚

數據匯聚,首先必然要有數據來源,有了數據來源之後,需要確定採集工具,有了採集工具之後你還要確定存儲位置。

數據來源

數據是數據中台的核心,所以數據匯聚無疑是數據中台的入口。企業中的數據來源極其多,但大都都離不開這幾個方面:資料庫,日誌,前端埋點,爬蟲系統等。

  • 資料庫我們不用多說,例如通常用mysql作為業務庫,存儲業務一些關鍵指標,比如用戶信息、訂單信息。也會用到一些Nosql資料庫,一般用於存儲一些不那麼重要的數據。

  • 日誌也是重要數據來源,因為日誌記錄了程式各種執行情況,其中也包括用戶的業務處理軌跡,根據日誌我們可以分析出程式的異常情況,也可以統計關鍵業務指標比如PV,UV。

  • 前端埋點同樣是非常重要的來源,用戶很多前端請求並不會產生後端請求,比如點擊,但這些對分析用戶行為具有重要的價值,例如分析用戶流失率,是在哪個界面,哪個環節用戶流失了,這都要靠埋點數據。

  • 爬蟲系統大家應該也不陌生了,雖然現在很多企業都聲明禁止爬蟲,但往往禁止爬取的數據才是有價值的數據,有些管理和決策就是需要競爭對手的數據作為對比,而這些數據就可以通過爬蟲獲取。

這些數據分散在不同的網路環境和存儲平臺中,另外不同的項目組可能還要重覆去收集同樣的數據,因此數據難以利用,難以復用、難以產生價值。數據匯聚就是使得各種異構網路、異構數據源的數據,方便統一採集到數據中台進行集中存儲,為後續的加工建模做準備。

數據匯聚可以是實時接入,比如實時消費mysql的binlog進行數據同步,也可以是離線同步,比如使用sqoop離線同步mysql數據到hive。

技術選型

數據匯聚一般用到的技術包括:

  • Flume
  • Sqoop
  • Datax
  • Canal

數據落地

採集之後必然需要將數據落地,即存儲層,常見的有:

  • MYSQL、Oracle、Tidb
  • Hive、Hdfs、HBase
  • Redis
  • ElasticSearch

由於篇幅問題,本文不詳細說明。關於採集工具以及存儲層的選擇和使用、後續會有專門的文章介紹。請關註公眾號【胖滾豬學編程】,一個集顏值與才華為一身的女程式媛,堅持原創,用漫畫形式讓編程so easy

數據開發

數據開發可以理解為數據匯聚和數據資產的一個橋梁。何為數據資產?數據資產是有價值的數據。而數據匯聚是原始數據,業務人員一般是難以使用的。原始數據-->有價值的數據,是需要一個過程的。那麼就是讓數據開發模塊來完成這個過程。

image.png

數據開發是一整套數據加工及管控的工具,包括離線開發,智能調度,實時開發,人工智慧等。

舉個例子,某公司想知道廣告投放的效益,而原始數據包括埋點數據,用戶註冊數據,用戶消費數據等,是不是需要整理一個sql,跑一個廣告效益報表呢?毫無疑問需要。那麼我們就可以通過智能調度平臺,定時跑出業務需要的數據;也可以通過實時流計算,實時展示業務需要的數據。這都是屬於數據開發模塊的功能。

  • 離線計算:計算推薦使用Spark\Hive。調度平臺可以使用Azkaban、Oozie、EasySchedule。
  • 實時計算:推薦使用Flink、SparkStructStreaming、SparkStreaming、Storm
  • 人工智慧:推薦使用TensorFlow、Spark ML

由於篇幅問題,本文不詳細說明。後續文章有詳細說明離線計算、實時計算的選型、應用場景和落地方案。請關註公眾號【胖滾豬學編程】,一個集顏值與才華為一身的女程式媛,堅持原創,用漫畫形式讓編程so easy

數據開發模塊適合對象是數據開發、演算法建模人員,提供離線、實時、演算法開發工具以及任務的管理、代碼發佈、運維、監控、告警等一些列集成工具,方便使用,提升效率。他們可以依賴於數據開發模塊提供的基礎功能,快速把數據加工成對業務有價值的形式,提供給業務使用。

數據資產管理

有了數據匯聚、數據開發模塊,中台已經具備傳統數倉平臺的基本能力,可以做數據的匯聚以及各種數據開發,就可以建立企業的數據資產體系。

這裡我有必要再次強調一遍:數據資產指的是有價值的數據。這個也正是資產管理模塊需要去做的事情。如何讓數據變的有價值?第一體現在數據本身上,比如需要保證數據的質量。第二體現在業務上,偏技術的數據體系業務人員是比較難理解的,因此資產管理需要用企業全員更好理解的方式,把企業的數據資產展現給企業全員(當然要考慮許可權和安全管控)。

數據資產管理包括數據地圖、元數據管理、數據質量、數據血緣、數據生命周期等進行管理和展示,以一種更直觀的方式展現企業的數據資產,提升企業的數據意識。

現在你會有很多疑問,數據地圖是什麼?元數據管理是什麼?數據血緣又是什麼?這些都是非常核心的地方,別急,後續文章我會以公司真實落地方案和應用場景對每一個模塊進行說明,先發幾張圖讓你對它們有一個初步的概念。

數據地圖

數據血緣

數據質量和安全

數據質量和安全在很多架構圖中歸屬於資產管理模塊,但是筆者認為數據質量和安全應該是貫穿整個數據中台的。數據匯聚和數據開發的時候顯然也應該考慮質量和安全問題,所以筆者傾向於將數據質量單獨拿出來作為一個模塊。

數據質量

我們會遇到無處不在的數據質量問題,包括業務系統臟數據、數據不一致不准確等。影響數據使用和上層決策。

為什麼會出現數據質量問題呢?大部分是如下幾個原因

  • 開發代碼的BUG
  • 數據源變更:比如由於MYSQL表結構變更,導致HIVE同步MYSQL任務失敗。
  • 基礎設施和服務不穩定或資源不足:比如流量猛增的情況導致OOM

由於這些原因,會導致數據不符合以下"四性",因此存在數據質量問題:

  • 完整性:指的是數據信息是否存在缺失的狀況,可能是整個數據記錄缺失,也可能是數據中某個欄位信息的記錄缺失。
  • 一致性:是指數據是否遵守了統一的規範,數據集合是否保持了統一的格式。比如商品購買率=商品購買用戶數 / 商品訪問量,如果在不同的模型中,商品購買用戶數是1W、商品訪問量10W,商品購買率20%,那這三個指標就存在不一致。
  • 準確性:是指數據記錄的信息是否存在異常或錯誤。比如數據格式是否為正確的ip。
  • 及時性:是指數據從產生到可以查詢的時間間隔,也叫數據的延時時長。

而數據質量無疑是非常重要的一部分,就算你數據再多再快,不准也無用。因此數據質量管理平臺尤為重要。數據質量管理是支持多種異構數據源的質量校驗、通知、管理服務的一站式平臺。包括數據探查、對比、質量監控、SQL掃描和智能報警等功能。數據質量監控可以全程監控數據加工流水線,根據質量規則及時發現問題,並通過報警通知負責人及時處理。

在實際生產中,可從以下幾個方面做好數據質量工作:

  • 離線數據:數據是否完整、一致和準確,比如HIVE離線同步業務庫MYSQL數據,同步完需要對比數據條數。
  • 實時數據:除了數據是否完整、一致和準確,還需要檢測數據是否斷流、數據是否延遲。
  • 報警監控:支持簡訊、微信告警到對應負責人。

數據安全

數據安全的重要性不用多說,如果你把用戶信息泄露了,嚴重會導致整個公司都倒閉。因此對於全鏈路的數據,都應該做好數據安全工作。比如應該把業務庫/日誌的敏感數據進行脫敏,為身份證、銀行卡等常用的數據類型提供掩蓋脫敏策略。以及日誌審計等。

數據生命周期安全可以分為以下幾個部分:

  • 數據採集安全:包括數據源鑒別以及記錄等
  • 數據傳輸安全:包括數據傳輸加密等
  • 數據存儲安全:包括存儲介質安全、數據備份恢復等
  • 數據處理安全:包括數據脫敏等
  • 數據交換安全:包括數據共用安全、導入導出安全等
  • 數據銷毀安全:包括數據銷毀和介質銷毀等

數據服務體系

前面利用數據匯聚、數據開發建設企業數據資產,利用數據管理展現企業的數據資產,但是並沒有發揮數據的價值。數據的價值體現一定是在業務層面、即數據服務體系。就是把數據變為一種服務能力,通過數據服務讓數據參與到業務,激活整個數據中台,數據服務體系是數據中台存在的價值所在

數據服務體系是基於公司自身的產品和業務的,比如以電商公司為例,數據服務就包括了:精準營銷、用戶畫像、經營分析、可視化大屏等。
image.png

總結

搭建企業級數據中台之前,務必把數據中台全景架構圖設計好,對每一個模塊的定位、功能、作用做到心中有數。
筆者收集到10張高清數據中台架構圖,包括阿裡數據中台全景圖、電商數據中台全景圖等,對你理解數據中台構建數據中台具有重大價值!文章不便於一次發10張圖,請關註公眾號【胖滾豬學編程】回覆"數據中台" 獲取
image.png

wchat1

本文轉載自公眾號【胖滾豬學編程】 用漫畫讓編程so easy and interesting!歡迎關註!形象來源於微信表情包【胖滾家族】喜歡可以下載哦~


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • [TOC] 1.查看當前版本 2.下線升級的節點 3.解壓,改名,創建軟鏈接 4.拷貝conf文件和cert文件和sh腳本 5.重啟服務並檢查 ...
  • 工作中如果你是Linux運維,或者程式員,一定經常需要一個Linux的環境來讓你折騰。這個時候使用虛擬機對我們來說是一個不錯的選擇。 虛擬化技術目前主要有兩種:一、原生架構,這種虛擬機產品直接安裝在電腦硬體上,不需要操作系統的支持,這類虛擬機擁有強大的性能,主要用於生產環境,比如vSphere、C ...
  • 大家好,我是良許。 硬碟是電腦非常重要的一個部件,不管是代碼,還是 UI 、聲音、文檔,抑或是沒人時偷偷看的小視頻,都需要保存在硬碟里。 對於很多 Linux 伺服器,會進行很多的編譯操作。而編譯操作在很多情況下都會產生大量的中間文件,這些文件會占用很多的磁碟空間,導致磁碟空間一直吃緊。 別問為啥 ...
  • 一、準備環境 1)獲取crash工具。註意區分版本(arm/arm64/x86_64)。 2)獲取對應軟體版本的符號表文件(如vmlinux),可以將該文件放置 crash工具同一目錄下。 3)獲取sysdump文件,並把所有sysdump文件追加到一個文件sysdump.core中: 4)使用cr ...
  • 每日一句英語學習,每天進步一點點: 前言 為了讓大家更容易「看得見」 TCP,我搭建不少測試環境,並且數據包抓很多次,花費了不少時間,才抓到比較容易分析的數據包。 接下來丟包、亂序、超時重傳、快速重傳、選擇性確認、流量控制等等 TCP 的特性,都能「一覽無雲」。 沒錯,我把 TCP 的"衣服扒光"了 ...
  • 這裡分享嵌入式領域有用有趣的項目/工具以及一些熱點新聞,農曆年分二十四節氣,希望在每個交節之日準時發佈一期。 ...
  • 偷個懶,晚上工作忙的太晚,整個複製功能的內容還沒有寫完,這裡先說一下複製功能的簡單應用。 在Redis中,用戶可以通過執行SLAVEOF命令或者設置slaveof選項,讓一個伺服器去複製另一個伺服器,我們稱呼被覆制的伺服器為主伺服器(master),而對主伺服器進行複製的伺服器則被稱為從伺服器(sl ...
  • Redis中的數據類型 字元串 散列 列表 集合 有序集合 Redis中的數據類型 Redis定義了這幾種數據類型: string(字元串) hash(散列) list(列表) set(集合) zset(有序集合) 後面會介紹它們各自的特點和使用場景。可以用TYPE命令來獲取鍵的類型。 字元串 字元 ...
一周排行
    -Advertisement-
    Play Games
  • GoF之工廠模式 @目錄GoF之工廠模式每博一文案1. 簡單說明“23種設計模式”1.2 介紹工廠模式的三種形態1.3 簡單工廠模式(靜態工廠模式)1.3.1 簡單工廠模式的優缺點:1.4 工廠方法模式1.4.1 工廠方法模式的優缺點:1.5 抽象工廠模式1.6 抽象工廠模式的優缺點:2. 總結:3 ...
  • 新改進提供的Taurus Rpc 功能,可以簡化微服務間的調用,同時可以不用再手動輸出模塊名稱,或調用路徑,包括負載均衡,這一切,由框架實現並提供了。新的Taurus Rpc 功能,將使得服務間的調用,更加輕鬆、簡約、高效。 ...
  • 本章將和大家分享ES的數據同步方案和ES集群相關知識。廢話不多說,下麵我們直接進入主題。 一、ES數據同步 1、數據同步問題 Elasticsearch中的酒店數據來自於mysql資料庫,因此mysql數據發生改變時,Elasticsearch也必須跟著改變,這個就是Elasticsearch與my ...
  • 引言 在我們之前的文章中介紹過使用Bogus生成模擬測試數據,今天來講解一下功能更加強大自動生成測試數據的工具的庫"AutoFixture"。 什麼是AutoFixture? AutoFixture 是一個針對 .NET 的開源庫,旨在最大程度地減少單元測試中的“安排(Arrange)”階段,以提高 ...
  • 經過前面幾個部分學習,相信學過的同學已經能夠掌握 .NET Emit 這種中間語言,並能使得它來編寫一些應用,以提高程式的性能。隨著 IL 指令篇的結束,本系列也已經接近尾聲,在這接近結束的最後,會提供幾個可供直接使用的示例,以供大伙分析或使用在項目中。 ...
  • 當從不同來源導入Excel數據時,可能存在重覆的記錄。為了確保數據的準確性,通常需要刪除這些重覆的行。手動查找並刪除可能會非常耗費時間,而通過編程腳本則可以實現在短時間內處理大量數據。本文將提供一個使用C# 快速查找並刪除Excel重覆項的免費解決方案。 以下是實現步驟: 1. 首先安裝免費.NET ...
  • C++ 異常處理 C++ 異常處理機制允許程式在運行時處理錯誤或意外情況。它提供了捕獲和處理錯誤的一種結構化方式,使程式更加健壯和可靠。 異常處理的基本概念: 異常: 程式在運行時發生的錯誤或意外情況。 拋出異常: 使用 throw 關鍵字將異常傳遞給調用堆棧。 捕獲異常: 使用 try-catch ...
  • 優秀且經驗豐富的Java開發人員的特征之一是對API的廣泛瞭解,包括JDK和第三方庫。 我花了很多時間來學習API,尤其是在閱讀了Effective Java 3rd Edition之後 ,Joshua Bloch建議在Java 3rd Edition中使用現有的API進行開發,而不是為常見的東西編 ...
  • 框架 · 使用laravel框架,原因:tp的框架路由和orm沒有laravel好用 · 使用強制路由,方便介面多時,分多版本,分文件夾等操作 介面 · 介面開發註意欄位類型,欄位是int,查詢成功失敗都要返回int(對接java等強類型語言方便) · 查詢介面用GET、其他用POST 代碼 · 所 ...
  • 正文 下午找企業的人去鎮上做貸後。 車上聽同事跟那個司機對罵,火星子都快出來了。司機跟那同事更熟一些,連我在內一共就三個人,同事那一手指桑罵槐給我都聽愣了。司機也是老社會人了,馬上聽出來了,為那個無辜的企業經辦人辯護,實際上是為自己辯護。 “這個事情你不能怪企業。”“但他們總不能讓銀行的人全權負責, ...