大白話 六問數據中台!你想知道的都在這了!

来源:https://www.cnblogs.com/liuyanling/archive/2020/05/19/12919918.html
-Advertisement-
Play Games

數據中台、相信這四個字大家一定不陌生。因為在2019年、數據中台可謂是最火的概念之一,很多大公司都在佈局自己的數據中台。 那麼數據中台到底是什麼?它和我們熟知的數據平臺有啥區別?它為什麼會這麼火、能給企業帶來什麼價值呢?數據中台整體架構和全景圖又是什麼呢? 筆者有幸參與了公司數據中台從0到N的建設, ...


_1

數據中台、相信這四個字大家一定不陌生。因為在2019年、數據中台可謂是最火的概念之一,很多大公司都在佈局自己的數據中台。

那麼數據中台到底是什麼?它和我們熟知的數據平臺有啥區別?它為什麼會這麼火、能給企業帶來什麼價值呢?數據中台整體架構和全景圖又是什麼呢?

筆者有幸參與了公司數據中台從0到N的建設,計劃從概念到落地,把中台那些事跟您說透,與您一起分享學習。筆者公眾號:【胖滾豬學編程】

第一問:數據中台是什麼

先不說那些官方的抽象的概念了,我想用我自己的大白話去說數據中台的概念。

那就是如果把前臺比作賺錢的。後臺比作支持的。那麼中台呢就是支持加速賺錢的。

這個比喻我覺得還是很形象的,中台呢它實質就是前臺和後臺的一個橋梁,並且它能在這當中起到很好的加速效果。這裡的加速,可以是效率上的提高,可以是協作上的共贏

image

舉個例子,比如前臺業務人員日常要分析廣告投放、在哪個平臺投放效益最好呢?抖音還是頭條呢?這直接涉及到公司的money了。

前臺人員要分析這個肯定要有數據吧、就會向後臺人員要數據:我需要哪些表你要幫我同步過來數倉里,同步好了你要授權給我,然後你再去配置定時報表任務、配置好了你要再做一個前端的展示頁面。這還沒完,數據有問題了還得跟你逼逼叨叨!

這個流程下來,前臺人員需要向後臺人員溝通100句。有了數據中台、一句話都不用說了。上面這些操作,前臺人員都可以自行完成。

所以說數據中台給我們業務效率帶來了巨大的提升。

那數據中台有沒有缺點呢?

我覺得也是有的,本來後臺那些單身小哥哥可以蹭這個機會去跟前臺妹子打些交道、說不定姻緣就來了,畢竟前臺妹子多,結果被這數據中台一搞,一句話都說不上了。這確實是數據中台的一個缺點。

現在大家應該有個初步的印象了,那麼我再用官方抽象的語句做一個總結:數據中台是企業級能力復用平臺!企業級大數據通過系統化的方式實現統一共用的數據組織。其中共用包括數據、信息、技術、業務的共用等。它以服務化的方式賦能前臺數據應用,穩定可靠、高效的支持上層業務的快速創新,為業務快速賦能

第二問:數據中台和數據平臺的區別

因為我們一直以來都是聽數據平臺這個詞聽得比較多,所以第二問我們還是要來說一下它們之間的差別。

數據平臺你可以把它看成是數據集,那麼數據中台呢他就是數據集API,那麼它們之間就差在API這三個字母上,API我想應該不需要過多解釋呢,大家都知道,比如學JAVA的時候有了JAVA API你才知道怎麼使用,那麼數據中台相當於在數據平臺的基礎上告訴你這些數據怎麼使用

另外,數據中台是偏向於業務的,而數據平臺是偏技術的

image

但是、數據中台和數據平臺也有千絲萬縷的聯繫。數據中台需要依賴大數據平臺,大數據平臺完成了數據研發的全流程覆蓋,而數據中台增加了數據治理和數據服務化的內容。總的來說,數據中台吸收了傳統數據倉庫、數據湖、大數據平臺的優勢,同時又解決了數據共用的難題,通過數據應用,實現數據價值的落地。

第三問:數據中台有哪些價值

數據中台的價值,我想用三個關鍵詞來概括:效率、協作、質量

  • 效率:比如數據研發的效率、發現數據的效率。為什麼我們每開發一個報表都要改代碼呢?為什麼數據有問題的問題的時候,我們要找很久才能發現是某某上游的問題呢。
  • 協作:很多應用開發,其實不同的項目組需求大致相同。還是用開發報表來舉例,不同業務線項目組開發報表都一個套路,但因為是別的項目組維護的,所以就是得分別開發一遍。就不能協作共贏?
  • 質量:比如數據的一致性、準確性、及時性以及完整性,有沒有一個通用的平臺來檢驗這些數據呢。

上面說的還是有一點兒抽象,其實要具體回答這個問題,你首先得大概知道數據中台有哪些功能哪些模塊。比如數據地圖、元數據管理、數據血緣、數據處理等等都屬於數據中台。每個模塊都有它的功能,所以它的作用並不是一言兩語可以說得清,這裡筆者再舉一些真實的例子來對比一下:

例一:沒有數據中台之前,業務人員根本就不知道HIVE數倉有哪些表,不知道這些表的具體信息(列信息、索引信息、分區信息、責任人信息)。他要出一張報表還要來問你:"hello 幫我看一下HIVE有沒有同步這張表吧?hello 幫我看一下這張表是不是分區表吧?"。這個表有問題了,他又要來問你"hello 這張表負責人是誰啊?" 有了數據中台之後,完全不需要管了。(這個是元數據管理給我們帶來的便捷)

例二:沒有數據中台之前,我們根本就不清楚表的來源和鏈路,尤其是一些複雜報表的結果表,來源非常複雜可能涉及到多個系統,涉及十幾個源表。等到上游業務表要做變更、都不知道會影響哪些報表,線上已經運行上千個報表了啊!要去揪出這些來實在是麻煩!有了數據中台之後,10秒鐘就能解決這個問題。(這個是數據血緣給我們帶來的便捷)

第四問:數據中台架構

我們說數據中台是服務於公司業務的,因此必須要從自己的業務角度去進行一個全局的規劃和架構。不過你依舊可以參考一下典型的架構圖:

image

筆者認為可以分為幾大部分:

  • 數據採集匯聚(資料庫,日誌,前端埋點,爬蟲系統等)
  • 數據處理和開發(離線計算、實時流計算等)
  • 數據治理(元數據管理、數據血緣、數據質量、數據安全等)
  • 數據服務(智能報表、標簽系統、推薦系統、大屏等)

其中、數據採集和數據處理開發,你也可以理解為是數據平臺的東西。由於篇幅問題,不對每一個模塊作詳細說明。筆者將在個人公眾號【胖滾豬學編程】詳細分享各個模塊的概念、功能、以及生產落地方案!

第五問:我們該做數據中台嗎?

首先一句話:千萬不要跟風。中台不是你想做想做就能做。

因為要做起一個真正意義上的數據中台,一定是站在公司的層面去看待,而不是某個業務部門自己玩玩過家家。因此需要非常大的投入,人力、物力的投入。而這些系統是否能夠匹配中台建設的需求,還需要持續打磨。另外必須對公司的整體業務滾瓜爛熟,才能有這種全局的視野去建設中台。

那什麼情況下我們可以考慮建設中台呢?

  • 企業是否有大量的數據應用場景?數據中台本身並不能直接產生業務價值,數據中台的本質是支撐快速地孵化數據應用。所以當你的企業有較多數據應用的場景時(一般有3個以上就可以考慮)
  • 企業存在較多的業務數據的孤島,需要整合各個業務系統的數據,進行關聯的分析,此時,你需要構建一個數據中台。比如在我們做電商的初期,倉儲、供應鏈、市場運營都是獨立的數據倉庫,當時數據分析的時候,往往跨了很多數據系統,為了消除這些數據孤島,就必須要構建一個數據中台。
  • 當你的團隊正在面臨效率、質量和成本的苦惱時,面對大量的開發,卻不知道如何提高效能,數據經常出問題而束手無策,老闆還要求你控制數據的成本,這個時候,數據中台可以幫助你。
  • 當你所在的企業面臨經營困難,需要通過數據實現精益運營,提高企業的運營效率的時候,你需要構建一個數據中台,同時結合可視化的Bl數據產品,實現數據從應用到中台的完整構建。
  • 企業規模也是必須要考慮的一個因素,數據中台因為投入大,收益偏長線,所以更適合業務相對穩定的大公司,並不適合初創型的小公司。

第六問:數據中台的參考資料

不得不承認一點,網上關於數據中台的資料太少了,筆者去年中旬從0開始建設數據中台的時候,花了大量時間搜集資料。現在也願意與大家分享一下我收集到的資料。

書籍推薦:數據中台-讓數據用起來。

image

博文推薦:
什麼是中台,什麼不是中台。所有的中台都是業務中台
到底啥是平臺,到底啥是中台?
在構建數據中台之前,你需要知道的幾個趨勢
火熱的數據中台對企業的價值是什麼?
你真地需要一個中台嗎?
阿裡的中台戰略其實是個偽命題
從平臺到中台 | Elasticsearch 在螞蟻金服的實踐經驗
七問七答,親歷者講阿裡中台落地的實踐我的一年中台實戰錄
滴滴出行構建業務中台應對軟體複雜度的具體對策與實踐
10張圖解密阿裡數據中台

落地推薦
可以參考阿裡的DataWorks產品,上面有很多關於數據中台的原型圖可以作為參考。
DataWorks

image

筆者也將在公眾號【胖滾豬學編程】上分享自己搭建數據中台的親身經歷,不多說無用概念,直接把生產落地方案分享給你!

最後總結:以用戶為中心,以願景為指引,從戰略入手,用科學有效的方法,步步為營沉澱企業級能力,付以必要的組織與系統架構調整,方得中台。

wchat1

本文轉載自公眾號【胖滾豬學編程】 用漫畫讓編程so easy and interesting!歡迎關註!形象來源於微信表情包【胖滾家族】喜歡可以下載哦~


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1. 目的 簡化SSH登陸過程, 實現從機器A登陸機器B只需要運行 即可, 即不需要輸入用戶名和密碼。 2. 配置host 配置host的作用是ssh登陸機器時用hostname代替IP, 在機器很多的集群環境中hostname比IP容易記的多, 編輯 文件, 配置需要登陸的機器IP和hostnam ...
  • linux下c編程特點 typeof 取變數類型 GNU c對比ANSI c做了很多擴展,例如動態數組 第7章 Linux設備驅動中的併發控制 造成竟態的原因 多核 進程和中斷形成的多路徑(linux2.6以後,禁止了中斷嵌套) 編譯亂序 執行亂序 解決竟態的辦法 中斷屏蔽:只能屏蔽本核的 原子操作 ...
  • 1、重啟tomcat 使用命令:ps: 查詢tomcat進程號 kill:殺死tomcat進程 步驟: 1)ps -ef | grep tomcat 查詢tomcat進程號, 2)kill -9 進程號 強制殺死該進程2 3)ps -ef | grep tomcat 再次查詢進程是否已經被殺死 4) ...
  • 問題:supervisorctl restart 服務名 失敗 案例: [root@node203 ~]# supervisorctl statusetcd-server-97-203 RUNNING pid 7706, uptime 14:29:46kube-apiserver-97-203 FA ...
  • 資料庫 1.1 資料庫基礎 1.1.1 選擇 1.1.1.1 Having 子句的作用是(C )。 A.查詢結果的分組條件 B.組的篩選條件 C.限定返回的行的判斷條件 D.對結果集進行排序 1.1.1.2 最常用的一種基本數據模型是關係數據模型,它的表示採用(D) A.樹 B.網路 C.圖 D.二 ...
  • 在Oracle和SQL Server資料庫中,可以設置一些複雜的賬號密碼策略,例如在失敗登錄超過N次即可鎖定賬號,那麼在MySQL中能否也有這樣的功能呢?答案是MySQL也有類似這樣的功能,只不過在MySQL中是在其登錄失敗超過閥值後,延遲響應時間,而不是鎖定賬號,在MySQL 5.7.17 以後提... ...
  •  JDBC基本使用方法 JDBC固定步驟: 載入驅動 連接資料庫,代表資料庫 向資料庫發送SQL的對象Statement: CRUD 編寫SQL (根據業務, 不同的SQL) 執行SQL 遍歷結果集 關閉連接 補充: statement.executeQuery(); //執行查詢操作 state ...
  • Redis伺服器負責與多個客戶端建立網路通信,處理客戶端發送的命令請求,在資料庫中保存客戶端執行命令所產生的數據,並通過資源管理來維持伺服器自身的運轉。 命令請求過程(以set命令為例) 1、客戶端向伺服器發送命令請求 SET KEY VALUE。 Redis伺服器的命令請求來自於Redis客戶端, ...
一周排行
    -Advertisement-
    Play Games
  • 前言 在我們開發過程中基本上不可或缺的用到一些敏感機密數據,比如SQL伺服器的連接串或者是OAuth2的Secret等,這些敏感數據在代碼中是不太安全的,我們不應該在源代碼中存儲密碼和其他的敏感數據,一種推薦的方式是通過Asp.Net Core的機密管理器。 機密管理器 在 ASP.NET Core ...
  • 新改進提供的Taurus Rpc 功能,可以簡化微服務間的調用,同時可以不用再手動輸出模塊名稱,或調用路徑,包括負載均衡,這一切,由框架實現並提供了。新的Taurus Rpc 功能,將使得服務間的調用,更加輕鬆、簡約、高效。 ...
  • 順序棧的介面程式 目錄順序棧的介面程式頭文件創建順序棧入棧出棧利用棧將10進位轉16進位數驗證 頭文件 #include <stdio.h> #include <stdbool.h> #include <stdlib.h> 創建順序棧 // 指的是順序棧中的元素的數據類型,用戶可以根據需要進行修改 ...
  • 前言 整理這個官方翻譯的系列,原因是網上大部分的 tomcat 版本比較舊,此版本為 v11 最新的版本。 開源項目 從零手寫實現 tomcat minicat 別稱【嗅虎】心有猛虎,輕嗅薔薇。 系列文章 web server apache tomcat11-01-官方文檔入門介紹 web serv ...
  • C總結與剖析:關鍵字篇 -- <<C語言深度解剖>> 目錄C總結與剖析:關鍵字篇 -- <<C語言深度解剖>>程式的本質:二進位文件變數1.變數:記憶體上的某個位置開闢的空間2.變數的初始化3.為什麼要有變數4.局部變數與全局變數5.變數的大小由類型決定6.任何一個變數,記憶體賦值都是從低地址開始往高地 ...
  • 如果讓你來做一個有狀態流式應用的故障恢復,你會如何來做呢? 單機和多機會遇到什麼不同的問題? Flink Checkpoint 是做什麼用的?原理是什麼? ...
  • C++ 多級繼承 多級繼承是一種面向對象編程(OOP)特性,允許一個類從多個基類繼承屬性和方法。它使代碼更易於組織和維護,並促進代碼重用。 多級繼承的語法 在 C++ 中,使用 : 符號來指定繼承關係。多級繼承的語法如下: class DerivedClass : public BaseClass1 ...
  • 前言 什麼是SpringCloud? Spring Cloud 是一系列框架的有序集合,它利用 Spring Boot 的開發便利性簡化了分散式系統的開發,比如服務註冊、服務發現、網關、路由、鏈路追蹤等。Spring Cloud 並不是重覆造輪子,而是將市面上開發得比較好的模塊集成進去,進行封裝,從 ...
  • class_template 類模板和函數模板的定義和使用類似,我們已經進行了介紹。有時,有兩個或多個類,其功能是相同的,僅僅是數據類型不同。類模板用於實現類所需數據的類型參數化 template<class NameType, class AgeType> class Person { publi ...
  • 目錄system v IPC簡介共用記憶體需要用到的函數介面shmget函數--獲取對象IDshmat函數--獲得映射空間shmctl函數--釋放資源共用記憶體實現思路註意 system v IPC簡介 消息隊列、共用記憶體和信號量統稱為system v IPC(進程間通信機制),V是羅馬數字5,是UNI ...