網易數帆數據治理體系、工具、流程、制度與管理概述

来源:https://www.cnblogs.com/163yun/archive/2023/03/09/17198766.html
-Advertisement-
Play Games

導讀 本文將介紹網易數帆在數據治理方面的一些總結和思考。文章將圍繞以下三點展開: 1. 數據治理解決了什麼問題 2. 數據治理體系 3. 淺談數據治理的實現 01數據治理解決了什麼問題 首先看一下數據治理解決了什麼問題,可以總結為六個方面: 1. 數據開發與數據治理脫節 在許多企業中存在這樣一個現象 ...


導讀

本文將介紹網易數帆在數據治理方面的一些總結和思考。文章將圍繞以下三點展開:

1. 數據治理解決了什麼問題

2. 數據治理體系

3. 淺談數據治理的實現

01數據治理解決了什麼問題

圖片

首先看一下數據治理解決了什麼問題,可以總結為六個方面:

1. 數據開發與數據治理脫節

在許多企業中存在這樣一個現象,就是對於數據的整個開發和治理往往是一個先污染後治理的過程,數據治理往往不會融入到數據生產的過程當中,與數據開發、建模、運維安全這些環節都會存在脫節的現象。因此,對企業來說進行數據治理的時候就需要對現有的系統和流程進行改造,必然會面對很高昂的成本。所以我們需要將數據治理活動前置,在數據生產環節就加入數據治理的活動,將數據開發和數據治理一體化結合起來。

2. 煙囪式的數據開發

在網易早期,數倉建設更多的是業務部門各自內部進行維護的,沒有上升到組織架構層面進行規劃。不同的業務部門,因為都有數據分析的需求,就導致各部門會存在各種零散分裂的小數倉。給企業內部的數據管理和共用造成很大的問題。煙囪式的數據開發,還容易造成指標口徑不一致、數據重覆開發、數據無法共用等問題,在中台建設前也缺少統一的規範建模的標準。

3. 不同平臺缺少統一的管控

在我們的客戶裡面就有一個比較典型的例子,因為其IT架構存在很多不同的平臺系統,系統從後端到前端也是相互獨立緊耦合開發,導致整個系統很臃腫,建設效率又很低,對於業務的響應也不夠快,並且存在大量的重覆建設工作。因此,他們將建立統一標準的大數據開發與治理平臺作為集團戰略,將各個獨立系統中存在的大量歷史數據及任務進行統一管理。但是,由於這些獨立系統的存在成為了他們做中台建設的一個阻礙,如果要去做中台,不僅需要去承擔高昂的數據遷移成本,面對遷移過程中可能出現的數據遺失問題,還要去培養人員去掌握新的開發和分析工具。所以,他們對開發與治理平臺的訴求就很高。

4. 治理過程缺少可量化的監控

治理過程實際上是很難衡量的。如果忽視了可視化的成果展示,會導致領導或者客戶不易感知治理的成果,從而無法認同治理團隊的工作。所以,在整個治理過程中,除了要有階段性的目標,還要有可視化效果的呈現。比如發佈了多少元數據,這些元數據在哪裡能夠被看到;存在多少質量稽核規則、又有多少規則被引用了。

5. 對數據的成本和價值缺少精細化的管理

隨著企業業務的高速發展,數據量呈指數增長,相應的數據成本也是急劇增加的。因此,企業需要識別有價值數據,去除無用數據,然後沉澱數據資產。對企業來說,就需要進行數據成本和價值精細化的管理。如何去做好企業公共資源的復用,如何基於ROI的方式去沉澱數據資產等,對整個數據團隊是很大的考驗。這也是數據治理要解決的問題。

6. 數據治理缺少閉環

數據治理實際上是一個長期可持續的過程。因此,我們在治理活動的各個環節是需要做到閉環的,去保證治理的結果切實落地。比如質量稽核規則,如果只是單純配置好質量規則,通過質量稽核規則找出一堆問題,而沒有將其具體落實到某些人或者是落實到相關人員的KPI上,這樣就會導致質量問題可能今天犯了之後,沒人關註,後面還會反覆出現,最後質量規則就形同虛設。數據治理還是要明確責任人,完成問題的反饋、記錄,從而閉環整個流程。

02數據治理體系

數據治理體系,要根據實際的客戶(企業)場景行業場景,結合數據治理產品工具,去建立相應的流程,將制度建立在流程的基礎上,管理建立在制度的基礎上,形成全鏈路的數據治理體系。在實際實施過程中,要圍繞數據治理產品工具流程制度管理去展開數據治理。

圖片

03淺談數據治理的實現

1. 數據治理工具——整體方案

在治理工具方面,要將治理和開發一體化,將整個治理流程貫穿到各個子產品,去沉澱一套全鏈路的數據治理體系。

圖片

在初期,先設計後開發。我們會有相關的一些模塊作為支撐。做完之後要對數據進行評估,通過不同的維度去考察治理結果,併進行可視化展現。整個過程依據於一整套基於企業組織架構而建立並完善的數據治理流程。數據在對外展示並被使用的時候,通過數據資產地圖開放給相關的用戶、業務人員、運營人員、開發人員,讓他們能夠從裡面瞭解元數據、瞭解數據資產的分佈情況、數據血緣等內容。

2. 數據治理工具——開發與治理一體化

數據開發和治理一體化,指的是將數據治理的過程融入到數據開發的全生命周期當中,強調“先設計、後開發、先標準、後建模”的原則。其目標就是將整個數據治理的流程與開發全生命周期相融合,在數據開發過程中去完成數據治理。通過指標和數據標準的定義,實現“規範即設計,設計即開發,開發即治理”的開發治理一體化理念。

圖片

如圖上展示,在不同的階段,將數據模型、數據傳輸、數據安全、數據質量等形成規範化的定義,使整個治理過程與開發過程結合起來。

3. 數據治理流程——規範建模

圖片

在整個設計階段進行標準化的規範建模,能夠保證數據模型的規範化,提高數據資產水平,提升數據的質量。可以結合國家的標準、行業的標準、企業自身標準,以及各個業務部門的核心數據去打造一套貼合自身業務發展的數據標準體系,通過數據元和數據字典去承載。也可以通過對各條業務線的分析去梳理出相關的原子指標,派生指標以及複合指標。通過指標系統對指標進行管理,去完成數據規範定義,助力數據模型規範設計。解決指標口徑的計算口徑不一致,指標定義的不一致,數據來源不一致等指標可信度低的問題。最後在數據標準和指標規範下構建模型,從而沉澱我們的業務元數據。

4. 數據治理流程——元數據資產治理圖片元數據可分為業務元數據、技術元數據和管理元數據。首先,要去完善業務元數據和技術元數據以及管理元數據,要將它們補充完整。然後根據元數據的治理髮布流程將元數據發佈上線。同時配合數據資產中心的資產健康診斷,並基於 ROI 的數據資產精細化管理,對數據資產的健康情況和使用情況進行實時的觀察,識別有價值的資產。

5. 數據治理流程——湖外數據治理

圖片

數據治理的流程,還包括湖外數據的治理。湖外的數據可能來源於業務資料庫,比如 MySQL、Oracle 等。針對這類數據,可以首先通過數據治理的管理員根據治理需求向 IT 部門發起登記數據源操作,數據源可來源於不同的業務系統,登記數據源後就可以進行元數據採集、註冊。註冊後,就可以根據完善度來決定是否需要治理。最終將數據發佈為資產,供業務人員瀏覽和使用。

6. 數據治理流程——湖內數據治理

圖片

相比於湖外數據,湖內數據的治理也是通過註冊、治理、審批、發佈這幾個步驟進行的。首先,進行註冊,註冊後,經過業務治理專員或者技術治理專員不斷完善業務和技術元數據,向申請人提交發佈申請,最終由數據治理管理員審核發佈,發佈後的數據資產可提供給業務人員瀏覽和使用。如果在使用過程中發現有數據問題,也可再次發起數據治理或者是數據下線。

7. 數據治理制度——開發規範制度圖片

數據治理的制度包含很多,比如開發規範制度,數據要如何去準備?元數據怎麼去梳理?有沒有模板?建模時主題域的命名?表和欄位的命名有沒有相應的規範要求?數據在進行調度的時候,如何配置?怎樣去運營等等,這些都會有相應的規範。

8. 數據治理制度——指標管理制度

圖片

指標管理制度,要明確指標的名稱、計算口徑以及業務口徑,這些都需要有一定的規範。只有有了規範,才能夠保證統一化、標準化。因此,可以有相應的指標管理制度,通過指標管理制度去保障體系化的管理。然後,可以根據這個制度去構建相應的指標模板,去梳理指標的基本信息、口徑定義,完善指標的血緣關係等。

9. 數據治理制度——數據質量管理制度

圖片數據質量管理制度,包含事前規則定義、事中質量監控、事後量化分析和問題追溯。在事前需求和規則定義的時候,通過事先梳理好的質量規則模板,通過自定義的一些規則,或者通過標準推薦的規則構建模板、構建規範。將質量規則配置完成之後,交與數據治理團隊監控。如果發現質量問題,則要完成質量報告,對問題進行追蹤改進以及相關的績效考核。

10. 數據治理管理——組織架構

圖片

在管理層面要構建專門的部門來負責數據治理的工作,完善相關的組織架構,進行權責分擔機制。比如有相關的數據治理管理工作組,有相關的數據治理管理員以及數據治理專員。數據治理管理員是作為集團數據治理工作的管理人員,對所有待治理的數據進行負責,推進和協調各部門的業務數據治理。數據治理專員是分派在各個部門,由各個部門內部確定的專門的一線人員,可對自己部門的數據進行治理。

11. 數據治理管理——運營與沉澱

數據治理不是一個臨時性的工作,從數據生命周期的全過程到治理體系的健康運行都需要一個長效的治理機制來保證,進行體系化的數據治理,發現問題、解決手段、持續運營、持續沉澱要形成閉環。

圖片

如圖,圍繞數據資產的閉環。首先是發現問題,我們會圍繞著成本、標準、質量、安全、價值這樣五個方面去明確需要進行治理的內容。然後,基於需要治理的內容,配套專題優化治理工具,比如對無用數據推薦下線、對錶生命周期的管理、對計算任務的優化等。最後,在治理過程當中持續有抓手,包括推送整個項目、個人的資產賬單、數據治理的紅黑榜、資產健康分和個人的任務優先順序和資源預算申請掛鉤等舉措。此外還需進行一些持續性的運營,比如舉辦數據治理大賽,業務線專項治理活動等,來持續運營和打磨產品的能力。

本期分享嘉賓:傅正

  • 網易數帆
  • 大數據產品專家
  • 前華為高級培訓講師,現網易大數據產品專家。主要負責數據開發、數據治理與數據應用方向,多年ICT領域的產品及培訓交付經驗,具備在金融、零售、製造等多行業的豐富項目實踐能力。

限時開放中!免費試用網易數據治理產品


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 自動化測試環境的搭建 :一、安裝 selenium: 安裝方式一: pip install -U selenium 安裝方式二: 手動安裝 selenium: 1、安裝python包,選擇全部組件(pip、安裝過程中配置環境變數)解壓selenium-4.8.2.tar.gz,然後用cmd進入解壓目 ...
  • 一、什麼是Vim Vim是一個類似於Vi的著名的功能強大、高度可定製的文本編輯器,在Vi的基礎上改進和增加了很多特性。代碼補全、編譯及錯誤跳轉等方便編程的功能特別豐富,在程式員中被廣泛使用。和Emacs併列成為類Unix系統用戶最喜歡的文本編輯器。 二、Vim鍵點陣圖 三、Vim的三種模式 Vim 有 ...
  • 一、引言 在之前圍繞STM32的GPIO的基本結構進行了介紹,圖1為STM32的5V容忍的GPIO口內部基本結構圖,圖2為GPIO的基本結構中各個模塊部分的概述。 閱讀GPIO基本結構的內容能夠對GPIO的工作模式有更深的瞭解。正是由於GPIO的結構中包含了多樣性的電路和模塊,因此進行合理的配置組合 ...
  • 1 文件目錄指令 1 pwd 顯示當前目錄的絕對路徑。 說明當前位置在/home/sora 2 cd 切換到指定目錄。 cd ~ 切換到當前用戶的家目錄:如果當前用戶為root,會切換到/root/,如果當前用戶為普通用戶名字叫做A,會切換到/home/A/。 cd .. 切換到上一級目錄 3 mk ...
  • 可以使用以下方法將Win32視窗設置為透明: 定義視窗類時,在WNDCLASSEX結構體中設置hbrBackground成員為NULL。 在視窗創建時,使用WS_EX_LAYERED風格和SetLayeredWindowAttributes函數將視窗設置為透明: HWND hwnd = Create ...
  • 1 系統運行級別 0:關機1:單用戶【找回丟失密碼】 2:多用戶狀態沒有網路服務3:多用戶狀態有網路服務 4:系統未使用保留給用戶5:圖形界面 6:系統重啟 其中,最常用的為3和5。 有關命令: (1)init :切換不同運行狀態 從 圖形界面 切換 為多用戶狀態有網路服務。 (2)systemct ...
  • 更好地提高效率一直以來是袋鼠雲數棧產品的主要目標之一。當前數棧客戶的實時任務都是基於 Per-Job 模式運行的,客戶在進行一些任務參數的修改之後,只能先取消當前任務,再選擇 CheckPoint 恢復或者重新運行,整個過程需要3-5分鐘,比較浪費時間。為了達到提高效率的目的,我們針對 Per-Jo ...
  • 摘要:本文簡單介紹sequence的使用場景及如何修改sequence的cache值提高性能。 本文分享自華為雲社區《GaussDB(DWS)關於sequence的那些事》,作者:Arrow0lf 。 什麼是sequence sequence,也稱作序列,是用來產生唯一整數的資料庫對象。序列的值按照 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...