網易數帆數據治理體系、工具、流程、制度與管理概述

来源:https://www.cnblogs.com/163yun/archive/2023/03/09/17198766.html
-Advertisement-
Play Games

導讀 本文將介紹網易數帆在數據治理方面的一些總結和思考。文章將圍繞以下三點展開: 1. 數據治理解決了什麼問題 2. 數據治理體系 3. 淺談數據治理的實現 01數據治理解決了什麼問題 首先看一下數據治理解決了什麼問題,可以總結為六個方面: 1. 數據開發與數據治理脫節 在許多企業中存在這樣一個現象 ...


導讀

本文將介紹網易數帆在數據治理方面的一些總結和思考。文章將圍繞以下三點展開:

1. 數據治理解決了什麼問題

2. 數據治理體系

3. 淺談數據治理的實現

01數據治理解決了什麼問題

圖片

首先看一下數據治理解決了什麼問題,可以總結為六個方面:

1. 數據開發與數據治理脫節

在許多企業中存在這樣一個現象,就是對於數據的整個開發和治理往往是一個先污染後治理的過程,數據治理往往不會融入到數據生產的過程當中,與數據開發、建模、運維安全這些環節都會存在脫節的現象。因此,對企業來說進行數據治理的時候就需要對現有的系統和流程進行改造,必然會面對很高昂的成本。所以我們需要將數據治理活動前置,在數據生產環節就加入數據治理的活動,將數據開發和數據治理一體化結合起來。

2. 煙囪式的數據開發

在網易早期,數倉建設更多的是業務部門各自內部進行維護的,沒有上升到組織架構層面進行規劃。不同的業務部門,因為都有數據分析的需求,就導致各部門會存在各種零散分裂的小數倉。給企業內部的數據管理和共用造成很大的問題。煙囪式的數據開發,還容易造成指標口徑不一致、數據重覆開發、數據無法共用等問題,在中台建設前也缺少統一的規範建模的標準。

3. 不同平臺缺少統一的管控

在我們的客戶裡面就有一個比較典型的例子,因為其IT架構存在很多不同的平臺系統,系統從後端到前端也是相互獨立緊耦合開發,導致整個系統很臃腫,建設效率又很低,對於業務的響應也不夠快,並且存在大量的重覆建設工作。因此,他們將建立統一標準的大數據開發與治理平臺作為集團戰略,將各個獨立系統中存在的大量歷史數據及任務進行統一管理。但是,由於這些獨立系統的存在成為了他們做中台建設的一個阻礙,如果要去做中台,不僅需要去承擔高昂的數據遷移成本,面對遷移過程中可能出現的數據遺失問題,還要去培養人員去掌握新的開發和分析工具。所以,他們對開發與治理平臺的訴求就很高。

4. 治理過程缺少可量化的監控

治理過程實際上是很難衡量的。如果忽視了可視化的成果展示,會導致領導或者客戶不易感知治理的成果,從而無法認同治理團隊的工作。所以,在整個治理過程中,除了要有階段性的目標,還要有可視化效果的呈現。比如發佈了多少元數據,這些元數據在哪裡能夠被看到;存在多少質量稽核規則、又有多少規則被引用了。

5. 對數據的成本和價值缺少精細化的管理

隨著企業業務的高速發展,數據量呈指數增長,相應的數據成本也是急劇增加的。因此,企業需要識別有價值數據,去除無用數據,然後沉澱數據資產。對企業來說,就需要進行數據成本和價值精細化的管理。如何去做好企業公共資源的復用,如何基於ROI的方式去沉澱數據資產等,對整個數據團隊是很大的考驗。這也是數據治理要解決的問題。

6. 數據治理缺少閉環

數據治理實際上是一個長期可持續的過程。因此,我們在治理活動的各個環節是需要做到閉環的,去保證治理的結果切實落地。比如質量稽核規則,如果只是單純配置好質量規則,通過質量稽核規則找出一堆問題,而沒有將其具體落實到某些人或者是落實到相關人員的KPI上,這樣就會導致質量問題可能今天犯了之後,沒人關註,後面還會反覆出現,最後質量規則就形同虛設。數據治理還是要明確責任人,完成問題的反饋、記錄,從而閉環整個流程。

02數據治理體系

數據治理體系,要根據實際的客戶(企業)場景行業場景,結合數據治理產品工具,去建立相應的流程,將制度建立在流程的基礎上,管理建立在制度的基礎上,形成全鏈路的數據治理體系。在實際實施過程中,要圍繞數據治理產品工具流程制度管理去展開數據治理。

圖片

03淺談數據治理的實現

1. 數據治理工具——整體方案

在治理工具方面,要將治理和開發一體化,將整個治理流程貫穿到各個子產品,去沉澱一套全鏈路的數據治理體系。

圖片

在初期,先設計後開發。我們會有相關的一些模塊作為支撐。做完之後要對數據進行評估,通過不同的維度去考察治理結果,併進行可視化展現。整個過程依據於一整套基於企業組織架構而建立並完善的數據治理流程。數據在對外展示並被使用的時候,通過數據資產地圖開放給相關的用戶、業務人員、運營人員、開發人員,讓他們能夠從裡面瞭解元數據、瞭解數據資產的分佈情況、數據血緣等內容。

2. 數據治理工具——開發與治理一體化

數據開發和治理一體化,指的是將數據治理的過程融入到數據開發的全生命周期當中,強調“先設計、後開發、先標準、後建模”的原則。其目標就是將整個數據治理的流程與開發全生命周期相融合,在數據開發過程中去完成數據治理。通過指標和數據標準的定義,實現“規範即設計,設計即開發,開發即治理”的開發治理一體化理念。

圖片

如圖上展示,在不同的階段,將數據模型、數據傳輸、數據安全、數據質量等形成規範化的定義,使整個治理過程與開發過程結合起來。

3. 數據治理流程——規範建模

圖片

在整個設計階段進行標準化的規範建模,能夠保證數據模型的規範化,提高數據資產水平,提升數據的質量。可以結合國家的標準、行業的標準、企業自身標準,以及各個業務部門的核心數據去打造一套貼合自身業務發展的數據標準體系,通過數據元和數據字典去承載。也可以通過對各條業務線的分析去梳理出相關的原子指標,派生指標以及複合指標。通過指標系統對指標進行管理,去完成數據規範定義,助力數據模型規範設計。解決指標口徑的計算口徑不一致,指標定義的不一致,數據來源不一致等指標可信度低的問題。最後在數據標準和指標規範下構建模型,從而沉澱我們的業務元數據。

4. 數據治理流程——元數據資產治理圖片元數據可分為業務元數據、技術元數據和管理元數據。首先,要去完善業務元數據和技術元數據以及管理元數據,要將它們補充完整。然後根據元數據的治理髮布流程將元數據發佈上線。同時配合數據資產中心的資產健康診斷,並基於 ROI 的數據資產精細化管理,對數據資產的健康情況和使用情況進行實時的觀察,識別有價值的資產。

5. 數據治理流程——湖外數據治理

圖片

數據治理的流程,還包括湖外數據的治理。湖外的數據可能來源於業務資料庫,比如 MySQL、Oracle 等。針對這類數據,可以首先通過數據治理的管理員根據治理需求向 IT 部門發起登記數據源操作,數據源可來源於不同的業務系統,登記數據源後就可以進行元數據採集、註冊。註冊後,就可以根據完善度來決定是否需要治理。最終將數據發佈為資產,供業務人員瀏覽和使用。

6. 數據治理流程——湖內數據治理

圖片

相比於湖外數據,湖內數據的治理也是通過註冊、治理、審批、發佈這幾個步驟進行的。首先,進行註冊,註冊後,經過業務治理專員或者技術治理專員不斷完善業務和技術元數據,向申請人提交發佈申請,最終由數據治理管理員審核發佈,發佈後的數據資產可提供給業務人員瀏覽和使用。如果在使用過程中發現有數據問題,也可再次發起數據治理或者是數據下線。

7. 數據治理制度——開發規範制度圖片

數據治理的制度包含很多,比如開發規範制度,數據要如何去準備?元數據怎麼去梳理?有沒有模板?建模時主題域的命名?表和欄位的命名有沒有相應的規範要求?數據在進行調度的時候,如何配置?怎樣去運營等等,這些都會有相應的規範。

8. 數據治理制度——指標管理制度

圖片

指標管理制度,要明確指標的名稱、計算口徑以及業務口徑,這些都需要有一定的規範。只有有了規範,才能夠保證統一化、標準化。因此,可以有相應的指標管理制度,通過指標管理制度去保障體系化的管理。然後,可以根據這個制度去構建相應的指標模板,去梳理指標的基本信息、口徑定義,完善指標的血緣關係等。

9. 數據治理制度——數據質量管理制度

圖片數據質量管理制度,包含事前規則定義、事中質量監控、事後量化分析和問題追溯。在事前需求和規則定義的時候,通過事先梳理好的質量規則模板,通過自定義的一些規則,或者通過標準推薦的規則構建模板、構建規範。將質量規則配置完成之後,交與數據治理團隊監控。如果發現質量問題,則要完成質量報告,對問題進行追蹤改進以及相關的績效考核。

10. 數據治理管理——組織架構

圖片

在管理層面要構建專門的部門來負責數據治理的工作,完善相關的組織架構,進行權責分擔機制。比如有相關的數據治理管理工作組,有相關的數據治理管理員以及數據治理專員。數據治理管理員是作為集團數據治理工作的管理人員,對所有待治理的數據進行負責,推進和協調各部門的業務數據治理。數據治理專員是分派在各個部門,由各個部門內部確定的專門的一線人員,可對自己部門的數據進行治理。

11. 數據治理管理——運營與沉澱

數據治理不是一個臨時性的工作,從數據生命周期的全過程到治理體系的健康運行都需要一個長效的治理機制來保證,進行體系化的數據治理,發現問題、解決手段、持續運營、持續沉澱要形成閉環。

圖片

如圖,圍繞數據資產的閉環。首先是發現問題,我們會圍繞著成本、標準、質量、安全、價值這樣五個方面去明確需要進行治理的內容。然後,基於需要治理的內容,配套專題優化治理工具,比如對無用數據推薦下線、對錶生命周期的管理、對計算任務的優化等。最後,在治理過程當中持續有抓手,包括推送整個項目、個人的資產賬單、數據治理的紅黑榜、資產健康分和個人的任務優先順序和資源預算申請掛鉤等舉措。此外還需進行一些持續性的運營,比如舉辦數據治理大賽,業務線專項治理活動等,來持續運營和打磨產品的能力。

本期分享嘉賓:傅正

  • 網易數帆
  • 大數據產品專家
  • 前華為高級培訓講師,現網易大數據產品專家。主要負責數據開發、數據治理與數據應用方向,多年ICT領域的產品及培訓交付經驗,具備在金融、零售、製造等多行業的豐富項目實踐能力。

限時開放中!免費試用網易數據治理產品


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 自動化測試環境的搭建 :一、安裝 selenium: 安裝方式一: pip install -U selenium 安裝方式二: 手動安裝 selenium: 1、安裝python包,選擇全部組件(pip、安裝過程中配置環境變數)解壓selenium-4.8.2.tar.gz,然後用cmd進入解壓目 ...
  • 一、什麼是Vim Vim是一個類似於Vi的著名的功能強大、高度可定製的文本編輯器,在Vi的基礎上改進和增加了很多特性。代碼補全、編譯及錯誤跳轉等方便編程的功能特別豐富,在程式員中被廣泛使用。和Emacs併列成為類Unix系統用戶最喜歡的文本編輯器。 二、Vim鍵點陣圖 三、Vim的三種模式 Vim 有 ...
  • 一、引言 在之前圍繞STM32的GPIO的基本結構進行了介紹,圖1為STM32的5V容忍的GPIO口內部基本結構圖,圖2為GPIO的基本結構中各個模塊部分的概述。 閱讀GPIO基本結構的內容能夠對GPIO的工作模式有更深的瞭解。正是由於GPIO的結構中包含了多樣性的電路和模塊,因此進行合理的配置組合 ...
  • 1 文件目錄指令 1 pwd 顯示當前目錄的絕對路徑。 說明當前位置在/home/sora 2 cd 切換到指定目錄。 cd ~ 切換到當前用戶的家目錄:如果當前用戶為root,會切換到/root/,如果當前用戶為普通用戶名字叫做A,會切換到/home/A/。 cd .. 切換到上一級目錄 3 mk ...
  • 可以使用以下方法將Win32視窗設置為透明: 定義視窗類時,在WNDCLASSEX結構體中設置hbrBackground成員為NULL。 在視窗創建時,使用WS_EX_LAYERED風格和SetLayeredWindowAttributes函數將視窗設置為透明: HWND hwnd = Create ...
  • 1 系統運行級別 0:關機1:單用戶【找回丟失密碼】 2:多用戶狀態沒有網路服務3:多用戶狀態有網路服務 4:系統未使用保留給用戶5:圖形界面 6:系統重啟 其中,最常用的為3和5。 有關命令: (1)init :切換不同運行狀態 從 圖形界面 切換 為多用戶狀態有網路服務。 (2)systemct ...
  • 更好地提高效率一直以來是袋鼠雲數棧產品的主要目標之一。當前數棧客戶的實時任務都是基於 Per-Job 模式運行的,客戶在進行一些任務參數的修改之後,只能先取消當前任務,再選擇 CheckPoint 恢復或者重新運行,整個過程需要3-5分鐘,比較浪費時間。為了達到提高效率的目的,我們針對 Per-Jo ...
  • 摘要:本文簡單介紹sequence的使用場景及如何修改sequence的cache值提高性能。 本文分享自華為雲社區《GaussDB(DWS)關於sequence的那些事》,作者:Arrow0lf 。 什麼是sequence sequence,也稱作序列,是用來產生唯一整數的資料庫對象。序列的值按照 ...
一周排行
    -Advertisement-
    Play Games
  • 概述:在C#中,++i和i++都是自增運算符,其中++i先增加值再返回,而i++先返回值再增加。應用場景根據需求選擇,首碼適合先增後用,尾碼適合先用後增。詳細示例提供清晰的代碼演示這兩者的操作時機和實際應用。 在C#中,++i 和 i++ 都是自增運算符,但它們在操作上有細微的差異,主要體現在操作的 ...
  • 上次發佈了:Taurus.MVC 性能壓力測試(ap 壓測 和 linux 下wrk 壓測):.NET Core 版本,今天計劃準備壓測一下 .NET 版本,來測試並記錄一下 Taurus.MVC 框架在 .NET 版本的性能,以便後續持續優化改進。 為了方便對比,本文章的電腦環境和測試思路,儘量和... ...
  • .NET WebAPI作為一種構建RESTful服務的強大工具,為開發者提供了便捷的方式來定義、處理HTTP請求並返迴響應。在設計API介面時,正確地接收和解析客戶端發送的數據至關重要。.NET WebAPI提供了一系列特性,如[FromRoute]、[FromQuery]和[FromBody],用 ...
  • 原因:我之所以想做這個項目,是因為在之前查找關於C#/WPF相關資料時,我發現講解圖像濾鏡的資源非常稀缺。此外,我註意到許多現有的開源庫主要基於CPU進行圖像渲染。這種方式在處理大量圖像時,會導致CPU的渲染負擔過重。因此,我將在下文中介紹如何通過GPU渲染來有效實現圖像的各種濾鏡效果。 生成的效果 ...
  • 引言 上一章我們介紹了在xUnit單元測試中用xUnit.DependencyInject來使用依賴註入,上一章我們的Sample.Repository倉儲層有一個批量註入的介面沒有做單元測試,今天用這個示例來演示一下如何用Bogus創建模擬數據 ,和 EFCore 的種子數據生成 Bogus 的優 ...
  • 一、前言 在自己的項目中,涉及到實時心率曲線的繪製,項目上的曲線繪製,一般很難找到能直接用的第三方庫,而且有些還是定製化的功能,所以還是自己繪製比較方便。很多人一聽到自己畫就害怕,感覺很難,今天就分享一個完整的實時心率數據繪製心率曲線圖的例子;之前的博客也分享給DrawingVisual繪製曲線的方 ...
  • 如果你在自定義的 Main 方法中直接使用 App 類並啟動應用程式,但發現 App.xaml 中定義的資源沒有被正確載入,那麼問題可能在於如何正確配置 App.xaml 與你的 App 類的交互。 確保 App.xaml 文件中的 x:Class 屬性正確指向你的 App 類。這樣,當你創建 Ap ...
  • 一:背景 1. 講故事 上個月有個朋友在微信上找到我,說他們的軟體在客戶那邊隔幾天就要崩潰一次,一直都沒有找到原因,讓我幫忙看下怎麼回事,確實工控類的軟體環境複雜難搞,朋友手上有一個崩潰的dump,剛好丟給我來分析一下。 二:WinDbg分析 1. 程式為什麼會崩潰 windbg 有一個厲害之處在於 ...
  • 前言 .NET生態中有許多依賴註入容器。在大多數情況下,微軟提供的內置容器在易用性和性能方面都非常優秀。外加ASP.NET Core預設使用內置容器,使用很方便。 但是筆者在使用中一直有一個頭疼的問題:服務工廠無法提供請求的服務類型相關的信息。這在一般情況下並沒有影響,但是內置容器支持註冊開放泛型服 ...
  • 一、前言 在項目開發過程中,DataGrid是經常使用到的一個數據展示控制項,而通常表格的最後一列是作為操作列存在,比如會有編輯、刪除等功能按鈕。但WPF的原始DataGrid中,預設只支持固定左側列,這跟大家習慣性操作列放最後不符,今天就來介紹一種簡單的方式實現固定右側列。(這裡的實現方式參考的大佬 ...