導讀 本文將介紹網易數帆在數據治理方面的一些總結和思考。文章將圍繞以下三點展開: 1. 數據治理解決了什麼問題 2. 數據治理體系 3. 淺談數據治理的實現 01數據治理解決了什麼問題 首先看一下數據治理解決了什麼問題,可以總結為六個方面: 1. 數據開發與數據治理脫節 在許多企業中存在這樣一個現象 ...
導讀
本文將介紹網易數帆在數據治理方面的一些總結和思考。文章將圍繞以下三點展開:
1. 數據治理解決了什麼問題
2. 數據治理體系
3. 淺談數據治理的實現
01數據治理解決了什麼問題
首先看一下數據治理解決了什麼問題,可以總結為六個方面:
1. 數據開發與數據治理脫節
在許多企業中存在這樣一個現象,就是對於數據的整個開發和治理往往是一個先污染後治理的過程,數據治理往往不會融入到數據生產的過程當中,與數據開發、建模、運維安全這些環節都會存在脫節的現象。因此,對企業來說進行數據治理的時候就需要對現有的系統和流程進行改造,必然會面對很高昂的成本。所以我們需要將數據治理活動前置,在數據生產環節就加入數據治理的活動,將數據開發和數據治理一體化結合起來。
2. 煙囪式的數據開發
在網易早期,數倉建設更多的是業務部門各自內部進行維護的,沒有上升到組織架構層面進行規劃。不同的業務部門,因為都有數據分析的需求,就導致各部門會存在各種零散分裂的小數倉。給企業內部的數據管理和共用造成很大的問題。煙囪式的數據開發,還容易造成指標口徑不一致、數據重覆開發、數據無法共用等問題,在中台建設前也缺少統一的規範建模的標準。
3. 不同平臺缺少統一的管控
在我們的客戶裡面就有一個比較典型的例子,因為其IT架構存在很多不同的平臺系統,系統從後端到前端也是相互獨立緊耦合開發,導致整個系統很臃腫,建設效率又很低,對於業務的響應也不夠快,並且存在大量的重覆建設工作。因此,他們將建立統一標準的大數據開發與治理平臺作為集團戰略,將各個獨立系統中存在的大量歷史數據及任務進行統一管理。但是,由於這些獨立系統的存在成為了他們做中台建設的一個阻礙,如果要去做中台,不僅需要去承擔高昂的數據遷移成本,面對遷移過程中可能出現的數據遺失問題,還要去培養人員去掌握新的開發和分析工具。所以,他們對開發與治理平臺的訴求就很高。
4. 治理過程缺少可量化的監控
治理過程實際上是很難衡量的。如果忽視了可視化的成果展示,會導致領導或者客戶不易感知治理的成果,從而無法認同治理團隊的工作。所以,在整個治理過程中,除了要有階段性的目標,還要有可視化效果的呈現。比如發佈了多少元數據,這些元數據在哪裡能夠被看到;存在多少質量稽核規則、又有多少規則被引用了。
5. 對數據的成本和價值缺少精細化的管理
隨著企業業務的高速發展,數據量呈指數增長,相應的數據成本也是急劇增加的。因此,企業需要識別有價值數據,去除無用數據,然後沉澱數據資產。對企業來說,就需要進行數據成本和價值精細化的管理。如何去做好企業公共資源的復用,如何基於ROI的方式去沉澱數據資產等,對整個數據團隊是很大的考驗。這也是數據治理要解決的問題。
6. 數據治理缺少閉環
數據治理實際上是一個長期可持續的過程。因此,我們在治理活動的各個環節是需要做到閉環的,去保證治理的結果切實落地。比如質量稽核規則,如果只是單純配置好質量規則,通過質量稽核規則找出一堆問題,而沒有將其具體落實到某些人或者是落實到相關人員的KPI上,這樣就會導致質量問題可能今天犯了之後,沒人關註,後面還會反覆出現,最後質量規則就形同虛設。數據治理還是要明確責任人,完成問題的反饋、記錄,從而閉環整個流程。
02數據治理體系
數據治理體系,要根據實際的客戶(企業)場景、行業場景,結合數據治理產品工具,去建立相應的流程,將制度建立在流程的基礎上,管理建立在制度的基礎上,形成全鏈路的數據治理體系。在實際實施過程中,要圍繞數據治理產品工具、流程、制度及管理去展開數據治理。
03淺談數據治理的實現
1. 數據治理工具——整體方案
在治理工具方面,要將治理和開發一體化,將整個治理流程貫穿到各個子產品,去沉澱一套全鏈路的數據治理體系。
在初期,先設計後開發。我們會有相關的一些模塊作為支撐。做完之後要對數據進行評估,通過不同的維度去考察治理結果,併進行可視化展現。整個過程依據於一整套基於企業組織架構而建立並完善的數據治理流程。數據在對外展示並被使用的時候,通過數據資產地圖開放給相關的用戶、業務人員、運營人員、開發人員,讓他們能夠從裡面瞭解元數據、瞭解數據資產的分佈情況、數據血緣等內容。
2. 數據治理工具——開發與治理一體化
數據開發和治理一體化,指的是將數據治理的過程融入到數據開發的全生命周期當中,強調“先設計、後開發、先標準、後建模”的原則。其目標就是將整個數據治理的流程與開發全生命周期相融合,在數據開發過程中去完成數據治理。通過指標和數據標準的定義,實現“規範即設計,設計即開發,開發即治理”的開發治理一體化理念。
如圖上展示,在不同的階段,將數據模型、數據傳輸、數據安全、數據質量等形成規範化的定義,使整個治理過程與開發過程結合起來。
3. 數據治理流程——規範建模
在整個設計階段進行標準化的規範建模,能夠保證數據模型的規範化,提高數據資產水平,提升數據的質量。可以結合國家的標準、行業的標準、企業自身標準,以及各個業務部門的核心數據去打造一套貼合自身業務發展的數據標準體系,通過數據元和數據字典去承載。也可以通過對各條業務線的分析去梳理出相關的原子指標,派生指標以及複合指標。通過指標系統對指標進行管理,去完成數據規範定義,助力數據模型規範設計。解決指標口徑的計算口徑不一致,指標定義的不一致,數據來源不一致等指標可信度低的問題。最後在數據標準和指標規範下構建模型,從而沉澱我們的業務元數據。
4. 數據治理流程——元數據資產治理元數據可分為業務元數據、技術元數據和管理元數據。首先,要去完善業務元數據和技術元數據以及管理元數據,要將它們補充完整。然後根據元數據的治理髮布流程將元數據發佈上線。同時配合數據資產中心的資產健康診斷,並基於 ROI 的數據資產精細化管理,對數據資產的健康情況和使用情況進行實時的觀察,識別有價值的資產。
5. 數據治理流程——湖外數據治理
數據治理的流程,還包括湖外數據的治理。湖外的數據可能來源於業務資料庫,比如 MySQL、Oracle 等。針對這類數據,可以首先通過數據治理的管理員根據治理需求向 IT 部門發起登記數據源操作,數據源可來源於不同的業務系統,登記數據源後就可以進行元數據採集、註冊。註冊後,就可以根據完善度來決定是否需要治理。最終將數據發佈為資產,供業務人員瀏覽和使用。
6. 數據治理流程——湖內數據治理
相比於湖外數據,湖內數據的治理也是通過註冊、治理、審批、發佈這幾個步驟進行的。首先,進行註冊,註冊後,經過業務治理專員或者技術治理專員不斷完善業務和技術元數據,向申請人提交發佈申請,最終由數據治理管理員審核發佈,發佈後的數據資產可提供給業務人員瀏覽和使用。如果在使用過程中發現有數據問題,也可再次發起數據治理或者是數據下線。
7. 數據治理制度——開發規範制度
數據治理的制度包含很多,比如開發規範制度,數據要如何去準備?元數據怎麼去梳理?有沒有模板?建模時主題域的命名?表和欄位的命名有沒有相應的規範要求?數據在進行調度的時候,如何配置?怎樣去運營等等,這些都會有相應的規範。
8. 數據治理制度——指標管理制度
指標管理制度,要明確指標的名稱、計算口徑以及業務口徑,這些都需要有一定的規範。只有有了規範,才能夠保證統一化、標準化。因此,可以有相應的指標管理制度,通過指標管理制度去保障體系化的管理。然後,可以根據這個制度去構建相應的指標模板,去梳理指標的基本信息、口徑定義,完善指標的血緣關係等。
9. 數據治理制度——數據質量管理制度
數據質量管理制度,包含事前規則定義、事中質量監控、事後量化分析和問題追溯。在事前需求和規則定義的時候,通過事先梳理好的質量規則模板,通過自定義的一些規則,或者通過標準推薦的規則構建模板、構建規範。將質量規則配置完成之後,交與數據治理團隊監控。如果發現質量問題,則要完成質量報告,對問題進行追蹤改進以及相關的績效考核。
10. 數據治理管理——組織架構
在管理層面要構建專門的部門來負責數據治理的工作,完善相關的組織架構,進行權責分擔機制。比如有相關的數據治理管理工作組,有相關的數據治理管理員以及數據治理專員。數據治理管理員是作為集團數據治理工作的管理人員,對所有待治理的數據進行負責,推進和協調各部門的業務數據治理。數據治理專員是分派在各個部門,由各個部門內部確定的專門的一線人員,可對自己部門的數據進行治理。
11. 數據治理管理——運營與沉澱
數據治理不是一個臨時性的工作,從數據生命周期的全過程到治理體系的健康運行都需要一個長效的治理機制來保證,進行體系化的數據治理,發現問題、解決手段、持續運營、持續沉澱要形成閉環。
如圖,圍繞數據資產的閉環。首先是發現問題,我們會圍繞著成本、標準、質量、安全、價值這樣五個方面去明確需要進行治理的內容。然後,基於需要治理的內容,配套專題優化治理工具,比如對無用數據推薦下線、對錶生命周期的管理、對計算任務的優化等。最後,在治理過程當中持續有抓手,包括推送整個項目、個人的資產賬單、數據治理的紅黑榜、資產健康分和個人的任務優先順序和資源預算申請掛鉤等舉措。此外還需進行一些持續性的運營,比如舉辦數據治理大賽,業務線專項治理活動等,來持續運營和打磨產品的能力。
本期分享嘉賓:傅正
- 網易數帆
- 大數據產品專家
- 前華為高級培訓講師,現網易大數據產品專家。主要負責數據開發、數據治理與數據應用方向,多年ICT領域的產品及培訓交付經驗,具備在金融、零售、製造等多行業的豐富項目實踐能力。