隨著業務飛速發展,某汽車製造企業業務系統數量、複雜度和數據量都在呈幾何級數的上漲,這就對於企業IT能力和IT架構模式的要求越來越高。加之企業大力發展數字化營銷、新能源車等業務,希望通過持續優化客戶體驗,創造可持續發展的數字化轉型之路。 為更好應對數字化變革所帶來的挑戰,現有的豎井架構的數據體系難以滿 ...
隨著業務飛速發展,某汽車製造企業業務系統數量、複雜度和數據量都在呈幾何級數的上漲,這就對於企業IT能力和IT架構模式的要求越來越高。加之企業大力發展數字化營銷、新能源車等業務,希望通過持續優化客戶體驗,創造可持續發展的數字化轉型之路。
為更好應對數字化變革所帶來的挑戰,現有的豎井架構的數據體系難以滿足越來越多、越來越快的系統和數據交互、敏捷創新應用、數據共用、新業務拓展的需求。以數據驅動的數字化,將幫助車企全面瞭解用戶的需求變化,也能為企業在營銷、生產、服務等各個環節提供支撐,進一步提升企業的經營效率。
在開展某車企數據化轉型時,需要解決三個核心問題:如何收集彙總和運營自己的數據?如何建立數據治理運營團隊?如何在短期內快速展現成果,在企業內部建立信心?
本次某車企數據中心二期的建設重點是數據治理平臺建設。數據治理平臺的核心理念在於“數據取之於業務,用之於業務”,即完整構建某車企從數據生產到消費,消費後產生的數據再迴流到生產流程的閉環過程。
01 數據“生產-消費-生產”閉環的數據治理方案
1、咨詢服務
在某車企組織架構、制度體系和數據資產盤點的基礎上,結合國際、國內和行業標準,圍繞數據資產全生命周期管理,制定相關的數據規範體系。通過數據治理咨詢建設所涉項目的數據治理體系,包括標準、組織、規範、流程、制度等,實現營銷業務線、製造業務線、研發業務線數據分級分類標準制定,形成包含主數據、數據標準、數據模型、元數據、數據質量、數據安全、數據生命周期、數據架構等標準、流程與管理制度,並具備推廣至全公司業務線的能力。
一是數據治理體系規劃。數據治理整體規劃方麵包括數據管理願景、組織模式、管理邊界和推動策略,數據管理體系設計方麵包括數據治理基礎、數據管理核心領域、數據應用,任務及規劃方麵包括數據管理任務識別、實施原則分析、實施計劃制定。
二是數據治理組織規劃。根據數據管理工作的實際需要,在業務部門、技術管理部門和業務應用部門間要確定各個工作人員的職責。例如不同的業務部門應該明確各自業務開展對數據的具體要求和相關規則,而技術部門則會根據業務部門的需求負責具體的實施工作,包括將業務部門提出的要求轉化成技術語言,用於事前的控制(如欄位的約束)、事中的邏輯控制(例如控制不能為空)、事後的核查,以及具體的技術操作和編製定期的報告等。
2、平臺搭建
提供袋鼠雲數據資產管理套件與可視化開發套件,滿足數據離線開發、實時開發、數據建模、數據標準、數據質量、數據血緣、數據安全、元數據管理、數據資產、數據標簽等能力,集成自有大數據平臺、開放平臺、調度平臺與可視化平臺,管理數據資產、提升數據質量,打造數據資產中心、支撐業務創新的數據服務中心和應用中心。
3、項目實施
梳理營銷業務線、製造業務線、研發業務線數據資產,劃分數據域,構建數據應用,實現數據生命周期全流程打通。具體實施內容包括數據資產地圖、數據模型、數據標準、元數據管理、數據血緣、數據分級分類、數據質量規則及報告等。
一是數據資產門戶
全局統計企業數據資產情況,讓企業管理者對數據的分佈、增長、使用、質量情況有直觀的瞭解。包括不限於:
1)數據指標的統計:數據源數量、表數量、存儲量、使用量、質量評分。
2)數據趨勢的統計:數據分佈情況、數據增長趨勢、數據使用熱度。
3)數據使用排行:數據存儲排行;元數據質量:規範趨勢、規範排行。
二是數據地圖
數據地圖的定位是可視化的數據資產中心,用戶可以在數據地圖模塊中查看平臺內的所有數據表情況,同時可以進行全方位管理數據資產。
1)數據查找:匯聚平臺內的所有數據表信息,方便開發人員快速定位所需數據表,支持用戶根據類目、表名、所在項目、授權狀態進行過濾,或直接根據表名搜索。
2)數據表元數據展現:用戶指定某張表後,可以查看此表的基本信息,包括表名、物理存儲量、生命周期、是否分區表、欄位名稱、欄位類型、分區信息等,同時可以進行預覽,直觀地查看表內數據情況。
3)數據類目管理:當平臺內的數據表越來越多時,數據類目的重要性就會日益突出。提供3層類目的管理,用戶可自定義層級、名稱,並將數據表指定至某個節點上,數據開發者在尋找數據時可根據數據類目快速定位。
4)數據審批授權:提供表級數據許可權的管理,當用戶需要跨項目訪問表時(讀/寫)需先經項目管理員審批授權,審批通過後才可以對錶進行跨項目訪問。同時,授權審批具備有效期的概念,超出有效期後自動取消授權,提升數據訪問的安全程度。
4)生命周期管理:提供表的生命周期管理,用戶可在建表時指定生命周期,系統定時檢測每張表/分區的數據更新時間,超出時間後自動刪除數據,降低臨時數據造成的存儲壓力。
5)數據血緣解析:提供自動解析同步任務和SQL代碼,自動建立各個數據表的表級、欄位級血緣關係,用戶可直接在頁面上看到每個指標的“前世今生”,便於快速排查指標問題,檢查指標統計邏輯,依賴鏈路是否正常等。
三是數據質量
作為數據治理的內容,數據質量的保障與提升是大數據平臺的必備功能。數據質量的管理工作大致可以按照事前、事中、事後的流程化體系來進行,即事前的監控規則定義、事中的數據生成監控、事後的數據質量分析。
1)事前管理:接入需要管理的數據源,並結合對業務需求和數據的理解,對需要監控的數據配置監控規則。
2)事中管理:通過對定義好的監控規則配置調度周期,系統自動執行,校驗數據質量。
3)事後管理:對校驗不滿足規則的數據,及時發出錯誤提醒。同時系統自動生成監控報告,幫助用戶復盤總結數據問題。
四是數據安全
1)數據許可權控制:支持表級數據許可權的管理,當用戶需要跨項目訪問表時(讀/寫)需先經項目管理員審批授權,審批通過後才可以對錶進行跨項目訪問。同時,授權審批具備有效期的概念,超出有效期後自動取消授權,提升數據訪問的安全程度。支持數據資源服務的許可權申請、審批,保障數據服務的安全性。
2)生命周期管理:支持表的生命周期管理,用戶可在建表時指定生命周期,系統定時檢測每張表/分區的數據更新時間,超出時間後自動刪除數據,降低臨時數據造成的存儲壓力。
3)數據影響解析:當用戶配置了同步任務,並通過SQL任務進行多個步驟的清洗、轉化處理之後最終會將結果數據輸出,在整個處理鏈路中,數據的血緣關係就隱含在同步任務和SQL代碼中,數據影響表示每個統計指標是如何從原始數據得到的過程。
4)數據脫敏:支持自定義脫敏規則,可應用於不同的敏感數據防止數據預覽時造成數據泄露。包括支持根據國標自定義安全等級,對人、表進行分級分類定級;支持自定義腳本函數、正則表達式,按需關聯識別規則、識別函數及脫敏規則,自動動態識 別敏感數據;支持內置多種敏感數據識別定期模板,即身份證、銀行卡號、郵箱、手機號、IP、固定電話、 車牌號、姓名、公司、地址的識別,同時提供用戶自定義規則。
02 搭建數據治理平臺,數據質量大幅提升
某車企通過數據治理平臺項目,完成了數據規範、標準、質量、服務體系、治理組織架構等內容建設,基本能滿足企業2—3年數據發展的使用訴求。結合數據中台+數據治理方案,在該階段取得了階段性的成果:
一是構建強大數據開發與治理平臺體系,通過數據平臺的建設,為某車企實現數據基礎處理平臺、數據資產管理平臺、數據服務平臺。從而實現從標準化數據採集、數據質量管理、數據資產管理和數據應用的整套數據標準化處理流程,同時對接BI和報表工具,同時對元數據進行標準化的API管理能力。
二是快速定位數據問題根本原因,有許多數據問題不一定是真正的數據問題,如果所有使用者一碰到難以理解的問題就找技術人員協助定位,技術人員則會花費過多時間在問題定位上的,最終導致數據問題會越堆積越多的。因此,本次項目為使用者提供自助排查的功能,協助用戶找到問題原因,實在解決不了的再找到技術人員協助解決。另外將數據流中間結果的數據可視化呈現,便於在最終結果報表缺失或有誤的情況下,能夠快速定位出是數據出錯環節。
三是數據質量得到保障,數據價值高。數據質量可靠不僅提升了決策人員的決策效率以及成果,也可以降低發生風險的概率。當企業用可靠的數據時,可以更快、更一致地回答問題,做出決策。如果數據是高質量的,也能花更少的時間發現問題,而將更多的時間用於使用數據來獲得洞察力、做決策、服務用戶。
《數棧產品白皮書》下載地址:https://www.dtstack.com/resources/1004?src=szsm
《數據治理行業實踐白皮書》下載地址:https://www.dtstack.com/resources/1001?src=szsm
想瞭解或咨詢更多有關大數據產品、行業解決方案、客戶案例的朋友,瀏覽袋鼠雲官網:https://www.dtstack.com/?src=szbky