有效的進行數據治理和數據管控

来源:https://www.cnblogs.com/qazxcdew/archive/2019/06/30/11110213.html
-Advertisement-
Play Games

大數據時代的到來,讓政府、企業看到了數據資產的價值,並快速開始探索應用場景和商業模式、建設技術平臺。但是,如果在大數據拼圖中遺忘了數據治理,那麼做再多的業務和技術投入也是徒勞的,因為很經典的一句話:Garbage in Garbage out。 當你處理或使用過大量數據,那麼對“數據治理”這個詞你一 ...


大數據時代的到來,讓政府、企業看到了數據資產的價值,並快速開始探索應用場景和商業模式、建設技術平臺。但是,如果在大數據拼圖中遺忘了數據治理,那麼做再多的業務和技術投入也是徒勞的,因為很經典的一句話:Garbage in Garbage out。

當你處理或使用過大量數據,那麼對“數據治理”這個詞你一定不會陌生。你會思考數據治理是什麼?數據治理是否適合你?如何實施。簡單來說,數據治理就是處理數據的策略——如何收集、驗證、存儲、訪問、保護和使用數據。數據治理也還包括誰來查看,使用,共用你的數據。

隨著大數據時代的推進,以上這些問題日益突出,越來越多的企業依賴採集、治理、儲存和分析數據,並實現他們的商業目標。數據變成了企業的盈利工具、業務媒介和商業機密。數據泄露會導致法律糾紛,還會令消費者對公司的核心業務失去信心。

如果抱著僥幸的心理,讓各個業務部門自己管理數據,那麼你會缺乏有效的數據管理,甚至各部門會自己做自己的。你無法想象各個部門按隨心所欲地自己生產、儲存、銷售產品。數據使用不當就像庫存使用不當一樣,會給企業造成沉重的損失。因此必須制定一項測量用以保證所需數據的有效和安全,可用性,這就是我們要談的“數據治理”。

數據治理的特點

數據治理策略必須包含完整的數據生命周期。策略必須包含從數據採集、清洗到管理,在這個生命周期內,數據治理必須要有關註以下內容:

數據從哪裡來,數據怎麼來

這是數據生命周期的起點。數據來源決定了數據治理策略的基礎。例如數據集的大小就由數據來源所決定。是從目標市場、現存用戶和社交媒體收集數據?還是使用第三方收集數據或者分析你收集的數據?輸入數據流是什麼?數據治理必須關註這些問題,並制定策略來管理數據的採集,引導第三方處理他們收集的數據或者分析你收集的數據,控制數據的路徑和生命周期。

數據校驗

通常數據源都是非常龐大且多樣的,這是一個讓數據管理者非常頭疼的問題。將數據噪音和重要數據進行區分僅僅只是開始,如果你正從關聯公司收集數據,你必須確保數據是可靠的,對於那些幾萬、幾十萬、甚至成百上千萬的複雜關係數據,單靠人為的通過Excel對進行數據清洗已經不太現實,需要專業的數據清洗工具或系統對海量複雜關係數據進行批量查詢、替換、糾正、豐富以及存儲。將元數據、主數據、交易數據、參考數據以及數據標準內置固化到數據清洗工具或系統中,結合組織架構、內容管控、過程管控等管理機制、技術標準提高數據治理人員的工作效率。比如:需要手工編寫程式收集的元數據,系統幫你自動獲取;需要人工識別或編寫代碼實現的數據質量檢查,系統幫你自動識別問題;用文檔管理的數據字典,系統幫你線上管理;基於郵件和線下的流程,系統幫你線上自動化。當然,系統並不是萬能的,數據治理的軟體工具與其他軟體工具一樣,沒有什麼神奇之處,沒有數據治理人員的參與和數據治理工作的推進,軟體再完美也無法完成數據治理整個過程。這也是為什麼數據治理咨詢服務一直有其市場,以及為什麼國內大部分單純數據治理軟體項目未能達到預期目標。

數據治理必須解決存儲問題

而數據存儲和數據集的大小有密切關係。大數據的存儲必須是在安全的冗餘系統之中。常常利用層次體系,根據使用頻率來存儲數據。這樣一來,昂貴的線上系統提供的是被頻繁請求的數據,而請求頻率較低的數據則存儲在便宜,可用率較低的系統上。當然,一些請求頻率低但是敏感的數據如果存儲於安全性較低的系統上,風險會大大提升。因此,在制定數據存儲方案時,良好的數據治理策略必須考慮到方方面面的因素。

數據治理必須建立訪問管理制度,在需求和安全性找到平衡點

明確訪問者的許可權,只能訪問他們對應許可權包含的數據。只有合法請求才能夠訪問數據,而敏感的數據需要更高的許可權和更嚴密的驗證才可以被訪問。只向具有特定安全級別的用戶開放。應該對用戶和數據本身設置訪問級別,管理賬戶時,應與人力資源部和採購部緊密互動,這一點非常重要,因為這樣可以及時地使離職員工和停止合作的供應商不再擁有訪問許可權。處理好這些細節以及確保數據所有權和責任,這是構成完整的數據治理策略的一部分。

數據的使用/共用/分析

如何使用數據是數據治理之後一項重要的內容,數據可能會用於客戶管理,提高客戶體驗,投放定向廣告,用戶應用系統初始化基礎數據工作,輔助應用系統建設,提供市場分析和關聯公司共用數據。必須仔細界定哪些數據可用於共用或者用於營銷,並保護它們免遭攻擊和泄露,因為數據本來就應該被用於純粹的內部用途。讓用戶知悉採集數據的所有公司都會遵守數據安全和保證的規定。能夠確保數據被合理合規的使用,也是數據治理重要的一項內容。

收集、驗證、存儲、訪問和使用都是數據安全計劃的必要組成部分

收集、驗證、存儲、訪問和使用都是數據安全計劃的必要組成部分,必須要有一個全面的策略來解決這些問題以及其他安全問題。數據安全計劃必須是有效且可用性高,但是數據生命周期的所有部分都很容易受到攻擊和由於粗心造成的破壞。你必須在數據治理中確定數據安全計劃,包括訪問控制,靜態數據,數據加工,數據傳輸之後的加密等。

管理/元數據

沒有管理的數據生命周期是不完整的。例如,將元數據應用於一段數據,用來進行識別檢索。元數據包含數據的來源,採集或生成的日期,信息訪問的級別,語義分類及其他企業所必須的信息。數據治理能建立一個元數據辭彙表,界定數據的有效期。請註意數據也會過期,過期之後我們只能用於歷史數據的分析。

數據治理的企業問題

數據治理創建的過程中可能會在企業內部遭到一些阻力,比如有的人會害怕失去訪問數據的許可權,而有些人也不願意和競爭者共用數據。數據治理政策需要解決上述問題,讓各方面的人都可接受。習慣了數據筒倉環境的公司,在適應新的數據治理策略上面會有困難,但如今對大型數據集的依賴以及隨之而來的諸多安全問題,使創建和實施覆蓋全公司的數據策略成為一種必然。

數據日益成為企業基礎設施的一部分,在企業一步步處理各種特定情況的過程中形成決策。它以一次性的方式作出,常常是對某一特定問題的回應。因此,企業處理數據的方法會因為不同部門而改變,甚至會因為部門內部的不同情況而改變。即使每個部門已經有一套合理的數據處理方案,但這些方案可能彼此衝突,企業將不得不想辦法協調。弄清數據存儲的要求和需求是一件難事,如果做得不好,就無法發揮數據在營銷和客戶維繫方面的潛力,而如果發生數據泄露,你還要承擔法律責任。

另外在大企業內部,部門之間會展開對數據資源的爭奪,各部門只關註自身的業務情況,缺乏全局觀念,很難在沒有調解的情況下達成妥協。

因此公司需要一個類似數據治理委員會的機構,他的職責是執行現有數據策略、挖掘未被滿足的需求以及潛在安全問題等,創建數據治理策略,使數據的採集、管護、儲存、訪問以及使用策略均實現標準化,同時還會考慮各個部門和崗位的不同需求。平衡不同部門之間存在衝突的需求,在安全性與訪問需求之間進行協調,確保最高效、最安全的數據管理策略。

成功的數據治理步驟

建立數據治理委員會

負責評估各個數據用戶的需求,建立覆蓋全公司的數據管理策略,滿足內部用戶、外部用戶甚至法律方面的各種需求。該委員會的成員應該囊括各個業務領域的利益相關者,確保各方需求都得到較好地滿足,所有類型的數據所有權均得到體現。委員會也需要有數據安全專家,數據安全也是重要的一環。瞭解數據治理委員會的目標是什麼,這一點很重要,因此,應該思考企業需要數據治理策略的原因,並清楚地加以說明。

制定數據治理的框架

這個框架要將企業內部、外部、甚至是法律層面的數據需求都納入其中。框架內的各個部分要能夠融合成一個整體,滿足收集、清洗、存儲、檢索和安全要求。為此,企業必須清楚說明其端到端數據策略,以便設計一個能夠滿足所有需求和必要操作的框架。

有計劃地把各個部分結合起來,彼此支持,這有很多好處,比如在高度安全的環境中執行檢索要求。合規性也需要專門的設計,成為框架的一部分,這樣就可以追蹤和報告監管問題。這個框架還包括日常記錄和其他安全措施,能夠對攻擊發出早期預警。在使用數據前,對其進行驗證,這也是框架的一部分。數據治理委員會應該瞭解框架的每個部分,明確其用途,以及它如何在數據的整個生命周期中發揮作用。

數據測試策略

通常一個數據策略需要在小規模的商用環境中進行測試,用來發現數據策略在框架,結構和計划上的不足之處併進行調整,之後才能夠投入正式使用。

數據治理策略要與時俱進

隨著數據治理策略延伸到新的業務領域,肯定需要對策略進行調整。而且,隨著技術的發展,數據策略也應該發展,與安全形勢、數據分析方法以及數據管理工具等保持同步。

明確什麼是成功的數據策略

我們需要確立衡量數據治理是否成功的明確標準,以便衡量進展。制定數據管理目標,有助於確定成功的重要指標,進而確保數據治理策略的方向是符合企業需求。

總結

無論企業大小,在使用數據上都面臨相似的數據挑戰。企業越大,數據越多,而數據越多,越發需要制定一個有效的,正式的數據治理策略。規模較小的企業也許只需要非正式的數據治理策略就足夠了,但這隻限於那些規模很小且對數據依賴度很低的公司。即便是非正式的數據治理計劃也需要儘可能考慮數據用戶和員工數據的採集、驗證、訪問、存儲。

當企業規模擴大,數據需求跨越多個部門時,當數據系統和數據集太大,難以駕馭時,當業務發展需要企業級的策略時,或者當法律或監管提出需求時,就必須制定更為正式的數據治理策略。

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1、常見Linux的發行版有哪些?並描述不同發行版之間的聯繫與區別。 linux的發行版: Fedora,Debian,Ubuntu,Red Hat Linux,CentOS 不同發行版之間的聯繫和區別: Fedora:從Red Hat Linux發展出來的免費Linux系統Debian:以其穩定性 ...
  • 什麼是DHCP伺服器? DHCP伺服器(動態主機配置協議)指的是:由伺服器控制一段IP地址範圍,客戶機登錄伺服器時就可以自動獲得伺服器分配的IP地址和子網掩碼。首先, DHCP伺服器必須是一臺安裝有Windows 2000 Server/Advanced Server系統的電腦;其次,擔任DHCP ...
  • AD文件轉換為KiCAD的兩種方法: ...
  • MySQL——在Windows下安裝MySQL 摘要:本文主要說明瞭如何下Windows環境下安裝MySQL。 查看電腦上是否安裝了MySQL 打開cmd視窗,輸入 services.msc 命令,等待服務界面打開: 如果能在服務中找到MySQL服務,則說明系統已經安裝了MySQL: 下載並安裝 下 ...
  • 本文主要記錄了在使用MySQL的過程中遇到的問題以及解決方案。 ...
  • --笛卡爾集select empno,ename, 員工表.deptno, 部門表.deptno, dname from 部門表, 員工表; --添加合適的條件,可以避免笛卡爾集,從而得到正確的多表查詢記錄select empno,ename, 員工表.deptno, 部門表.deptno, dna ...
  • MySQL distributions on Unix and Unix like system include a script named mysql.server , which starts the MySQL server using mysqld_safe. It can be used ...
  • 1、創建數據表 基本語法:create table 表名(欄位名 欄位類型 [欄位屬性], 欄位名 欄位類型 [欄位屬性],…) [表選項] 範例:創建數據表 以上錯誤說明:表必須放到對應的資料庫下:有兩種方式可以將表掛入到指定的資料庫下. (1) 在數據表名字前面加上資料庫名字,用“.”連接即可: ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...