讀數據湖倉01讓數據可信

来源:https://www.cnblogs.com/lying7/p/18433279
-Advertisement-
Play Games

1. 讓數據可信 1.1. 每個終端用戶(End User)都有一個共同的需求:訪問想要的數據 1.2. 真的能夠相信我正在訪問的這些數據嗎? 1.2.1. 終端用戶很快就會發現,訪問數據和相信正在訪問的數據是兩回事 1.2.2. 訪問數據和相信數據不是同一回事 1.2.3. 如果數據不可信,可能會 ...


1. 讓數據可信

1.1. 每個終端用戶(End User)都有一個共同的需求:訪問想要的數據

1.2. 真的能夠相信我正在訪問的這些數據嗎?

  • 1.2.1. 終端用戶很快就會發現,訪問數據和相信正在訪問的數據是兩回事

  • 1.2.2. 訪問數據和相信數據不是同一回事

  • 1.2.3. 如果數據不可信,可能會導致決策和判斷出現嚴重錯誤

1.3. 在訪問電腦系統時,終端用戶必須進行一個隱含的步驟,即從僅僅想要訪問數據轉變為想要訪問可信的數據

1.4. 獲取這些數據並不是最緊要的,理解所聽到的數據才是問題的關鍵

  • 1.4.1. 根據不可靠或不完全合格的信息做出決策是非常危險的

  • 1.4.2. 要做出一個良好的決策,不僅要關註數據,還要獲得可信數據的支持

1.5. 不斷攀升的可信目標

  • 1.5.1. 特定目標

  • 1.5.2. 不斷攀升的目標

  • 1.5.2.1. 對數據可信度的追求是不斷攀升的

  • 1.5.2.2. 提高數據的可信度是一個無止境的過程

1.6. 數據的可信度是技術世界所依賴的基礎

1.7. 如果數據不可信,世界就會受制於“垃圾進,垃圾出”(Garbage In, Garbage Out,GIGO)

2. 可信數據的要素

2.1. 簡單的數據準確性

2.2. 數據的來源

2.3. 企業等組織首次採集數據的時間

2.4. 所有的數據轉換情況

2.5. 是否進行了數據審核與編輯

2.6. 數據是否完整

2.7. 是否有能證實現有數據的其他數據

2.8. 數據的上下文情境

2.9. 數據採集和數據血緣的責任方

2.10. 採集數據的地點

2.11. 與數據相關的元數據及其上下文情境

2.12. 對數據進行的更改

2.13. 添加和附加到數據上的內容

3. 基礎數據

3.1. 人工智慧、機器學習和數據網格(Data Mesh)等複雜且精尖的技術的運行都依賴於數據

3.2. 人工智慧、機器學習和數據網格技術的“基石”是數據

  • 3.2.1. 僅僅依賴這些技術直接訪問數據是不夠的,還要保證它們所訪問的數據必須是可信的

  • 3.2.2. 如果被訪問的數據本身就不可信,那麼無論這些技術多麼先進,它們向用戶提供的結果也是不正確的或者具有誤導性

3.3. 如果人工智慧被輸入和使用的數據是不正確的,那麼它幾乎無法修正數據

3.4. 只有在穩定、可訪問和可信的數據基礎上運行,應用程式才可能成功

  • 3.4.1. 如果應用程式依賴的是令人難以置信的數據,那麼它肯定會失敗

3.5. 如果能正確創建可信的數據基礎,將為成功應用數據奠定堅實的基礎,而且只要構建得當,數據湖倉完全可以滿足大眾的需求

4. 基礎數據的組成要素

4.1. 準確性

  • 4.1.1. 準確性是可信數據最基本的要素,如果數據不准確,它就沒有用處

4.2. 完整性

  • 4.2.1. 支撐應用程式的數據必須儘可能完整

4.3. 時效性

  • 4.3.1. 當分析人員查看數據時,他們會假設正在使用的數據是最新版本的,而查看過時的數據可能會誤導他們

4.4. 可訪問性

  • 4.4.1. 數據必須可訪問,而且有些數據訪問時間必須精確到秒級,有些數據的可訪問性參數則更為寬鬆

4.5. 易集成性

  • 4.5.1. 數據必須能夠與其他數據相匹配,同時還要求能夠與其他數據進行有意義的集成

  • 4.5.2. 數據的可集成度有多種級別,大多數數據都可以與其他數據集成,但有些數據卻無法與其他數據集成

  • 4.5.3. 數據集成的能力對數據的有用性和可信度至關重要

4.6. 可塑性

  • 4.6.1. 要想發揮其作用,就需要它能夠被塑造

5. 數據湖倉的特性

5.1. 粒度

  • 5.1.1. 粒度數據可以通過多種方式進行檢驗,數據粒度越小,數據的價值就越低

5.2. 元數據增強

  • 5.2.1. 原始數據幾乎是無用的,終端用戶需要獲取元數據來明確應該分析的內容

5.3. 文檔化

  • 5.3.1. 除了元數據,文檔完備的數據也要保證清晰和簡潔

5.4. 多樣性

  • 5.4.1. 基礎數據服務於各種各樣的數據類型和數據結構

6. 避免不良數據

6.1. 大多數情況下,數據變差會發生在我們第一次將數據錄入系統時

  • 6.1.1. 確保正確錄入數據對於保障數據的質量至關重要

  • 6.1.2. 不相容問題也可能使數據變差

  • 6.1.3. 缺乏相應文檔也可能對數據質量造成非常不利的影響

  • 6.1.4. 我們需要在第一次獲取數據時就記錄數據信息

6.2. 結構化數據(Structured Data)和非結構化數據(Unstructured Data)都可能存在數據質量問題

  • 6.2.1. 無論是結構化數據還是非結構化數據,當大量數據輸入資料庫時,實時確保數據的質量至關重要

6.3. 數據質量常常被視為一種無法控制的因素

  • 6.3.1. 通過分析輸入錯誤、鍵的問題、重覆記錄、拼寫錯誤、相容性以及確保完成良好的文檔編製工作,就可以最大限度減少數據錯誤,防止形成不良的數據資產

  • 6.3.2. 數據質量是數據團隊獲得成功的核心指標

6.4. 數據質量的評估標準包括準確性、完整性、可靠性、關聯性和時效性

  • 6.4.1. 準確性指的是這些數據的有效性和價值

  • 6.4.2. 完整性指的是數據中是否存在缺失的情況

  • 6.4.3. 可靠性指的是我們是否可以信任這些數據

  • 6.4.4. 關聯性指的是數據對業務需求的適用性

  • 6.4.5. 時效性指的是數據作為最新決策依據的能力

7. 輸入錯誤

7.1. 輸入錯誤常常是在將數據錄入系統時人為造成的,或是因為文檔本身就存在錯誤

7.2. 文檔本身的錯誤可能是轉錄或手寫錯誤所導致的

  • 7.2.1. 安排專人檢查輸入的數據也可以最大限度地減少書寫產生的錯誤

7.3. 在進行數據轉錄時,我們必須為審核數據分配時間,儘可能確保轉錄的數據與原始數據一致且可靠

  • 7.3.1. 欄位中指定數據類型可以有效避免輸入錯誤

7.4. 輸入掩碼(Input Mask)

  • 7.4.1. 提前設置待錄入欄位的數據格式也可以避免輸入錯誤

  • 7.4.2. 規定了輸入數據的不同格式,能夠提醒輸入數據的人註意輸入數據的特定格式要求,以避免錯誤

8. 鍵的問題

8.1. 通常在插入數據時需要進行額外的檢查,以避免新輸入的數據與系統中已存在的數據發生衝突,這種衝突可能導致數據集成錯誤

8.2. 鍵的非相容性問題主要發生在將數據錄入系統時,可能出現主鍵重覆或在唯一標識符欄位輸入重覆主鍵的情況,因為資料庫不允許重覆的主鍵欄位,所以會導致輸入錯誤

9. 重覆記錄

9.1. 當數據從一個系統傳輸到另一個系統時,往往會出現重覆記錄或多次添加相同信息的情況,而且重覆也不局限於主鍵的重覆

9.2. 若無法確定最可靠的數據,可能會導致你對已有的數據失去信心

10. 拼寫錯誤

10.1. 拼寫錯誤是集成數據時的常見問題之一

10.2. 當面臨類似問題時,我們很難確定哪些數據是正確的

10.3. 可疑的、待定的數據可能會增加風險,特別是當數據存在明顯差異或比較可疑時

10.4. 由於在數據集成過程中需要人工參與評判數據的正確性,這一步驟會降低整個系統輸入數據的速度,因此,確保數據符合規定的格式和特定的數據類型可以有效減少拼寫錯誤

11. 相容性

11.1. 各種非相容性問題都可能導致數據質量較低,包括上下文情境的非相容性、蒸餾(Distillation)方法的非相容性以及語言的非相容性等

11.2. 上下文情境的非相容性問題可能出現在多數據來源的數據集成過程中

11.3. 上下文情境數據是指與當前場景相關的事實信息

11.4. 蒸餾方法的非相容性也是一個問題

  • 11.4.1. 蒸餾是將一個較大的模型壓縮成一個可以模擬真實世界的較小模型的過程

  • 11.4.2. 通常可以通過離線蒸餾(Offline Distillation)、線上蒸餾(Online Distillation)或自蒸餾(Self-Distillation)這3種模式來訓練較小的模型

  • 11.4.3. 在最常見的離線蒸餾中,我們可以使用小型神經網路模型進行訓練

  • 11.4.3.1. 神經網路模型能夠模擬大腦中的神經元,並利用預處理的樣本進行訓練

  • 11.4.4. 與離線蒸餾不同,線上蒸餾(也稱為並行計算)是將較大的模型和較小的模型同步用於訓練數據

  • 11.4.5. 在自蒸餾過程中,則是對較大的模型和較小的模型使用相同的訓練方法,並且可以實現相互訓練

  • 11.4.6. 深度學習是知識蒸餾的一部分,涵蓋語音和圖像的識別

  • 11.4.6.1. 深度學習訓練數據的方式類似於人類大腦,能夠為我們提供基於語音、圖像等的洞察

  • 11.4.6.2. 如果在處理過程中出現任何相容性問題,就會導致知識蒸餾失敗

11.5. 如果數據集成後的數據特征發生了很大的變化,則可能是語言不相容引起的

  • 11.5.1. 為了避免語言不相容,通常我們可以檢查資料庫的相容性級別,並對其進行調整,這樣有助於避免出現語言不相容的情況

12. 編製文檔

12.1. 不做文檔編製工作是導致數據質量問題的又一個重要原因

12.2. 如果不能準確地記錄數據,那麼日後我們可能需要花費大量的時間去檢索需要的數據

12.3. 數據沼澤通常包含沒有組織好或不符合質量規範的隨機數據

  • 12.3.1. 為了避免形成數據沼澤,應該只收集和記錄與我們業務相關的數據

12.4. 如果我們擁有大量數據,那麼可以構建一個數據湖來存儲和處理大量結構化數據與非結構化數據

  • 12.4.1. 與數據倉庫相比,數據湖的一個優勢是它能以最原始的形式存儲大多數數據,而且成本更低

12.5. 維護詳細的文檔編製都是保持數據準確性的必要步驟

  • 12.5.1. 如果沒有完整詳細的文檔編製,日後可能造成災難

  • 12.5.2. 沒有文檔支持,我們就無法瞭解所存儲數據背後的實際意義與目的

  • 12.5.3. 有了文檔支持後,所有的團隊成員都可以輕鬆使用和理解被正確記錄的數據

12.6. 數據字典可以幫助減少許多數據質量問題

  • 12.6.1. 是所使用數據的相關信息的集合,通常提供元數據和數據情況

  • 12.6.2. 在記錄數據時,有許多可選的元數據標準,能夠幫助指導日後數據的利用與開發過程

  • 12.6.3. 數據文檔還應包含數據的含義和解釋

12.7. 文檔通常會包含使用數據的規則


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1. 不同類型的數據 1.1. 不同類型的數據在存儲方面有各自的特性,這些特性極大地影響了數據在數據湖倉中的存儲和使用方式 1.2. 結構化數據 1.2.1. 在企業等組織中,只有少量的數據是結構化數據 1.2.2. 結構化數據是基於事務的數據,是組織日常業務的副產品 1.3. 文本數據 1.3.1 ...
  • 目錄表的增刪改查Create指定列插入單行數據+全列插入多行數據+全列插入插入否則更新替換 (replace)Retrieve標準語法SELECT列全列查詢限制顯示條目 limit (分頁查詢)基本語法:指定列查詢select 查詢欄位為表達式表達式重命名去重WHERE 條件比較運算符邏輯運算符案例 ...
  • 本文內容來自YashanDB官網,具體內容請見https://www.yashandb.com/newsinfo/7488285.html?templateId=1718516 背景 OCI 是Oracle調用介面(Oracle Call Interface 簡稱OCI) 提供了一組對Oracle數 ...
  • 本文內容來自YashanDB官網,具體內容請見https://www.yashandb.com/newsinfo/7459465.html?templateId=1718516 問題現象 某局點yashandb cpu使用率100%,經線上分析是由於幾個sql執行慢,其中一個sql為簡單的單行等值綁 ...
  • Apache SeaTunnel 2.3.8版本即將於大家見面,近日,Apache SeaTunnel PMC Member 範佳在社區的交流會上為大家提前透露了關於這個新版本即將進行的功能與特性更新概況,詳細內容如下: SeaTunnel 簡介 SeaTunnel是一個高性能的開源分散式數據集成系 ...
  • 在大數據時代,工作流任務調度系統成為了數據處理和業務流程管理的核心組件,在大數據平臺的構建和開發過程中尤為重要。隨著數據量的激增和業務需求的多樣化,合理的任務調度不僅能夠提高資源利用率,還能保證業務流程的穩定和高效運行。本文將結合實際場景,探討目前市面上常見的工作流任務調度及其關鍵特性。 一、工作流 ...
  • 本文轉自YashanDB官網,具體內容請見https://www.yashandb.com/newsinfo/7441388.html?templateId=1718516 問題現象 客戶剛開始使用YashanDB odbc的時候,需要查看調用日誌詳情, 確認相應介面調用情況。 問題的風險及影響 客 ...
  • postgresql 與PostGis 離線環境安裝 上傳文件至伺服器 #安裝所需依賴 yum install /opt/PGsql-13-gis/rpm/* -y Postgresql安裝 tar -zxvf postgresql-13.2.tar.gz #進入該目錄 ./configure -- ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...