1. 讓數據可信 1.1. 每個終端用戶(End User)都有一個共同的需求:訪問想要的數據 1.2. 真的能夠相信我正在訪問的這些數據嗎? 1.2.1. 終端用戶很快就會發現,訪問數據和相信正在訪問的數據是兩回事 1.2.2. 訪問數據和相信數據不是同一回事 1.2.3. 如果數據不可信,可能會 ...
1. 讓數據可信
1.1. 每個終端用戶(End User)都有一個共同的需求:訪問想要的數據
1.2. 真的能夠相信我正在訪問的這些數據嗎?
-
1.2.1. 終端用戶很快就會發現,訪問數據和相信正在訪問的數據是兩回事
-
1.2.2. 訪問數據和相信數據不是同一回事
-
1.2.3. 如果數據不可信,可能會導致決策和判斷出現嚴重錯誤
1.3. 在訪問電腦系統時,終端用戶必須進行一個隱含的步驟,即從僅僅想要訪問數據轉變為想要訪問可信的數據
1.4. 獲取這些數據並不是最緊要的,理解所聽到的數據才是問題的關鍵
-
1.4.1. 根據不可靠或不完全合格的信息做出決策是非常危險的
-
1.4.2. 要做出一個良好的決策,不僅要關註數據,還要獲得可信數據的支持
1.5. 不斷攀升的可信目標
-
1.5.1. 特定目標
-
1.5.2. 不斷攀升的目標
-
1.5.2.1. 對數據可信度的追求是不斷攀升的
-
1.5.2.2. 提高數據的可信度是一個無止境的過程
1.6. 數據的可信度是技術世界所依賴的基礎
1.7. 如果數據不可信,世界就會受制於“垃圾進,垃圾出”(Garbage In, Garbage Out,GIGO)
2. 可信數據的要素
2.1. 簡單的數據準確性
2.2. 數據的來源
2.3. 企業等組織首次採集數據的時間
2.4. 所有的數據轉換情況
2.5. 是否進行了數據審核與編輯
2.6. 數據是否完整
2.7. 是否有能證實現有數據的其他數據
2.8. 數據的上下文情境
2.9. 數據採集和數據血緣的責任方
2.10. 採集數據的地點
2.11. 與數據相關的元數據及其上下文情境
2.12. 對數據進行的更改
2.13. 添加和附加到數據上的內容
3. 基礎數據
3.1. 人工智慧、機器學習和數據網格(Data Mesh)等複雜且精尖的技術的運行都依賴於數據
3.2. 人工智慧、機器學習和數據網格技術的“基石”是數據
-
3.2.1. 僅僅依賴這些技術直接訪問數據是不夠的,還要保證它們所訪問的數據必須是可信的
-
3.2.2. 如果被訪問的數據本身就不可信,那麼無論這些技術多麼先進,它們向用戶提供的結果也是不正確的或者具有誤導性
3.3. 如果人工智慧被輸入和使用的數據是不正確的,那麼它幾乎無法修正數據
3.4. 只有在穩定、可訪問和可信的數據基礎上運行,應用程式才可能成功
- 3.4.1. 如果應用程式依賴的是令人難以置信的數據,那麼它肯定會失敗
3.5. 如果能正確創建可信的數據基礎,將為成功應用數據奠定堅實的基礎,而且只要構建得當,數據湖倉完全可以滿足大眾的需求
4. 基礎數據的組成要素
4.1. 準確性
- 4.1.1. 準確性是可信數據最基本的要素,如果數據不准確,它就沒有用處
4.2. 完整性
- 4.2.1. 支撐應用程式的數據必須儘可能完整
4.3. 時效性
- 4.3.1. 當分析人員查看數據時,他們會假設正在使用的數據是最新版本的,而查看過時的數據可能會誤導他們
4.4. 可訪問性
- 4.4.1. 數據必須可訪問,而且有些數據訪問時間必須精確到秒級,有些數據的可訪問性參數則更為寬鬆
4.5. 易集成性
-
4.5.1. 數據必須能夠與其他數據相匹配,同時還要求能夠與其他數據進行有意義的集成
-
4.5.2. 數據的可集成度有多種級別,大多數數據都可以與其他數據集成,但有些數據卻無法與其他數據集成
-
4.5.3. 數據集成的能力對數據的有用性和可信度至關重要
4.6. 可塑性
- 4.6.1. 要想發揮其作用,就需要它能夠被塑造
5. 數據湖倉的特性
5.1. 粒度
- 5.1.1. 粒度數據可以通過多種方式進行檢驗,數據粒度越小,數據的價值就越低
5.2. 元數據增強
- 5.2.1. 原始數據幾乎是無用的,終端用戶需要獲取元數據來明確應該分析的內容
5.3. 文檔化
- 5.3.1. 除了元數據,文檔完備的數據也要保證清晰和簡潔
5.4. 多樣性
- 5.4.1. 基礎數據服務於各種各樣的數據類型和數據結構
6. 避免不良數據
6.1. 大多數情況下,數據變差會發生在我們第一次將數據錄入系統時
-
6.1.1. 確保正確錄入數據對於保障數據的質量至關重要
-
6.1.2. 不相容問題也可能使數據變差
-
6.1.3. 缺乏相應文檔也可能對數據質量造成非常不利的影響
-
6.1.4. 我們需要在第一次獲取數據時就記錄數據信息
6.2. 結構化數據(Structured Data)和非結構化數據(Unstructured Data)都可能存在數據質量問題
- 6.2.1. 無論是結構化數據還是非結構化數據,當大量數據輸入資料庫時,實時確保數據的質量至關重要
6.3. 數據質量常常被視為一種無法控制的因素
-
6.3.1. 通過分析輸入錯誤、鍵的問題、重覆記錄、拼寫錯誤、相容性以及確保完成良好的文檔編製工作,就可以最大限度減少數據錯誤,防止形成不良的數據資產
-
6.3.2. 數據質量是數據團隊獲得成功的核心指標
6.4. 數據質量的評估標準包括準確性、完整性、可靠性、關聯性和時效性
-
6.4.1. 準確性指的是這些數據的有效性和價值
-
6.4.2. 完整性指的是數據中是否存在缺失的情況
-
6.4.3. 可靠性指的是我們是否可以信任這些數據
-
6.4.4. 關聯性指的是數據對業務需求的適用性
-
6.4.5. 時效性指的是數據作為最新決策依據的能力
7. 輸入錯誤
7.1. 輸入錯誤常常是在將數據錄入系統時人為造成的,或是因為文檔本身就存在錯誤
7.2. 文檔本身的錯誤可能是轉錄或手寫錯誤所導致的
- 7.2.1. 安排專人檢查輸入的數據也可以最大限度地減少書寫產生的錯誤
7.3. 在進行數據轉錄時,我們必須為審核數據分配時間,儘可能確保轉錄的數據與原始數據一致且可靠
- 7.3.1. 欄位中指定數據類型可以有效避免輸入錯誤
7.4. 輸入掩碼(Input Mask)
-
7.4.1. 提前設置待錄入欄位的數據格式也可以避免輸入錯誤
-
7.4.2. 規定了輸入數據的不同格式,能夠提醒輸入數據的人註意輸入數據的特定格式要求,以避免錯誤
8. 鍵的問題
8.1. 通常在插入數據時需要進行額外的檢查,以避免新輸入的數據與系統中已存在的數據發生衝突,這種衝突可能導致數據集成錯誤
8.2. 鍵的非相容性問題主要發生在將數據錄入系統時,可能出現主鍵重覆或在唯一標識符欄位輸入重覆主鍵的情況,因為資料庫不允許重覆的主鍵欄位,所以會導致輸入錯誤
9. 重覆記錄
9.1. 當數據從一個系統傳輸到另一個系統時,往往會出現重覆記錄或多次添加相同信息的情況,而且重覆也不局限於主鍵的重覆
9.2. 若無法確定最可靠的數據,可能會導致你對已有的數據失去信心
10. 拼寫錯誤
10.1. 拼寫錯誤是集成數據時的常見問題之一
10.2. 當面臨類似問題時,我們很難確定哪些數據是正確的
10.3. 可疑的、待定的數據可能會增加風險,特別是當數據存在明顯差異或比較可疑時
10.4. 由於在數據集成過程中需要人工參與評判數據的正確性,這一步驟會降低整個系統輸入數據的速度,因此,確保數據符合規定的格式和特定的數據類型可以有效減少拼寫錯誤
11. 相容性
11.1. 各種非相容性問題都可能導致數據質量較低,包括上下文情境的非相容性、蒸餾(Distillation)方法的非相容性以及語言的非相容性等
11.2. 上下文情境的非相容性問題可能出現在多數據來源的數據集成過程中
11.3. 上下文情境數據是指與當前場景相關的事實信息
11.4. 蒸餾方法的非相容性也是一個問題
-
11.4.1. 蒸餾是將一個較大的模型壓縮成一個可以模擬真實世界的較小模型的過程
-
11.4.2. 通常可以通過離線蒸餾(Offline Distillation)、線上蒸餾(Online Distillation)或自蒸餾(Self-Distillation)這3種模式來訓練較小的模型
-
11.4.3. 在最常見的離線蒸餾中,我們可以使用小型神經網路模型進行訓練
-
11.4.3.1. 神經網路模型能夠模擬大腦中的神經元,並利用預處理的樣本進行訓練
-
11.4.4. 與離線蒸餾不同,線上蒸餾(也稱為並行計算)是將較大的模型和較小的模型同步用於訓練數據
-
11.4.5. 在自蒸餾過程中,則是對較大的模型和較小的模型使用相同的訓練方法,並且可以實現相互訓練
-
11.4.6. 深度學習是知識蒸餾的一部分,涵蓋語音和圖像的識別
-
11.4.6.1. 深度學習訓練數據的方式類似於人類大腦,能夠為我們提供基於語音、圖像等的洞察
-
11.4.6.2. 如果在處理過程中出現任何相容性問題,就會導致知識蒸餾失敗
11.5. 如果數據集成後的數據特征發生了很大的變化,則可能是語言不相容引起的
- 11.5.1. 為了避免語言不相容,通常我們可以檢查資料庫的相容性級別,並對其進行調整,這樣有助於避免出現語言不相容的情況
12. 編製文檔
12.1. 不做文檔編製工作是導致數據質量問題的又一個重要原因
12.2. 如果不能準確地記錄數據,那麼日後我們可能需要花費大量的時間去檢索需要的數據
12.3. 數據沼澤通常包含沒有組織好或不符合質量規範的隨機數據
- 12.3.1. 為了避免形成數據沼澤,應該只收集和記錄與我們業務相關的數據
12.4. 如果我們擁有大量數據,那麼可以構建一個數據湖來存儲和處理大量結構化數據與非結構化數據
- 12.4.1. 與數據倉庫相比,數據湖的一個優勢是它能以最原始的形式存儲大多數數據,而且成本更低
12.5. 維護詳細的文檔編製都是保持數據準確性的必要步驟
-
12.5.1. 如果沒有完整詳細的文檔編製,日後可能造成災難
-
12.5.2. 沒有文檔支持,我們就無法瞭解所存儲數據背後的實際意義與目的
-
12.5.3. 有了文檔支持後,所有的團隊成員都可以輕鬆使用和理解被正確記錄的數據
12.6. 數據字典可以幫助減少許多數據質量問題
-
12.6.1. 是所使用數據的相關信息的集合,通常提供元數據和數據情況
-
12.6.2. 在記錄數據時,有許多可選的元數據標準,能夠幫助指導日後數據的利用與開發過程
-
12.6.3. 數據文檔還應包含數據的含義和解釋
12.7. 文檔通常會包含使用數據的規則