1. 不同類型的數據 1.1. 不同類型的數據在存儲方面有各自的特性,這些特性極大地影響了數據在數據湖倉中的存儲和使用方式 1.2. 結構化數據 1.2.1. 在企業等組織中,只有少量的數據是結構化數據 1.2.2. 結構化數據是基於事務的數據,是組織日常業務的副產品 1.3. 文本數據 1.3.1 ...
1. 不同類型的數據
1.1. 不同類型的數據在存儲方面有各自的特性,這些特性極大地影響了數據在數據湖倉中的存儲和使用方式
1.2. 結構化數據
-
1.2.1. 在企業等組織中,只有少量的數據是結構化數據
-
1.2.2. 結構化數據是基於事務的數據,是組織日常業務的副產品
1.3. 文本數據
- 1.3.1. 存在於許多地方,如合同、電子郵件、電話交談、醫療記錄等
1.4. 機器生成的模擬/物聯網數據
-
1.4.1. 這類機器包括攝像頭、無人機、手錶、鬧鐘、車輛等
-
1.4.2. 由機器生成的數據無處不在
2. 數據量
2.1. 在組織中,對於不同類型的數據有不同的度量維度
2.2. 最重要的維度是數據量,而存儲和管理不同數據量所使用的技術也各不相同
2.3. 與文本數據相比,結構化數據的數據量相對較小
2.4. 由機器生成的數據的數據量要遠遠超過文本數據的數據量
3. 數據的業務價值
3.1. 僅僅有大量的數據並不意味著所有的數據都具有業務價值
-
3.1.1. 有些數據的業務價值很高
-
3.1.2. 有些數據的業務價值則相對較低
3.2. 由機器生成的模擬/物聯網數據
-
3.2.1. 只有一小部分具有巨大的業務價值
-
3.2.2. 大部分由機器生成的數據都是機械式的記錄,它們很少或根本沒有業務價值
-
3.2.2.1. 如果有一天車床由於異常導致無法正常工作,那麼我們需要高度關註該車床當天生成的數據
-
3.2.2.2. 車床在工作過程中生成的有用數據的比例非常低
-
4. 數據的訪問概率
4.1. 數據的訪問概率與其蘊藏的業務價值密切相關
- 4.1.1. 數據被訪問的概率集中在有業務價值的數據中
4.2. 數據湖倉中數據的訪問概率與數據的業務價值呈正相關
4.3. 將不常被訪問的數據與訪問概率較高的數據存儲在同一個地方是沒有意義的,應該將其存儲到不同的數據存儲器中
4.4. 將不同類型的數據存儲在一起不僅會影響存儲器的性能、增加成本,而且會降低數據分析工程師處理數據的效率
- 4.4.1. 將訪問概率較高的數據與訪問概率較低的數據存儲在數據湖倉中的同一位置並不明智
4.5. 在對數據進行分隔存儲時,我們需要考慮是否檢索存儲在大容量存儲器中的數據
-
4.5.1. 需要考慮將數據存儲到大容量存儲器中後,在未來出現未知需求時,我們能否查找和分析已存入大容量存儲器中的數據
-
4.5.2. 在大容量存儲器中找到所需的數據後,就可以很容易地將該數據存儲到高性能存儲器中
5. 數據降級
5.1. 隨著時間的推移,所有類型的數據都會發生數據降級(Data Degradation)
5.2. 數據的訪問概率會隨著時間的推移而降低
5.3. 存儲時間越久的數據,對解決當前問題有幫助的概率就越低
6. 基於大容量存儲器的數據歸檔機制
6.1. 隨著時間的推移,數據的訪問概率和業務價值都會降低,為了提高數據的存儲能力,將大容量存儲器作為歸檔數據的載體是必要的
6.2. 數據被存儲在歸檔存儲區,當需要用到相關數據時,可以在歸檔存儲區進行檢索
6.3. 如果數據歸檔處理得當,那麼幾乎不需要在歸檔存儲區中檢索數據
7. 數據抽象
7.1. 數據抽象是數據湖倉的基礎,它是許多依賴企業數據的應用程式的基礎設施
- 7.1.1. 正確的數據抽象使數據湖倉中的各方可以方便地訪問和使用數據,也能使數據更易於理解
7.2. 數據抽象(Data Abstraction)是一種處理大量複雜數據的非常有用且必要的方法
7.3. 人們在日常生活中經常使用抽象的方法來處理規模龐大且複雜的事物
7.4. 使用抽象的方式引用對象比單獨提及每個對象更簡便
7.5. 數據類型不同,抽象模式和方法也不同
-
7.5.1. 結構化數據通過數據模型進行抽象
-
7.5.2. 文本數據通過本體(Ontology)和分類標準進行抽象
-
7.5.3. 模擬/物聯網數據通過蒸餾演算法進行抽象
7.6. 經過初步觀察,可以發現,數據模型和本體似乎是一回事
7.7. 這兩種抽象類型之間也存在一些重要且明顯的區別
-
7.7.1. 數據模型面向內部,著眼於組織的內部運行
-
7.7.2. 本體面向外部,用於描述外部世界
-
7.7.3. 數據模型描述的數據可在必要時進行更改
-
7.7.4. 本體所抽象的文本則不能更改
-
7.7.5. 數據模型所使用的數據是有限的
-
7.7.6. 文本以及文本所依據的外部世界的描述卻不是有限的
- 7.7.6.1. 外部世界可以永遠存在
7.8. 數據模型和本體是對數據的抽象,而蒸餾演算法則是對處理過程的描述
7.9. 基礎數據中還有另一種重要的抽象概念,即數據在組織流程中流動時對數據血緣的抽象
-
7.9.1. 數據是作為事務的一部分被採集的
-
7.9.2. 數據一旦被採集,就會與其他同類數據彙集在一起
-
7.9.3. 數據到達用於分析處理的位置後,分析人員需要全面瞭解數據經歷的整個過程,只有這樣他們才能成功進行分析處理
8. 結構化數據模型
8.1. 實體關係圖(Entity Relationship Diagram,ERD)
- 8.1.1. 實體關係圖描述了組織的主要主題領域及實體之間的關係
8.2. 數據項集(Data Item Set,DIS)
- 8.2.1. 數據項集則將實體擴展為其組成部分,包括特定實體的鍵、屬性以及數據項集中實體的從屬數據
8.3. 資料庫模式(Database Schema)
-
8.3.1. 資料庫模式是數據項集的鏡像,它描述了數據的物理屬性、索引和唯一鍵值等特征
-
8.3.2. 只是在數據項集的基礎上增加了一些細節
8.4. 數據模型的不同組成部分是相互關聯的,實體關係圖中的每個實體都有一個對應的數據項集,並且每個數據項集都有一個對應的資料庫模式
8.5. 數據模型通常不包括派生數據(Derived Data)或彙總數據(Summarized Data),僅包含粒度數據(Granular Data)
8.6. 數據模型的元素可用於為數據模型內部的數據提供上下文情境
9. 本體和分類標準
9.1. 本體是一組相關的分類標準
-
9.1.1. 本體是無限的,創建本體是為了滿足特定群體的需求
- 9.1.1.1. 本體的元素可以無限擴展
-
9.1.2. 本體中的每個分類標準都是獨一無二的
-
9.1.3. 第一種類型的本體是通用的,適用於任何主題
-
9.1.3.1. “我喜歡……”
-
9.1.3.2. “我愛……”
-
-
9.1.4. 第二種類型的本體是針對某一學科的
-
9.1.4.1. 醫生有醫學術語
-
9.1.4.2. 律師有法律術語
-
9.1.4.3. 建築工人有建築術語
-
-
9.1.5. 第三種類型的本體是針對某個組織特定術語的本體
- 9.1.5.1. 某家石油公司會使用一些只在其內部使用的術語
9.2. 分類標準是對相似事物的分類
-
9.2.1. 每個分類標準中的元素都與其他分類標準中的元素存在著某種關係
-
9.2.2. 分類標準中的每個元素都與分類標準的一般值有著相同的關係
-
9.2.3. 分類標準用於對同類對象進行分類
-
9.2.4. 分類標準是用來描述外部世界的
-
9.2.5. 分類標準是一種固定的文本抽象,不會隨意改變
10. 蒸餾演算法
10.1. 從大量模擬/物聯網數據中蒸餾有用的數據
10.2. 蒸餾演算法的形式多種多樣,如何選擇取決於模擬/物聯網數據自身的業務價值和最終業務價值之間的差異
10.3. 隨著時間的推移,蒸餾演算法也會隨條件的變化而改變