1. 數據倉庫 數據倉庫一詞尚沒有一個統一的定義,著名的數據倉庫專家W. H. Inmon 在其著作《Buildingthe Data Warehouse》一書中給予如下描述:數據倉庫(Data Warehouse) 是一個面向主題的(Subject Oriented) 、集成的( Integrat ...
1. 數據倉庫
數據倉庫一詞尚沒有一個統一的定義,著名的數據倉庫專家W. H. Inmon 在其著作《Buildingthe Data Warehouse》一書中給予如下描述:數據倉庫(Data Warehouse) 是一個面向主題的(Subject Oriented) 、集成的( Integrate ) 、相對穩定的(Non -Volatile ) 、反映歷史變化( TimeVariant) 的數據集合用於支持管理決策。
數據倉庫是信息的中央存儲庫。通常,數據定期從事務系統、關係資料庫和其他來源流入數據倉庫。業務分析師、數據科學家和決策者通過商業智能 (BI) 工具、SQL 客戶端和其他分析應用程式或者工具訪問數據。
對於數據倉庫的概念我們可以從兩個層次予以理解。首先,數據倉庫用於支持決策,面向分析型數據處理,它不同於企業現有的操作型資料庫;其次,數據倉庫是對多個異構的數據源有效集成,集成後按照主題進行了重組,並包含歷史數據,而且存放在數據倉庫中的數據一般不再修改。
2、數據集市
為最大限度地實現靈活性,集成的數據倉庫的數據應該存儲在標準RDBMS 中,並經過規範的資料庫設計,以及為了提高性能而增加一些小結性信息和不規範設計。這種類型的數據倉庫設計被稱為原子數據倉庫。原子數據倉庫的子集,又稱為數據集市。
3、維度表 & 事實表
維度表包含對分析主題所屬類型的描述,如商業、組織或企業。維度表的列通常包含文本類型的描述信息,也可能是數值型的描述信息(如產品重量、顧客收入水平等);事實表包含對分析主題的度量,同時包含與維度表關聯的外碼。 維度表和事實表是維度建模所包含的表,維度建模除了使用常規的關係概念(主碼、外碼、完整性約束等)外,維度建模同時包含了維度表和事實表兩種類型的表
5、元數據
元數據(Meta Data)是關於數據的數據,當人們描述現實世界的現象時,就會產生抽象信息,這些抽象信息便可以看作是元數據,元數據主要用來描述數據的上下文信息。通俗的來講,假若圖書館的每本書中的內容是數據的話,那麼找到每本書的索引則是元數據,元數據之所以有其它方法無法比擬的優勢,就在於它可以幫助人們更好的理解數據,發現和描述數據的來龍去脈,特別是那些即將要從OLTP系統上升到DW/BI體系建設的企業,元數據可以幫他們形成清晰直觀的數據流圖,元數據是數據管控的基本手段。按其描述對象的不同可以劃分為三類元數據:技術元數據、業務元數據和管理元數據。這三種元數據的具體描述如下:
1) 技術元數據 ** 技術元數據是描述數據系統中技術領域相關概念、關係和規則的數據,主要包括對數據結構、數據處理方面的特征描述,覆蓋數據源介面、數據倉庫與數據集市存儲、ETL、OLAP、數據封裝和前端展現等全部數據處理環節;
2)業務元數據 ** 業務元數據是描述數據系統中業務領域相關概念、關係和規則的數據,主要包括業務術語、信息分類、指標定義和業務規則等信息;
3)管理元數據 ** 管理元數據是描述數據系統中管理領域相關概念、關係和規則的數據,主要包括人員角色、崗位職責和管理流程等信息。
6、 數據倉庫與資料庫的對比
數據倉庫是專門為數據分析設計的,涉及讀取大量數據以瞭解數據之間的關係和趨勢。資料庫用於捕獲和存儲數據,例如記錄事務的詳細信息。
7、 數據倉庫與數據湖的對比
與數據倉庫不同,數據湖是所有數據(包括結構化和非結構化數據)的中央存儲庫。數據倉庫利用針對分析進行了優化的預定義 Schema。數據湖中未定義 Schema,支持其他類型的分析,例如大數據分析、全文搜索、實時分析和機器學習。
8、 數據倉庫與數據集市的對比
數據集市是一種數據倉庫,用於滿足特定團隊或業務部門(例如財務、營銷或銷售)的需求。它更小、更集中,並且可能包含最適合其用戶社區的數據彙總。