這些天在實習,公司要做數據分析,要先建立數據倉庫。但是經常有人問我做什麼,我回答數據倉庫都不是特別明白是什麼東西,我也不知道應該怎麼更好的表述。因此我決定通過這篇文章好好解釋一下什麼是數據倉庫。 按照官方解釋:數據倉庫,英文名稱為Data Warehouse,可簡寫為DW或DWH。數據倉庫,是為企業 ...
這些天在實習,公司要做數據分析,要先建立數據倉庫。但是經常有人問我做什麼,我回答數據倉庫都不是特別明白是什麼東西,我也不知道應該怎麼更好的表述。因此我決定通過這篇文章好好解釋一下什麼是數據倉庫。
按照官方解釋:數據倉庫,英文名稱為Data Warehouse,可簡寫為DW或DWH。數據倉庫,是為企業所有級別的決策制定過程,提供所有類型數據支持的戰略集合。它是單個數據存儲,出於分析性報告和決策支持目的而創建。 為需要業務智能的企業,提供指導業務流程改進、監視時間、成本、質量以及控制。(寫得挺牛逼以至於我根本理解不了)
一、提出問題
為了更好地理解,在這裡先提幾個問題。
1、如果你要的數據分別存放在很多個不同的資料庫,甚至存在文本文件,excel 中,你要如何獲取這些數據?
2、如果你從這些數據源中取出了你要的數據,但是發現格式不一樣,或者數據類型不一樣,你要怎麼規範?
3、如果有一天你需要查歷史數據,但你發現這些數據被修改過的,你要怎麼辦?
4、如果你是一個只會簡單查詢的人,你想從複雜的資料庫中獲取數據,應該怎麼辦?
5、如果你有一個關於城市人口的資料庫,你想知道“某個鎮學歷分佈情況”,要怎麼快速高效地得知呢?
二、解決問題
為瞭解決上面幾個問題,數據倉庫就誕生了,從邏輯上理解,資料庫和數據倉庫沒有區別,都是通過資料庫軟體實現存放數據的地方,只不過從數據量來說,數據倉庫要比資料庫更龐大德多。數據倉庫主要用於數據挖掘和數據分析,輔助領導做決策。
構建數據倉庫的過程是將不同數據源的數據整合起來,通過對數據進行清洗,規範化數據;根據需求圍繞一個主題進行構建;並且構建好的數據倉庫不用於UPDATE,僅用於查詢;構建好的數據倉庫也方便獲取數據,節省了一定的資源。
三、特點
那麼接下來數據倉庫的特點就比較容易理解了。
1、集成性
數據倉庫中存儲的數據是來源於多個數據源,原始數據在不同數據源中的存儲方式各不相同。要整合成為最終的數據集合,需要從數據源經過一系列抽取、清洗、轉換的過程。
2、穩定性
數據倉庫中保存的數據是歷史記錄,不允許被修改。用戶只能通過分析工具進行查詢和分析。
3、動態性
數據倉庫數據會隨時間變化而定期更新,不可更新是針對應用而言,即用戶分析處理時不更新數據。
4、主題性
傳統資料庫對應項目不同,數據倉庫根據需求,將不同數據源的數據整合,所有數據都圍繞某一主題。比如“分析某個地區人口的學歷”、“企業的註冊資本”這樣類似地主題。
想要第一時間獲取更多有意思的推文,可關註公眾號: