最近在看《Pentaho Kettle 解決方案》,看到 ETL子系統,發現信息量比較大,用簡短的語句做一下筆記。 ETL子系統有34種子系統,被分成4個部分:抽取、清洗和更正、發佈、管理。 一、抽取 子系統1:數據剖析系統 指從不同源系統中搜集數據的統計信息或其他相關信息的過程,目的是分析不同數據 ...
最近在看《Pentaho Kettle 解決方案》,看到 ETL子系統,發現信息量比較大,用簡短的語句做一下筆記。
ETL子系統有34種子系統,被分成4個部分:抽取、清洗和更正、發佈、管理。
一、抽取
子系統1:數據剖析系統
指從不同源系統中搜集數據的統計信息或其他相關信息的過程,目的是分析不同數據源的結構和內容。
子系統2:增量數據捕獲系統
目的是捕獲系統里的數據的變化。由於數據量大以及網路的延遲,數據完成初始載入後,不應再把數據重新載入一邊,為了識別出有變化或更新的數據,增加時間戳或快照的方式。
子系統3:抽取系統
從不同數據源抽取數據,並輸入到ETL流程里。
二、清洗和更正
幾乎沒有什麼數據是不存在問題的,因此數據載入到數據倉庫之前要增加一些步驟來清洗和更正這些數據。另外,每個系統存儲數據得方式不同,比如有些數據源里,性別表示為 0,1;有些數據源里用“男”,“女”表示,存進數據倉庫裡面應該有統一的規範。
子系統4:數據清洗和質量處理系統
這個過程主要是修改和整理進入到 ETL 流程的臟數據,提高數據的質量。
子系統5:錯誤事件處理
錯誤事件處理的目的是記錄下 ETL 過程中的每一個錯誤。這樣便於管理員定期監控和分析錯誤。
子系統6:審計緯度
審計維度表是一類特殊的維度表,數據倉庫里的所有事實表都和審計緯度表關聯。它包含了事實表變更的元數據,如載入數據的日期和時間等。
子系統7:排查重覆記錄系統
在大多數情況下,排重是指刪除重覆的數據,或者把不同系統相互衝突的數據統一。
子系統8:數據一致性
這個步驟的目的是使來源於多個業務系統的事實數據遵照相同的緯度。例如,A公司有一個客服系統,該系統有自己的客戶資料庫,為了把客服管理系統和銷售系統放在同一個數據倉庫里,需要把客服管理系統的客戶數據和銷售系統的客戶數據統一成一個客戶維度表,當分別載入來自這兩個系統的事實數據時,需要把來自兩個系統的事實數據只想同一個客戶維度表。解決這個問題最常用方法就是維度表中保留從不同系統帶來的自然鍵。在載入數據時,可以查找維度表中的這些源系統中的自然鍵。
三、數據發佈
子系統9:緩慢變更緯度處理
當業務系統里的數據有所改變,緩慢變更維度的過程就需要根據不同的規則來變更數據倉庫的緯度。一般有三種緩慢變化維。
緩慢變化類型一:不記錄歷史數據,新數據覆蓋舊數據
緩慢變化類型二:保存多條記錄,直接新添一條記錄,同時保留原有記錄,並用單獨的專用的欄位保存區別
緩慢變化類型三:添加歷史列,用不同的欄位保存變化痕跡.它只能保存兩次變化記錄.適用於變化不超過兩次的維度
子系統10:代理鍵生成系統
代理鍵用於標識維度表的一行,在載入維度表和事實表的時候需要查詢代理鍵。代理鍵的生成一般有:1、使用表裡現在代理鍵的最大值+1;2、使用資料庫序列;3、使用一個自增欄位。
子系統11:層次維度構建
在數據倉庫里還要考慮如何構建和維護數據倉庫里的層次。層次可以讓用戶分析查看維度不同級別上的數據。最簡單的層次概念就是時間維度的層次,例如“年-季-月-日”這樣的層次。
子系統12:特殊維度生成系統
除了緩慢變化維度,基於多位模型的數據倉庫,至少都包含一個特殊維度:時間維度。當然還有其他特殊維度,這裡不列舉。
子系統13:事實表載入
在往數據倉庫載入事實表之前,需要把數據準備好。事實表主要有三種類型:
1、事實粒度事實表:以每一個事務或者事件為單位,例如一個銷售記錄;
2、周期快照事實表:事實表裡並不保存全部數據,只保存固定時間間隔的數據,例如每月的消費記錄;
3、累積快照事實表:當有新的數據時,更新事實表裡的記錄。
子系統14:代理鍵管道
這個子系統負責抽取正確的代理鍵,用於載入事實表。
子系統15:多值維度橋接表生成系統
當有多個維度項和事實表或其他維度表關聯時,也要使用橋接表。例如電影票和演員。如果想彙總一個演員有多少電影票收入,需要在電影和電影演員維度之間建立一個橋接表,橋接表還可以設置電影演員的權重因數。
子系統16:遲到數據處理
事實表數據和維度表數據都有可能晚到。對於事實表來說不是大問題,課根據維度的有效時間查找業務發生時的維度代理鍵。如果維度表數據晚到,情況就會稍微麻煩一些,若事實表數據載入完了但維度表的數據不是最新的。當要更新的維度數據過來後,會在維度表裡增加一條記錄,此時要使用新創建的維度的代理鍵來更新事實表裡有上一個代理鍵的數據。(說實話這一段沒怎麼看得懂......)
子系統17:維度管理系統
中心控制系統,用來準備額向數據倉庫發佈正確的維度。
子系統18:事實表管理系統
負責任何創建、組織、管理和事實表相關的任務。
子系統19:聚集構建
如果資料庫是用於分析的,一定會有性能方面的要求。這種對速度的要求產生了幾種解決方案,在這些解決方案里,聚集表對性能的提升最大。
子系統20:OLAP Cube構建系統
OLAP資料庫有特殊的存儲結構,當載入的時候可以預先聚集數據。一些OLAP資料庫只能寫不能更新,所以在做更新之前要把源數據清楚。
子系統21:數據整合管理系統
用來從數據倉庫獲取數據,並把數據發送到其他環境中,通常用於離線數據分析或者其他特殊目的,如給用戶發送報表。
四、管理
子系統22:作業調度
子系統23:備份系統
子系統24:恢復和重新啟動系統
子系統25:版本控制系統
子系統26:從開發環境到測試、生產環境的版本移植系統
子系統27:工作流監控
子系統28:排序系統
子系統29:血統和依賴分析
子系統30:問題報告系統
子系統31:並行/管道系統
子系統32:安全系統
子系統33:合規報告系統
子系統34:元數據資源庫管理系統