本案例是一個小型數據抽取分析類系統,通過抽取數據共用中心中的配網台區(一個台區一個配變)的相關數據進行整合,完成有關台區的50多個欄位按照日、月、多月等維度的集中計算展示。新使用的控制項有:作業、轉換、檢驗欄位的值、使用javascript腳本驗證、等待、設置變數、表輸入、資料庫連接、表輸出(同構)、... ...
一、概述
本案例是一個小型數據抽取分析類系統,通過抽取數據共用中心中設備信息管理系統、用戶信息管理系統、電量監測系統的配網台區(一個台區一個配變)的相關數據進行整合,完成有關台區的50多個欄位按照日、月、多月等維度的集中計算展示,其中有17個指標欄位需要系統進行自動計算,並於每天對不同部門關註的台區指標進行超標告警,除開這些基本要求之外,用戶還要求支持歷史報表的查詢以及可以對部分計算參數進行配置修改,甚至可以修改計算參數後對歷史報表產生影響。
經過數據量分析,配變基本數據方面,設備信息有300多萬個功能位置,其中只有1.4萬為配電變壓器,用戶管理系統有1萬多個配變與其對應,電量測量系統有9000多個電量監測點與用戶信息系統的配變對應,最終取得三個系統都能對應上的配變有8000多個。配變瞬時電量監測數據方面,電量監測系統的每個電量監測點會每15分鐘產生一條數據,每天共計96條,而來賓台區所有的電量監測點所產生的數據每天有150萬條(大約占500M的硬碟空間)。
基於需求與數量上的分析情況來看,為滿足上述需求,我採取的方案是,每天通過ETL(kettle)工具從數據共用中心抽取台區的基本數據並保存在本系統中,而電量監測瞬時數據抽取出來後,直接對其中17個指標欄位按照每日、每月(每月1號觸發)二個層級進行預計算,計算結果以及引用參數都保存在本系統,完成後則將瞬時電量監測數據拋棄,多月的情況則由系統功能依據用戶輸入的查詢條件基於每日、每月的結果動態計算後展現(可採用報表平臺實現)。
二、台區基礎數據的抽取(同構抽取)
基於Kettle的處理程式主要分成轉換(ktr)和作業(kjb),2大類進行排序和調度,作業內部可以包含若幹作業和若幹轉換。
台區基礎數據的抽取過程比較通用,都基本是從數據共用中心全表抽取過來,並覆蓋本地全表,抽取前需要檢測數據共用中心是否正常抽取了足夠的新數據,以保證本系統不會因為數據共用中心的抽數不正常而出現問題,每個表的抽取作業(kjb)如下圖所示:
該作業負責抽取設備信息系統的設備功能位置表,主要分成3個轉換(ktr)來保證,在出現因網路或者對方資料庫問題而出現的問題時將進行有限次的重試。當轉換出現報錯時,程式則會進入圖中左下方的紅叉路徑,然後設置計數器變數j,每次錯誤j+1,之後則會馬上進入一個檢測控制項,當重試次數尚未超過閥值時則會進入等待控制項(超過時路徑未畫,預設),等待數秒後則重新嘗試執行轉換,當執行成功後則對該計數器進行清零。
思路回到正常的抽取過程,該作業按照通用多表的參數化的標準來實現,在作業執行前首先先設置表名變數以及過濾條件變數。
接下來進入具體的轉換,該轉換負責從本庫讀取現有數據量,點開這個轉換會看到這個轉換關聯到當前目錄下的一個轉換(ktr)文件,具體的處理流程在其中。
進入該轉換,該轉換共有2個控制項來完成工作。
表輸入負責從資料庫讀取相關的數據並將結果集發送到下一步,取數前需要先設置資料庫連接,勾選’替換SQL語句的變數’後可以用${XXX}語法將之前設置好的表名變數讀取到該控制項中執行,count(1)-0可以給予在進行每天抽數的比較時的一個允許偏差幅度,例如今天待抽數據如果小於已在庫中數據量10000條(count(1)-10000),則認為數據共用中心的數據不可信,則會取消本次數據抽取。
設置資料庫連接,支持多種常用資料庫
在設置變數這個控制項中,我們可以以一個欄位來賦值給一個變數,該變數將可以在後續的計算中引用,這裡要註意的是變數活動類型,這裡將決定該變數的可見範圍(整個JVM、當前作業、當前作業的父作業、根作業),在這裡我們選擇當前作業即可。
下麵我們進入第2個轉換程式中,該程式負責獲取數據共用中心的數據量。
進入該轉換,該轉換共有3個控制項來完成工作。
表輸入負責從資料庫讀取相關的數據並將結果集發送到下一步。
當我們其中一個控制項的輸出要同時發給2個後續控制項的話請使用複製,不要分發,如果選擇分發,則後續的控制項將會分享同一份數據,而不是分別得到完整的一份數據。
在設置變數這個控制項中,我們可以以一個欄位來賦值給一個變數
然後我們把結果集複製到結果集,在後續的轉換中他將可以被訪問到
在該作業執行完成後,將查詢到的數據集成平臺數據量通過SQL腳本寫入抽取日誌表中,用自己想要的日誌結構比kettle自帶的簡潔。
當本地的數據量以及數據集成平臺上面的數據量都獲取到之後,通過比較控制項對2個變數進行比較。
當數據集成平臺的數量不小於本地資料庫的值時則進入下一個轉換程式
該轉換過程由2個控制項來完成。
通過表輸入將集成平臺上的數據全部取出,表名以及過濾條件變數全部用上,取出數據後將結果集傳遞到表輸出控制項。
由表輸出控制項完成對本地表的清除和插入工作,表名使用目標表名變數,當勾選裁剪表選項,則等於truncate命令,效率已試過一樣,可放心使用,至此,一個表的數據就完成了抽取。
因為採用了參數化,其他台區基礎數據表也可以使用該作業程式進行抽取,只需改動表名變數以及條件變數即可,針對不同表名可以採用不同的查詢條件,例如。
最後使用一個總作業將各個表的抽取作業串聯起來,則成為一個完整的作業,下圖中每個都是一個數據表的抽取過程。