應用Pentaho Data Integration(Kettle) 6.1 進行數據抽取以及指標計算(一、同構數據抽取)

来源:http://www.cnblogs.com/wheel/archive/2016/09/24/5902121.html
-Advertisement-
Play Games

本案例是一個小型數據抽取分析類系統,通過抽取數據共用中心中的配網台區(一個台區一個配變)的相關數據進行整合,完成有關台區的50多個欄位按照日、月、多月等維度的集中計算展示。新使用的控制項有:作業、轉換、檢驗欄位的值、使用javascript腳本驗證、等待、設置變數、表輸入、資料庫連接、表輸出(同構)、... ...


一、概述

     本案例是一個小型數據抽取分析類系統,通過抽取數據共用中心中設備信息管理系統、用戶信息管理系統、電量監測系統的配網台區(一個台區一個配變)的相關數據進行整合,完成有關台區的50多個欄位按照日、月、多月等維度的集中計算展示,其中有17個指標欄位需要系統進行自動計算,並於每天對不同部門關註的台區指標進行超標告警,除開這些基本要求之外,用戶還要求支持歷史報表的查詢以及可以對部分計算參數進行配置修改,甚至可以修改計算參數後對歷史報表產生影響。

     經過數據量分析,配變基本數據方面,設備信息有300多萬個功能位置,其中只有1.4萬為配電變壓器,用戶管理系統有1萬多個配變與其對應,電量測量系統有9000多個電量監測點與用戶信息系統的配變對應,最終取得三個系統都能對應上的配變有8000多個。配變瞬時電量監測數據方面,電量監測系統的每個電量監測點會每15分鐘產生一條數據,每天共計96條,而來賓台區所有的電量監測點所產生的數據每天有150萬條(大約占500M的硬碟空間)。

     基於需求與數量上的分析情況來看,為滿足上述需求,我採取的方案是,每天通過ETL(kettle)工具從數據共用中心抽取台區的基本數據並保存在本系統中,而電量監測瞬時數據抽取出來後,直接對其中17個指標欄位按照每日、每月(每月1號觸發)二個層級進行預計算,計算結果以及引用參數都保存在本系統,完成後則將瞬時電量監測數據拋棄,多月的情況則由系統功能依據用戶輸入的查詢條件基於每日、每月的結果動態計算後展現(可採用報表平臺實現)。

     

 

二、台區基礎數據的抽取(同構抽取)

基於Kettle的處理程式主要分成轉換(ktr)和作業(kjb),2大類進行排序和調度,作業內部可以包含若幹作業和若幹轉換。

台區基礎數據的抽取過程比較通用,都基本是從數據共用中心全表抽取過來,並覆蓋本地全表,抽取前需要檢測數據共用中心是否正常抽取了足夠的新數據,以保證本系統不會因為數據共用中心的抽數不正常而出現問題,每個表的抽取作業(kjb)如下圖所示:

 

 

         該作業負責抽取設備信息系統的設備功能位置表,主要分成3個轉換(ktr)來保證,在出現因網路或者對方資料庫問題而出現的問題時將進行有限次的重試。當轉換出現報錯時,程式則會進入圖中左下方的紅叉路徑,然後設置計數器變數j,每次錯誤j+1,之後則會馬上進入一個檢測控制項,當重試次數尚未超過閥值時則會進入等待控制項(超過時路徑未畫,預設),等待數秒後則重新嘗試執行轉換,當執行成功後則對該計數器進行清零。

 

 

 思路回到正常的抽取過程,該作業按照通用多表的參數化的標準來實現,在作業執行前首先先設置表名變數以及過濾條件變數。

 

 

 接下來進入具體的轉換,該轉換負責從本庫讀取現有數據量,點開這個轉換會看到這個轉換關聯到當前目錄下的一個轉換(ktr)文件,具體的處理流程在其中。

 

 

 進入該轉換,該轉換共有2個控制項來完成工作。

 

 

 表輸入負責從資料庫讀取相關的數據並將結果集發送到下一步,取數前需要先設置資料庫連接,勾選’替換SQL語句的變數’後可以用${XXX}語法將之前設置好的表名變數讀取到該控制項中執行,count(1)-0可以給予在進行每天抽數的比較時的一個允許偏差幅度,例如今天待抽數據如果小於已在庫中數據量10000條(count(1)-10000),則認為數據共用中心的數據不可信,則會取消本次數據抽取。

 

 

 設置資料庫連接,支持多種常用資料庫

 

 

 在設置變數這個控制項中,我們可以以一個欄位來賦值給一個變數,該變數將可以在後續的計算中引用,這裡要註意的是變數活動類型,這裡將決定該變數的可見範圍(整個JVM、當前作業、當前作業的父作業、根作業),在這裡我們選擇當前作業即可。

 

 

 下麵我們進入第2個轉換程式中,該程式負責獲取數據共用中心的數據量。

 

 

 進入該轉換,該轉換共有3個控制項來完成工作。

 

 

 表輸入負責從資料庫讀取相關的數據並將結果集發送到下一步。

 

 

 當我們其中一個控制項的輸出要同時發給2個後續控制項的話請使用複製,不要分發,如果選擇分發,則後續的控制項將會分享同一份數據,而不是分別得到完整的一份數據。

 

 

 在設置變數這個控制項中,我們可以以一個欄位來賦值給一個變數

 

 

 然後我們把結果集複製到結果集,在後續的轉換中他將可以被訪問到

 

 在該作業執行完成後,將查詢到的數據集成平臺數據量通過SQL腳本寫入抽取日誌表中,用自己想要的日誌結構比kettle自帶的簡潔。

 

 

 當本地的數據量以及數據集成平臺上面的數據量都獲取到之後,通過比較控制項對2個變數進行比較。

 

 

 當數據集成平臺的數量不小於本地資料庫的值時則進入下一個轉換程式

 

 

 該轉換過程由2個控制項來完成。

 

 

 通過表輸入將集成平臺上的數據全部取出,表名以及過濾條件變數全部用上,取出數據後將結果集傳遞到表輸出控制項。

 

 

 由表輸出控制項完成對本地表的清除和插入工作,表名使用目標表名變數,當勾選裁剪表選項,則等於truncate命令,效率已試過一樣,可放心使用,至此,一個表的數據就完成了抽取。

 

 

 因為採用了參數化,其他台區基礎數據表也可以使用該作業程式進行抽取,只需改動表名變數以及條件變數即可,針對不同表名可以採用不同的查詢條件,例如。

 

 

最後使用一個總作業將各個表的抽取作業串聯起來,則成為一個完整的作業,下圖中每個都是一個數據表的抽取過程。

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
一周排行
    -Advertisement-
    Play Games
  • 前言 本文介紹一款使用 C# 與 WPF 開發的音頻播放器,其界面簡潔大方,操作體驗流暢。該播放器支持多種音頻格式(如 MP4、WMA、OGG、FLAC 等),並具備標記、實時歌詞顯示等功能。 另外,還支持換膚及多語言(中英文)切換。核心音頻處理採用 FFmpeg 組件,獲得了廣泛認可,目前 Git ...
  • OAuth2.0授權驗證-gitee授權碼模式 本文主要介紹如何筆者自己是如何使用gitee提供的OAuth2.0協議完成授權驗證並登錄到自己的系統,完整模式如圖 1、創建應用 打開gitee個人中心->第三方應用->創建應用 創建應用後在我的應用界面,查看已創建應用的Client ID和Clien ...
  • 解決了這個問題:《winForm下,fastReport.net 從.net framework 升級到.net5遇到的錯誤“Operation is not supported on this platform.”》 本文內容轉載自:https://www.fcnsoft.com/Home/Sho ...
  • 國內文章 WPF 從裸 Win 32 的 WM_Pointer 消息獲取觸摸點繪製筆跡 https://www.cnblogs.com/lindexi/p/18390983 本文將告訴大家如何在 WPF 裡面,接收裸 Win 32 的 WM_Pointer 消息,從消息裡面獲取觸摸點信息,使用觸摸點 ...
  • 前言 給大家推薦一個專為新零售快消行業打造了一套高效的進銷存管理系統。 系統不僅具備強大的庫存管理功能,還集成了高性能的輕量級 POS 解決方案,確保頁面載入速度極快,提供良好的用戶體驗。 項目介紹 Dorisoy.POS 是一款基於 .NET 7 和 Angular 4 開發的新零售快消進銷存管理 ...
  • ABP CLI常用的代碼分享 一、確保環境配置正確 安裝.NET CLI: ABP CLI是基於.NET Core或.NET 5/6/7等更高版本構建的,因此首先需要在你的開發環境中安裝.NET CLI。這可以通過訪問Microsoft官網下載並安裝相應版本的.NET SDK來實現。 安裝ABP ...
  • 問題 問題是這樣的:第三方的webapi,需要先調用登陸介面獲取Cookie,訪問其它介面時攜帶Cookie信息。 但使用HttpClient類調用登陸介面,返回的Headers中沒有找到Cookie信息。 分析 首先,使用Postman測試該登陸介面,正常返回Cookie信息,說明是HttpCli ...
  • 國內文章 關於.NET在中國為什麼工資低的分析 https://www.cnblogs.com/thinkingmore/p/18406244 .NET在中國開發者的薪資偏低,主要因市場需求、技術棧選擇和企業文化等因素所致。歷史上,.NET曾因微軟的閉源策略發展受限,儘管後來推出了跨平臺的.NET ...
  • 在WPF開發應用中,動畫不僅可以引起用戶的註意與興趣,而且還使軟體更加便於使用。前面幾篇文章講解了畫筆(Brush),形狀(Shape),幾何圖形(Geometry),變換(Transform)等相關內容,今天繼續講解動畫相關內容和知識點,僅供學習分享使用,如有不足之處,還請指正。 ...
  • 什麼是委托? 委托可以說是把一個方法代入另一個方法執行,相當於指向函數的指針;事件就相當於保存委托的數組; 1.實例化委托的方式: 方式1:通過new創建實例: public delegate void ShowDelegate(); 或者 public delegate string ShowDe ...