應用Pentaho Data Integration(Kettle) 6.1 進行數據抽取以及指標計算(一、同構數據抽取)

来源:http://www.cnblogs.com/wheel/archive/2016/09/24/5902121.html
-Advertisement-
Play Games

本案例是一個小型數據抽取分析類系統,通過抽取數據共用中心中的配網台區(一個台區一個配變)的相關數據進行整合,完成有關台區的50多個欄位按照日、月、多月等維度的集中計算展示。新使用的控制項有:作業、轉換、檢驗欄位的值、使用javascript腳本驗證、等待、設置變數、表輸入、資料庫連接、表輸出(同構)、... ...


一、概述

     本案例是一個小型數據抽取分析類系統,通過抽取數據共用中心中設備信息管理系統、用戶信息管理系統、電量監測系統的配網台區(一個台區一個配變)的相關數據進行整合,完成有關台區的50多個欄位按照日、月、多月等維度的集中計算展示,其中有17個指標欄位需要系統進行自動計算,並於每天對不同部門關註的台區指標進行超標告警,除開這些基本要求之外,用戶還要求支持歷史報表的查詢以及可以對部分計算參數進行配置修改,甚至可以修改計算參數後對歷史報表產生影響。

     經過數據量分析,配變基本數據方面,設備信息有300多萬個功能位置,其中只有1.4萬為配電變壓器,用戶管理系統有1萬多個配變與其對應,電量測量系統有9000多個電量監測點與用戶信息系統的配變對應,最終取得三個系統都能對應上的配變有8000多個。配變瞬時電量監測數據方面,電量監測系統的每個電量監測點會每15分鐘產生一條數據,每天共計96條,而來賓台區所有的電量監測點所產生的數據每天有150萬條(大約占500M的硬碟空間)。

     基於需求與數量上的分析情況來看,為滿足上述需求,我採取的方案是,每天通過ETL(kettle)工具從數據共用中心抽取台區的基本數據並保存在本系統中,而電量監測瞬時數據抽取出來後,直接對其中17個指標欄位按照每日、每月(每月1號觸發)二個層級進行預計算,計算結果以及引用參數都保存在本系統,完成後則將瞬時電量監測數據拋棄,多月的情況則由系統功能依據用戶輸入的查詢條件基於每日、每月的結果動態計算後展現(可採用報表平臺實現)。

     

 

二、台區基礎數據的抽取(同構抽取)

基於Kettle的處理程式主要分成轉換(ktr)和作業(kjb),2大類進行排序和調度,作業內部可以包含若幹作業和若幹轉換。

台區基礎數據的抽取過程比較通用,都基本是從數據共用中心全表抽取過來,並覆蓋本地全表,抽取前需要檢測數據共用中心是否正常抽取了足夠的新數據,以保證本系統不會因為數據共用中心的抽數不正常而出現問題,每個表的抽取作業(kjb)如下圖所示:

 

 

         該作業負責抽取設備信息系統的設備功能位置表,主要分成3個轉換(ktr)來保證,在出現因網路或者對方資料庫問題而出現的問題時將進行有限次的重試。當轉換出現報錯時,程式則會進入圖中左下方的紅叉路徑,然後設置計數器變數j,每次錯誤j+1,之後則會馬上進入一個檢測控制項,當重試次數尚未超過閥值時則會進入等待控制項(超過時路徑未畫,預設),等待數秒後則重新嘗試執行轉換,當執行成功後則對該計數器進行清零。

 

 

 思路回到正常的抽取過程,該作業按照通用多表的參數化的標準來實現,在作業執行前首先先設置表名變數以及過濾條件變數。

 

 

 接下來進入具體的轉換,該轉換負責從本庫讀取現有數據量,點開這個轉換會看到這個轉換關聯到當前目錄下的一個轉換(ktr)文件,具體的處理流程在其中。

 

 

 進入該轉換,該轉換共有2個控制項來完成工作。

 

 

 表輸入負責從資料庫讀取相關的數據並將結果集發送到下一步,取數前需要先設置資料庫連接,勾選’替換SQL語句的變數’後可以用${XXX}語法將之前設置好的表名變數讀取到該控制項中執行,count(1)-0可以給予在進行每天抽數的比較時的一個允許偏差幅度,例如今天待抽數據如果小於已在庫中數據量10000條(count(1)-10000),則認為數據共用中心的數據不可信,則會取消本次數據抽取。

 

 

 設置資料庫連接,支持多種常用資料庫

 

 

 在設置變數這個控制項中,我們可以以一個欄位來賦值給一個變數,該變數將可以在後續的計算中引用,這裡要註意的是變數活動類型,這裡將決定該變數的可見範圍(整個JVM、當前作業、當前作業的父作業、根作業),在這裡我們選擇當前作業即可。

 

 

 下麵我們進入第2個轉換程式中,該程式負責獲取數據共用中心的數據量。

 

 

 進入該轉換,該轉換共有3個控制項來完成工作。

 

 

 表輸入負責從資料庫讀取相關的數據並將結果集發送到下一步。

 

 

 當我們其中一個控制項的輸出要同時發給2個後續控制項的話請使用複製,不要分發,如果選擇分發,則後續的控制項將會分享同一份數據,而不是分別得到完整的一份數據。

 

 

 在設置變數這個控制項中,我們可以以一個欄位來賦值給一個變數

 

 

 然後我們把結果集複製到結果集,在後續的轉換中他將可以被訪問到

 

 在該作業執行完成後,將查詢到的數據集成平臺數據量通過SQL腳本寫入抽取日誌表中,用自己想要的日誌結構比kettle自帶的簡潔。

 

 

 當本地的數據量以及數據集成平臺上面的數據量都獲取到之後,通過比較控制項對2個變數進行比較。

 

 

 當數據集成平臺的數量不小於本地資料庫的值時則進入下一個轉換程式

 

 

 該轉換過程由2個控制項來完成。

 

 

 通過表輸入將集成平臺上的數據全部取出,表名以及過濾條件變數全部用上,取出數據後將結果集傳遞到表輸出控制項。

 

 

 由表輸出控制項完成對本地表的清除和插入工作,表名使用目標表名變數,當勾選裁剪表選項,則等於truncate命令,效率已試過一樣,可放心使用,至此,一個表的數據就完成了抽取。

 

 

 因為採用了參數化,其他台區基礎數據表也可以使用該作業程式進行抽取,只需改動表名變數以及條件變數即可,針對不同表名可以採用不同的查詢條件,例如。

 

 

最後使用一個總作業將各個表的抽取作業串聯起來,則成為一個完整的作業,下圖中每個都是一個數據表的抽取過程。

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...