ETL子系統

来源:https://www.cnblogs.com/lyuzt/archive/2019/08/26/11401349.html
-Advertisement-
Play Games

最近在看《Pentaho Kettle 解決方案》,看到 ETL子系統,發現信息量比較大,用簡短的語句做一下筆記。 ETL子系統有34種子系統,被分成4個部分:抽取、清洗和更正、發佈、管理。 一、抽取 子系統1:數據剖析系統 指從不同源系統中搜集數據的統計信息或其他相關信息的過程,目的是分析不同數據 ...


  最近在看《Pentaho Kettle 解決方案》,看到 ETL子系統,發現信息量比較大,用簡短的語句做一下筆記。

  ETL子系統有34種子系統,被分成4個部分:抽取、清洗和更正、發佈、管理。

一、抽取

 子系統1:數據剖析系統

  指從不同源系統中搜集數據的統計信息或其他相關信息的過程,目的是分析不同數據源的結構和內容。

 子系統2:增量數據捕獲系統

  目的是捕獲系統里的數據的變化。由於數據量大以及網路的延遲,數據完成初始載入後,不應再把數據重新載入一邊,為了識別出有變化或更新的數據,增加時間戳或快照的方式。

 子系統3:抽取系統

  從不同數據源抽取數據,並輸入到ETL流程里。

二、清洗和更正

  幾乎沒有什麼數據是不存在問題的,因此數據載入到數據倉庫之前要增加一些步驟來清洗和更正這些數據。另外,每個系統存儲數據得方式不同,比如有些數據源里,性別表示為 0,1;有些數據源里用“男”,“女”表示,存進數據倉庫裡面應該有統一的規範。

 子系統4:數據清洗和質量處理系統

  這個過程主要是修改和整理進入到 ETL 流程的臟數據,提高數據的質量。

 子系統5:錯誤事件處理

  錯誤事件處理的目的是記錄下 ETL 過程中的每一個錯誤。這樣便於管理員定期監控和分析錯誤。

 子系統6:審計緯度

  審計維度表是一類特殊的維度表,數據倉庫里的所有事實表都和審計緯度表關聯。它包含了事實表變更的元數據,如載入數據的日期和時間等。

 子系統7:排查重覆記錄系統

  在大多數情況下,排重是指刪除重覆的數據,或者把不同系統相互衝突的數據統一。

 子系統8:數據一致性

  這個步驟的目的是使來源於多個業務系統的事實數據遵照相同的緯度。例如,A公司有一個客服系統,該系統有自己的客戶資料庫,為了把客服管理系統和銷售系統放在同一個數據倉庫里,需要把客服管理系統的客戶數據和銷售系統的客戶數據統一成一個客戶維度表,當分別載入來自這兩個系統的事實數據時,需要把來自兩個系統的事實數據只想同一個客戶維度表。解決這個問題最常用方法就是維度表中保留從不同系統帶來的自然鍵。在載入數據時,可以查找維度表中的這些源系統中的自然鍵。

三、數據發佈

 子系統9:緩慢變更緯度處理

  當業務系統里的數據有所改變,緩慢變更維度的過程就需要根據不同的規則來變更數據倉庫的緯度。一般有三種緩慢變化維。

  緩慢變化類型一:不記錄歷史數據,新數據覆蓋舊數據

  緩慢變化類型二:保存多條記錄,直接新添一條記錄,同時保留原有記錄,並用單獨的專用的欄位保存區別

  緩慢變化類型三:添加歷史列,用不同的欄位保存變化痕跡.它只能保存兩次變化記錄.適用於變化不超過兩次的維度

 子系統10:代理鍵生成系統

  代理鍵用於標識維度表的一行,在載入維度表和事實表的時候需要查詢代理鍵。代理鍵的生成一般有:1、使用表裡現在代理鍵的最大值+1;2、使用資料庫序列;3、使用一個自增欄位。

 子系統11:層次維度構建

  在數據倉庫里還要考慮如何構建和維護數據倉庫里的層次。層次可以讓用戶分析查看維度不同級別上的數據。最簡單的層次概念就是時間維度的層次,例如“年-季-月-日”這樣的層次。

 子系統12:特殊維度生成系統

  除了緩慢變化維度,基於多位模型的數據倉庫,至少都包含一個特殊維度:時間維度。當然還有其他特殊維度,這裡不列舉。

 子系統13:事實表載入

  在往數據倉庫載入事實表之前,需要把數據準備好。事實表主要有三種類型:

  1、事實粒度事實表:以每一個事務或者事件為單位,例如一個銷售記錄;

  2、周期快照事實表:事實表裡並不保存全部數據,只保存固定時間間隔的數據,例如每月的消費記錄;

  3、累積快照事實表:當有新的數據時,更新事實表裡的記錄。

 子系統14:代理鍵管道

  這個子系統負責抽取正確的代理鍵,用於載入事實表。

 子系統15:多值維度橋接表生成系統

  當有多個維度項和事實表或其他維度表關聯時,也要使用橋接表。例如電影票和演員。如果想彙總一個演員有多少電影票收入,需要在電影和電影演員維度之間建立一個橋接表,橋接表還可以設置電影演員的權重因數。

 子系統16:遲到數據處理

  事實表數據和維度表數據都有可能晚到。對於事實表來說不是大問題,課根據維度的有效時間查找業務發生時的維度代理鍵。如果維度表數據晚到,情況就會稍微麻煩一些,若事實表數據載入完了但維度表的數據不是最新的。當要更新的維度數據過來後,會在維度表裡增加一條記錄,此時要使用新創建的維度的代理鍵來更新事實表裡有上一個代理鍵的數據。(說實話這一段沒怎麼看得懂......)

 子系統17:維度管理系統

  中心控制系統,用來準備額向數據倉庫發佈正確的維度。

 子系統18:事實表管理系統

  負責任何創建、組織、管理和事實表相關的任務。

 子系統19:聚集構建

  如果資料庫是用於分析的,一定會有性能方面的要求。這種對速度的要求產生了幾種解決方案,在這些解決方案里,聚集表對性能的提升最大。

 子系統20:OLAP Cube構建系統

  OLAP資料庫有特殊的存儲結構,當載入的時候可以預先聚集數據。一些OLAP資料庫只能寫不能更新,所以在做更新之前要把源數據清楚。

 子系統21:數據整合管理系統

  用來從數據倉庫獲取數據,並把數據發送到其他環境中,通常用於離線數據分析或者其他特殊目的,如給用戶發送報表。

四、管理

 子系統22:作業調度

 子系統23:備份系統

 子系統24:恢復和重新啟動系統

 子系統25:版本控制系統

 子系統26:從開發環境到測試、生產環境的版本移植系統

 子系統27:工作流監控

 子系統28:排序系統

 子系統29:血統和依賴分析 

 子系統30:問題報告系統

   子系統31:並行/管道系統

   子系統32:安全系統

   子系統33:合規報告系統

   子系統34:元數據資源庫管理系統

  


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1 執行sql文件 2 多表查詢 想要的數據不在同一張表,就需要多個表進行聯查。 多表查詢也叫做表連接查詢,其中的where條件就是連接條件。 可以使用join來進行表連接,from 中的逗號換成join ,where換成on即可,join後面還可以另外跟where條件。 3 外連接 保留沒有通過連 ...
  • 創建資料庫:CREATE DATABASE 資料庫名; 創建數據表:CREATE TABLE table_name (column_name column_type); 插入數據:INSERT INTO table_name ( field1, field2,...fieldN ) VALUES ( ...
  • 1 登錄啟動 2 解鎖用戶 修改密碼 3 簡單查詢及使用技巧 4 設置 5 null值 6 修改列名 7 DML(數據操縱語言) 增 insert 刪 delete 查 select 改 update 8 DDL(數據定義語言) 創建表 create table 修改表 alter table 清空 ...
  • 一、簡述 在使用 HBase 時,如果你的數據量達到了數十億行或數百萬列,此時能否在查詢中返回大量數據將受制於網路的帶寬,即便網路狀況允許,但是客戶端的計算處理也未必能夠滿足要求。在這種情況下,協處理器(Coprocessors)應運而生。它允許你將業務計算代碼放入在 RegionServer 的協 ...
  • 我們都知道Kafka的吞吐量很大,但是Kafka究竟會不會丟失消息呢?又會不會重覆消費消息呢? ​ 有很多公司因為業務要求必須保證消息不丟失、不重覆的到達,比如無人機實時監控系統,當無人機闖入機場區域,我們必須立刻報警,不允許消息丟失。而無人機離開禁飛區域後我們需要將及時報警解除。如果消息重覆了呢, ...
  • 首先到 https://github.com/ServiceStack/redis-windows 下載redis 然後將下載的文件解壓 然後獲取裡面的這個壓縮包並且解壓 <!--5f39ae17-8c62-4a45-bc43-b32064c9388a:W3siYmxvY2tJZCI6IjY4ODA ...
  • 基本安裝參考https://www.jianshu.com/p/8b27ff71429f 按此方案裝的時候會遇到各種flask版本不相容的問題,所以 第一步:裝好anaconda 第二部:保證好高於VC++14的環境,沒有的話可以去簡書https://www.jianshu.com/p/8b27ff ...
  • 最近在使用java操作遠程的mysql資料庫的時候,第一次請求非常的慢,而且極其容易引起系統的崩潰報錯連接超時 下麵就這個問題來解決下把 大部分我們的mysql中的配置信息時這樣的(本人的修改過,自查宿主的mysql信息) 其中的配置信息,網上也有很多的介紹,這裡邊就不詳細的介紹了, 其中有一個(我 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...