pentaho(keetle)數據同步實踐

来源:https://www.cnblogs.com/ycit/archive/2023/08/10/17620566.html
-Advertisement-
Play Games

1 pentaho簡介 `pentaho`是一款開源`ETL`工具,純java編寫的C/S模式的工具,可綠色免安裝,開箱即用。支持Windows、macOS、Linux平臺。 ...


pentaho(keetle)數據同步實踐

1 pentaho簡介

pentaho可讀作“彭塔湖”,在keetlepentaho公司收購後改名而來。

pentaho是一款開源ETL工具,純java編寫的C/S模式的工具,可綠色免安裝,開箱即用。支持Windows、macOS、Linux平臺。

pentaho有2個核心設計,即轉換作業

轉換是一個包含輸入、邏輯處理、輸出的完整過程,即ETL。

作業是一個提供定時執行轉換的機制,即定時服務調度。

pentaho官網下載鏈接:Pentaho Community Edition Download | Hitachi Vantara

image

pentaho由主要四部分組成

  • Spoon.bat/Spoon.sh :勺子,是一個圖形化界面,可圖形化操作轉換和作業
  • Pan.bat/Pan.sh : 煎鍋,可用命令行方式調用轉換
  • Kitchen.bat/Kitchen.sh : 廚房,可用命令行方式調用作業
  • Carte.bat/Carte.sh : 菜單,是一個輕量級web容器,可建立專用、遠程的ETL Server

2 pentaho安裝

由於是純java編寫,依賴jdk環境。所以需要先配置jdk環境,這裡省略。

從官網下載pentaho安裝包後,直接解壓。

image

重點目錄以及執行文件說明

  • lib目錄 : 這是依賴庫目錄,例如各個資料庫的jdbc驅動,都放在此目錄下
  • logs目錄 :這是轉換和作業運行的預設日誌輸出目錄
  • simple-jndi目錄 :這是各個資料庫的JNDI連接信息的全局配置
  • Spoon.bat/Spoon.sh :勺子,是一個圖形化界面,可圖形化操作轉換和作業
  • Pan.bat/Pan.sh : 煎鍋,可用命令行方式調用轉換
  • Kitchen.bat/Kitchen.sh : 廚房,可用命令行方式調用作業
  • Carte.bat/Carte.sh : 菜單,是一個輕量級web容器,可建立專用、遠程的ETL Server

3 數據同步案例

這裡使用sqlserverpostgresql同步。在Windows平臺上操作。

3.1 執行Spoon.bat文件,啟動圖形化界面

image

可以看到左側只有作業轉換

3.2 創建一個轉換,右鍵,新建

image

左側是一些轉換插件。

3.3 創建一個數據源輸入,展開輸入,選擇表輸入

image

切換到主對象樹,選擇DB連接,連接數據源。

由於我這裡是sqlserver同步到postgresql,所以需要創建sqlserver和postgresql的DB連接

創建連接前,需要先下載sqlserver的 jdbc驅動mssql-jdbc-12.2.0.jre8.jar 和 postgresql的jdbc驅動postgresql-42.6.0.jar,我這裡直接選的最新版。

sqlserver的連接

image

​ sqlserver的連接,如果選擇JNDI則無法連接,目前猜測可能是驅動版本問題

postgresql的連接

image

點擊測試,如果連接成功,則會彈框提示

image

3.4 編輯表輸入

image

先選擇資料庫連接

image

點擊獲取SQL查詢語句,獲取數據表

image

選擇一個數據表後,會提示是否選擇全部欄位,選擇是

image

image

點擊確定,一個表輸入就做好了。

3.5 創建一個數據源輸出

如果是全表覆蓋同步,則選擇表輸出,因為這裡是需要根據主鍵判斷是否重覆,重覆則更新,否則就插入,因此這裡選擇 插入/更新

展開輸出節點,選擇 插入/更新,並將其拖入到右側圖形界面中,然後將表輸入連線到當前節點,按住shift+滑鼠左鍵

這裡如果不先連線的話,在配置映射欄位時,就無法獲取源表欄位,需要自行輸入

image

image

雙擊進行編輯

image

點擊確定後,一個轉換就完成了

image

點擊左上角的運行按鈕,即可執行同步了。


Q1:這是一個單表轉換,那如果需要一次同步多個表呢?

A1:那就繼續按此步驟進行配置,多表轉換配置完成後如下

image

Q2:那表數量很多,這麼配置很費時間,有什麼更好的辦法麽?

A2:有。可以編寫腳本,正在學習中……


Q3: 前面的轉換已經配置完成了,但是只能手動點擊運行,能否定時自動運行?

A3:可以。繼續看第4節。


4 定時服務

選擇文件–>新建–>作業,即可創建一個作業。

image

在作業視窗,選擇核心對象,展開通用,選擇Start、轉換、成功,分別拖入圖形界面中,並按順序連線

image

雙擊轉換就,進行編輯,選擇轉換文件

無論轉換、還是作業,都是以xml文件形式保存在本地

image

此時一個作業即配置完成,但是註意,還沒達到定時運行的目的,繼續配置

雙擊Start,對作業進行配置

image

配置完後點擊確定,然後點擊圖形界面的運行按鈕,定時服務即啟動了

image

在日誌輸出視窗,可看到服務運行日誌

image

至此,pentaho的定時數據同步已完成。


Q4: 定時服務開啟後,這個程式視窗被關了或者說程式退出了,服務還運行嗎?

A4:不會。由於是C/S模式,客戶端服務端一體,進程退出即服務停止


Q5:那有類似後臺服務的方式,悄悄運行呢,不被這個界面退出所終止服務?

A5:有。請看第5節。


5 以後臺方式運行作業

在介紹中提到,有個Kitchen.bat/Kitchen.sh(廚房)的執行文件,它的作用就是用命令方式調用作業。由於是在Windows平臺,所以選擇Kitchen.bat執行文件。

打開控制台視窗,進入pentaho安裝目錄,即Kitchen.bat所在目錄,執行如下命令

kitchen /file:{job file path} /level:Basic>>{log file path}

說明:

/file 參數指定 job文件

/level 參數指定日誌級別,並寫入指定的文件

指定日誌文件後,控制台界面就不會輸出日誌,否則日誌會在控制台輸出,像下麵這樣

image


Q6:總開著一個控制台黑框,也不太好,視窗被關了,服務不也停止了嗎?有什麼更好的方式嗎?

A6:是的。有。可以隱藏掉黑視窗,那麼繼續往下看。


5.1 隱藏控制台視窗

在Kitchen.bat同級目錄下創建一個txt文本文件,輸入如下內容

@echo off 
if "%1" == "h" goto begin 
mshta vbscript:createobject("wscript.shell").run("%~nx0 h",0)(window.close)&&exit 
:begin
kitchen /file:"替換為job文件路徑" /level:Basic>>"替換為日誌文件路徑"

然後以ANSI編碼方式另存為.bat文件。用ANSI編碼,是防止文件路徑有中文出現亂碼。

至此,一個完成的pentaho定時數據同步作業服務就完成了。

本文來自博客園,作者:宣君{https://www.nhit.icu/},轉載請註明原文鏈接:https://www.cnblogs.com/ycit/p/17620566.html


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 博客推行版本更新,成果積累制度,已經寫過的博客還會再次更新,不斷地琢磨,高質量高數量都是要追求的,工匠精神是學習必不可少的精神。因此,大家有何建議歡迎在評論區踴躍發言,你們的支持是我最大的動力,你們敢投,我就敢肝 ...
  • # WSL獲得Ubuntu系統 ## 一、WSL介紹 ![uTools_1691654842978](https://img2023.cnblogs.com/blog/3178390/202308/3178390-20230810191800229-1878153067.png) ## 二、WSL部 ...
  • 屏蔽驅動列印信息 root許可權:echo "1 4 1 7" > /proc/sys/kernel/printk sudo sh -c "sudo echo "1 4 1 7" > /proc/sys/kernel/printk 實現觸摸屏校驗 第一次進入Linux系統時,會出現觸摸校驗提示,按提示 ...
  • 平時在運維的時候,有時候SSH無法使用的情況下就需要備用telnet遠程,本文就簡單分享如何安裝配置telnet遠程 一、獲取安裝包 安裝包需要準備telnet\telnet-server\xintet,都是非常成熟的軟體,可線上直接安裝。 線上安裝: yum install telnet teln ...
  • ## 首先 - 聲明:這是轉載,我只是做一個記錄,以下內容可解決問題(本人已嘗試並已解決),當然也可以去轉載出處查看大佬的原回答: >[Win10系統, administrator賬戶被微軟賬戶強行綁定,怎麼破? - 海爾森肯威的回答 - 知乎](https://www.zhihu.com/ques ...
  • 博客推行版本更新,成果積累制度,已經寫過的博客還會再次更新,不斷地琢磨,高質量高數量都是要追求的,工匠精神是學習必不可少的精神。因此,大家有何建議歡迎在評論區踴躍發言,你們的支持是我最大的動力,你們敢投,我就敢肝 ...
  • ![](https://img2023.cnblogs.com/blog/3076680/202308/3076680-20230809235422409-1190410594.png) # 1. 2版DB版本 ## 1.1. DB2 11.5 ## 1.2. Oracle 19c ## 1.3.  ...
  • “數據孤島”簡單的講,各組織都持有各自的數據,這些數據之間互有關係但又獨立存儲於各組織。出於安全性、合規性等方面考慮,各組織只能查詢、使用己方數據,無法交換其它組織的數據。在聯邦學習出現前,針對數據隱私保護的密碼學已應用於本地數據機器學習,隨著“數據孤島”問題的浮現,聯邦學習的概念出現併發展的日益成... ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...