【趙強老師】大數據工作流引擎Oozie

来源:https://www.cnblogs.com/collen7788/archive/2020/06/28/13202410.html
-Advertisement-
Play Games

一、什麼是工作流? 工作流(WorkFlow)就是工作流程的計算模型,即將工作流程中的工作如何前後組織在一起的邏輯和規則在電腦中以恰當的模型進行表示並對其實施計算。工作流要解決的主要問題是:為實現某個業務目標,在多個參與者之間,利用電腦,按某種預定規則自動傳遞。下麵我們以“員工請假的流程”為例, ...


一、什麼是工作流?

工作流(WorkFlow)就是工作流程的計算模型,即將工作流程中的工作如何前後組織在一起的邏輯和規則在電腦中以恰當的模型進行表示並對其實施計算。工作流要解決的主要問題是:為實現某個業務目標,在多個參與者之間,利用電腦,按某種預定規則自動傳遞。下麵我們以“員工請假的流程”為例,來為大家介紹什麼是工作流。

這個例子包含了一個完整的員工請假流程。從“請假流程開始”,到“員工填寫請假條”,再到“部門經理審批”,如果審批不通過,流程回到“員工填寫請假條”;如果部門經理審批通過,則流程進入下一個節點;直到最後的流程結束。在Java中,我們可以使用一些框架幫助我們來實現這樣的過程。Java的三大主流工作流引擎分別是:Shark,osworkflow,JBPM

二、什麼是Oozie?

關於什麼是Oozie,其實Oozie是服務於Hadoop生態系統的工作流調度工具,Job運行平臺是區別於其他調度工具的最大的不同。但其實現的思路跟一般調度工具幾乎完全相同。Oozie工作流通過HPDL(一種通過XML自定義處理的語言,類似JBOSS JBPM的JPDL)來構造。Oozie工作流中的Action在運程系統運行如(Hadoop,Pig伺服器上)。一旦Action完成,遠程伺服器將回調Oozie的介面 並通知Action已經完成,這時Oozie又會以同樣的方式執行工作流中的下一個Action,直到工作流中所有Action都完成(完成包括失敗)。Oozie工作流提供各種類型的Action用於支持不同的需要,如Hadoop Map/Reduce,Hadoop File System,Pig,SSH,HTTP,Email,Java以及Oozie子流程。Oozie也支持自定義擴展以上各種類型的Action。

一個正常工作的Oozie系統須包含如下四個模塊:Oozie Client、Oozie Server、DataBase和Hadoop集群。

  • Oozie Client可以通過Web Service API、Java API、Command line 方式向Oozie Server提交工作流任務請求。Oozie客戶端可以通過REST API或者Web GUI來從Oozie服務端獲取Job的日誌流。通常在Client端包括工作流配置文件、工作流屬性文件和工作流庫。
  • Oozie Server負責接收客戶端請求、調度工作任務、監控工作流的執行狀態。Oozie本身不會執行具體的Job,而是將Job的配置信息發送到執行環境。
  • DataBase用於存儲Bundle、Coordinator、Workflow工作流的Action信息、Job信息,記錄Oozie系統信息。簡單說,除了Oozie 運行日誌存在本地硬碟不存在DB中,其他信息都存儲到DB。
  • Hadoop集群運行Oozie工作流的實體,負責處理Oozie Server提交來的各種Job。包括HDFS、MapReduce、Hive、Sqoop等Hadoop組件提交的Job。

三、編譯Oozie

  • 使用的版本信息如下
Hadoop 2.4.1
JDK 1.7
Maven 3.5.0
Oozie 4.3
  • 在oozie解壓後的目錄下,編譯oozie,執行命令:

bin/mkdistro.sh -DskipTests -Dhadoop.version=2.4.1

註意:如果第一次安裝,Maven會自動下載依賴的jar包,時間可能    會比較長。

  • 如果出現下麵的錯誤,表示Maven的記憶體溢出。

設置環境變數:export MAVEN_OPTS="-Xmx512m -XX:MaxPermSize=128m"
並且重新編譯。
  • 編譯完成,成功出現以下提示。

四、安裝部署Oozie

  • 解壓安裝包
tar -zxvf oozie-4.3.0-distro.tar.gz -C ~/training/
  • 設置環境變數

  • 建立MySQL資料庫
create database oozie;
create user 'oozieowner'@'%' identified by 'password';              
grant all on oozie.* TO 'oozieowner'@'%'; 
grant all on oozie.* TO 'oozieowner'@'localhost' identified by 'password';
  • 修改文件:conf/oozie-site.xml

  • 配置oozie的web console
(*)創建目錄:mkdir /root/training/oozie-4.3.0/libext
(*)將文件ext-2.2.zip和mysql的驅動上傳到這個目錄
(*)拷貝$HADOOP_HOME/share/hadoop/*/*.jar和$HADOOP_HOME/share/hadoop/*/lib/*.jar到Oozie的libext目錄下
(*)由於hadoop和oozie自帶的tomcat jar包有衝突,所以需要把衝突的jar包驅動。執行下麵的命令:
      
      cd /root/training/oozie-4.3.0/libext
      mv servlet-api-2.5.jar servlet-api-2.5.jar.bak
      mv jsp-api-2.1.jar jsp-api-2.1.jar.bak
      mv jasper-compiler-5.5.23.jar jasper-compiler-5.5.23.jar.bak
      mv jasper-runtime-5.5.23.jar jasper-runtime-5.5.23.jar.bak
  • 初始化oozie
(*)生成oozie web console的war包:oozie-setup.sh prepare-war
(*)初始化資料庫:ooziedb.sh create -sqlfile oozie.sql -run
(*)將不同任務依賴的共用jar包上傳到HDFS:
      oozie-setup.sh sharelib create -fs hdfs://hadoop111:9000

(*)修改oozie-4.3.0/oozie-server/conf/server.xml,註釋掉下麵的記錄: 

  • 啟動oozie和Hadoop的historyserver
oozied.sh start
mr-jobhistory-daemon.sh start historyserver
  • 訪問URL地址:http://192.168.88.111:11000/oozie/


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 聲明: 1)僅作為個人學習,如有冒犯,告知速刪! 2)不想誤導,如有錯誤,不吝指教! 1: 查看文件信息:ls ls常用參數: 參數含義 -a 顯示指定目錄下所有子目錄與文件,包括隱藏文件 -l 以列表方式顯示文件的詳細信息 -h 配合 -l 以人性化的方式顯示文件大小 註:也可以ls -lh組合 ...
  • 一 Glusterfs介紹 Glusterfs是一個開源的分散式文件系統,是Scale存儲的核心,能夠處理千數量級的客戶端。是整合了許多存儲塊(server)通過Infiniband RDMA或者 Tcp/Ip方式互聯的一個並行的網路文件系統。 特征: 容量可以按比例的擴展,且性能卻不會因此而降低。 ...
  • 前面我們聊到了mariadb的事務,以及事務隔離級別,回顧請參考https://www.cnblogs.com/qiuhom-1874/p/13198186.html;今天我們來聊一聊mariadb的日誌相關話題;mariadb日誌有6種,分別是查詢日誌(general_log),慢查詢日誌(lo... ...
  • MySQL 事務 異常 事務隔離的級別 事務 在你操作資料庫的同時,有可能其他用戶還會不斷地對數據進行增刪改查操作。為了避免並行進行時出現混亂,就產生了“事務”。事務就是要保證一組資料庫操作,要麼全部成功要麼全部失敗,以此來保證不混亂。 事務支持是在引擎層實現的,MySQL支持多系統,不是所有引擎都 ...
  • dgraph 簡介 dgraph 使用示例(基於 golang) golang client 安裝 創建 schema 數據的 CURD 事務 總結 dgraph 簡介 dgraph 是基於 golang 開發的開源的分散式圖資料庫. 誕生時間不長, 發展卻很迅速. 目前是 v20.x 版本, dg ...
  • Linux系統環境下MySQL資料庫源代碼的安裝 基本環境:CentOS Linux release 7.8.2003 (Core)、MySQL5.6 一、 安裝環境準備 若要在Linux系統下進行Mysql源碼安裝,需要檢查系統是否具備編譯源碼的工具和庫:gcc、 gcc-c++、cmake,為方 ...
  • MySQL知識點總結 一、 MySQL常用命令 啟動MySQL服務:service mysqld start 或 systemctl start mysqld.service 停止MySQL服務:service mysqld stop 或 systemctl stopt mysqld.service ...
  • 1 --普通時間 轉 13 位時間戳 2 SELECT CONVERT(BIGINT,DATEDIFF(MI,'1970-01-01 00:00:00.000', GETUTCDATE())) * 60000 + DATEPART(S,GETUTCDATE()) * 1000 + DATEPART( ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...