【趙強老師】大數據工作流引擎Oozie

来源:https://www.cnblogs.com/collen7788/archive/2020/06/28/13202410.html
-Advertisement-
Play Games

一、什麼是工作流? 工作流(WorkFlow)就是工作流程的計算模型,即將工作流程中的工作如何前後組織在一起的邏輯和規則在電腦中以恰當的模型進行表示並對其實施計算。工作流要解決的主要問題是:為實現某個業務目標,在多個參與者之間,利用電腦,按某種預定規則自動傳遞。下麵我們以“員工請假的流程”為例, ...


一、什麼是工作流?

工作流(WorkFlow)就是工作流程的計算模型,即將工作流程中的工作如何前後組織在一起的邏輯和規則在電腦中以恰當的模型進行表示並對其實施計算。工作流要解決的主要問題是:為實現某個業務目標,在多個參與者之間,利用電腦,按某種預定規則自動傳遞。下麵我們以“員工請假的流程”為例,來為大家介紹什麼是工作流。

這個例子包含了一個完整的員工請假流程。從“請假流程開始”,到“員工填寫請假條”,再到“部門經理審批”,如果審批不通過,流程回到“員工填寫請假條”;如果部門經理審批通過,則流程進入下一個節點;直到最後的流程結束。在Java中,我們可以使用一些框架幫助我們來實現這樣的過程。Java的三大主流工作流引擎分別是:Shark,osworkflow,JBPM

二、什麼是Oozie?

關於什麼是Oozie,其實Oozie是服務於Hadoop生態系統的工作流調度工具,Job運行平臺是區別於其他調度工具的最大的不同。但其實現的思路跟一般調度工具幾乎完全相同。Oozie工作流通過HPDL(一種通過XML自定義處理的語言,類似JBOSS JBPM的JPDL)來構造。Oozie工作流中的Action在運程系統運行如(Hadoop,Pig伺服器上)。一旦Action完成,遠程伺服器將回調Oozie的介面 並通知Action已經完成,這時Oozie又會以同樣的方式執行工作流中的下一個Action,直到工作流中所有Action都完成(完成包括失敗)。Oozie工作流提供各種類型的Action用於支持不同的需要,如Hadoop Map/Reduce,Hadoop File System,Pig,SSH,HTTP,Email,Java以及Oozie子流程。Oozie也支持自定義擴展以上各種類型的Action。

一個正常工作的Oozie系統須包含如下四個模塊:Oozie Client、Oozie Server、DataBase和Hadoop集群。

  • Oozie Client可以通過Web Service API、Java API、Command line 方式向Oozie Server提交工作流任務請求。Oozie客戶端可以通過REST API或者Web GUI來從Oozie服務端獲取Job的日誌流。通常在Client端包括工作流配置文件、工作流屬性文件和工作流庫。
  • Oozie Server負責接收客戶端請求、調度工作任務、監控工作流的執行狀態。Oozie本身不會執行具體的Job,而是將Job的配置信息發送到執行環境。
  • DataBase用於存儲Bundle、Coordinator、Workflow工作流的Action信息、Job信息,記錄Oozie系統信息。簡單說,除了Oozie 運行日誌存在本地硬碟不存在DB中,其他信息都存儲到DB。
  • Hadoop集群運行Oozie工作流的實體,負責處理Oozie Server提交來的各種Job。包括HDFS、MapReduce、Hive、Sqoop等Hadoop組件提交的Job。

三、編譯Oozie

  • 使用的版本信息如下
Hadoop 2.4.1
JDK 1.7
Maven 3.5.0
Oozie 4.3
  • 在oozie解壓後的目錄下,編譯oozie,執行命令:

bin/mkdistro.sh -DskipTests -Dhadoop.version=2.4.1

註意:如果第一次安裝,Maven會自動下載依賴的jar包,時間可能    會比較長。

  • 如果出現下麵的錯誤,表示Maven的記憶體溢出。

設置環境變數:export MAVEN_OPTS="-Xmx512m -XX:MaxPermSize=128m"
並且重新編譯。
  • 編譯完成,成功出現以下提示。

四、安裝部署Oozie

  • 解壓安裝包
tar -zxvf oozie-4.3.0-distro.tar.gz -C ~/training/
  • 設置環境變數

  • 建立MySQL資料庫
create database oozie;
create user 'oozieowner'@'%' identified by 'password';              
grant all on oozie.* TO 'oozieowner'@'%'; 
grant all on oozie.* TO 'oozieowner'@'localhost' identified by 'password';
  • 修改文件:conf/oozie-site.xml

  • 配置oozie的web console
(*)創建目錄:mkdir /root/training/oozie-4.3.0/libext
(*)將文件ext-2.2.zip和mysql的驅動上傳到這個目錄
(*)拷貝$HADOOP_HOME/share/hadoop/*/*.jar和$HADOOP_HOME/share/hadoop/*/lib/*.jar到Oozie的libext目錄下
(*)由於hadoop和oozie自帶的tomcat jar包有衝突,所以需要把衝突的jar包驅動。執行下麵的命令:
      
      cd /root/training/oozie-4.3.0/libext
      mv servlet-api-2.5.jar servlet-api-2.5.jar.bak
      mv jsp-api-2.1.jar jsp-api-2.1.jar.bak
      mv jasper-compiler-5.5.23.jar jasper-compiler-5.5.23.jar.bak
      mv jasper-runtime-5.5.23.jar jasper-runtime-5.5.23.jar.bak
  • 初始化oozie
(*)生成oozie web console的war包:oozie-setup.sh prepare-war
(*)初始化資料庫:ooziedb.sh create -sqlfile oozie.sql -run
(*)將不同任務依賴的共用jar包上傳到HDFS:
      oozie-setup.sh sharelib create -fs hdfs://hadoop111:9000

(*)修改oozie-4.3.0/oozie-server/conf/server.xml,註釋掉下麵的記錄: 

  • 啟動oozie和Hadoop的historyserver
oozied.sh start
mr-jobhistory-daemon.sh start historyserver
  • 訪問URL地址:http://192.168.88.111:11000/oozie/


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 聲明: 1)僅作為個人學習,如有冒犯,告知速刪! 2)不想誤導,如有錯誤,不吝指教! 1: 查看文件信息:ls ls常用參數: 參數含義 -a 顯示指定目錄下所有子目錄與文件,包括隱藏文件 -l 以列表方式顯示文件的詳細信息 -h 配合 -l 以人性化的方式顯示文件大小 註:也可以ls -lh組合 ...
  • 一 Glusterfs介紹 Glusterfs是一個開源的分散式文件系統,是Scale存儲的核心,能夠處理千數量級的客戶端。是整合了許多存儲塊(server)通過Infiniband RDMA或者 Tcp/Ip方式互聯的一個並行的網路文件系統。 特征: 容量可以按比例的擴展,且性能卻不會因此而降低。 ...
  • 前面我們聊到了mariadb的事務,以及事務隔離級別,回顧請參考https://www.cnblogs.com/qiuhom-1874/p/13198186.html;今天我們來聊一聊mariadb的日誌相關話題;mariadb日誌有6種,分別是查詢日誌(general_log),慢查詢日誌(lo... ...
  • MySQL 事務 異常 事務隔離的級別 事務 在你操作資料庫的同時,有可能其他用戶還會不斷地對數據進行增刪改查操作。為了避免並行進行時出現混亂,就產生了“事務”。事務就是要保證一組資料庫操作,要麼全部成功要麼全部失敗,以此來保證不混亂。 事務支持是在引擎層實現的,MySQL支持多系統,不是所有引擎都 ...
  • dgraph 簡介 dgraph 使用示例(基於 golang) golang client 安裝 創建 schema 數據的 CURD 事務 總結 dgraph 簡介 dgraph 是基於 golang 開發的開源的分散式圖資料庫. 誕生時間不長, 發展卻很迅速. 目前是 v20.x 版本, dg ...
  • Linux系統環境下MySQL資料庫源代碼的安裝 基本環境:CentOS Linux release 7.8.2003 (Core)、MySQL5.6 一、 安裝環境準備 若要在Linux系統下進行Mysql源碼安裝,需要檢查系統是否具備編譯源碼的工具和庫:gcc、 gcc-c++、cmake,為方 ...
  • MySQL知識點總結 一、 MySQL常用命令 啟動MySQL服務:service mysqld start 或 systemctl start mysqld.service 停止MySQL服務:service mysqld stop 或 systemctl stopt mysqld.service ...
  • 1 --普通時間 轉 13 位時間戳 2 SELECT CONVERT(BIGINT,DATEDIFF(MI,'1970-01-01 00:00:00.000', GETUTCDATE())) * 60000 + DATEPART(S,GETUTCDATE()) * 1000 + DATEPART( ...
一周排行
    -Advertisement-
    Play Games
  • 前言 在我們開發過程中基本上不可或缺的用到一些敏感機密數據,比如SQL伺服器的連接串或者是OAuth2的Secret等,這些敏感數據在代碼中是不太安全的,我們不應該在源代碼中存儲密碼和其他的敏感數據,一種推薦的方式是通過Asp.Net Core的機密管理器。 機密管理器 在 ASP.NET Core ...
  • 新改進提供的Taurus Rpc 功能,可以簡化微服務間的調用,同時可以不用再手動輸出模塊名稱,或調用路徑,包括負載均衡,這一切,由框架實現並提供了。新的Taurus Rpc 功能,將使得服務間的調用,更加輕鬆、簡約、高效。 ...
  • 順序棧的介面程式 目錄順序棧的介面程式頭文件創建順序棧入棧出棧利用棧將10進位轉16進位數驗證 頭文件 #include <stdio.h> #include <stdbool.h> #include <stdlib.h> 創建順序棧 // 指的是順序棧中的元素的數據類型,用戶可以根據需要進行修改 ...
  • 前言 整理這個官方翻譯的系列,原因是網上大部分的 tomcat 版本比較舊,此版本為 v11 最新的版本。 開源項目 從零手寫實現 tomcat minicat 別稱【嗅虎】心有猛虎,輕嗅薔薇。 系列文章 web server apache tomcat11-01-官方文檔入門介紹 web serv ...
  • C總結與剖析:關鍵字篇 -- <<C語言深度解剖>> 目錄C總結與剖析:關鍵字篇 -- <<C語言深度解剖>>程式的本質:二進位文件變數1.變數:記憶體上的某個位置開闢的空間2.變數的初始化3.為什麼要有變數4.局部變數與全局變數5.變數的大小由類型決定6.任何一個變數,記憶體賦值都是從低地址開始往高地 ...
  • 如果讓你來做一個有狀態流式應用的故障恢復,你會如何來做呢? 單機和多機會遇到什麼不同的問題? Flink Checkpoint 是做什麼用的?原理是什麼? ...
  • C++ 多級繼承 多級繼承是一種面向對象編程(OOP)特性,允許一個類從多個基類繼承屬性和方法。它使代碼更易於組織和維護,並促進代碼重用。 多級繼承的語法 在 C++ 中,使用 : 符號來指定繼承關係。多級繼承的語法如下: class DerivedClass : public BaseClass1 ...
  • 前言 什麼是SpringCloud? Spring Cloud 是一系列框架的有序集合,它利用 Spring Boot 的開發便利性簡化了分散式系統的開發,比如服務註冊、服務發現、網關、路由、鏈路追蹤等。Spring Cloud 並不是重覆造輪子,而是將市面上開發得比較好的模塊集成進去,進行封裝,從 ...
  • class_template 類模板和函數模板的定義和使用類似,我們已經進行了介紹。有時,有兩個或多個類,其功能是相同的,僅僅是數據類型不同。類模板用於實現類所需數據的類型參數化 template<class NameType, class AgeType> class Person { publi ...
  • 目錄system v IPC簡介共用記憶體需要用到的函數介面shmget函數--獲取對象IDshmat函數--獲得映射空間shmctl函數--釋放資源共用記憶體實現思路註意 system v IPC簡介 消息隊列、共用記憶體和信號量統稱為system v IPC(進程間通信機制),V是羅馬數字5,是UNI ...