【趙強老師】大數據工作流引擎Oozie

来源:https://www.cnblogs.com/collen7788/archive/2020/06/28/13202410.html

一、什麼是工作流? 工作流(WorkFlow)就是工作流程的計算模型,即將工作流程中的工作如何前後組織在一起的邏輯和規則在電腦中以恰當的模型進行表示並對其實施計算。工作流要解決的主要問題是:為實現某個業務目標,在多個參與者之間,利用電腦,按某種預定規則自動傳遞。下麵我們以“員工請假的流程”為例, ...


一、什麼是工作流?

工作流(WorkFlow)就是工作流程的計算模型,即將工作流程中的工作如何前後組織在一起的邏輯和規則在電腦中以恰當的模型進行表示並對其實施計算。工作流要解決的主要問題是:為實現某個業務目標,在多個參與者之間,利用電腦,按某種預定規則自動傳遞。下麵我們以“員工請假的流程”為例,來為大家介紹什麼是工作流。

這個例子包含了一個完整的員工請假流程。從“請假流程開始”,到“員工填寫請假條”,再到“部門經理審批”,如果審批不通過,流程回到“員工填寫請假條”;如果部門經理審批通過,則流程進入下一個節點;直到最後的流程結束。在Java中,我們可以使用一些框架幫助我們來實現這樣的過程。Java的三大主流工作流引擎分別是:Shark,osworkflow,JBPM

二、什麼是Oozie?

關於什麼是Oozie,其實Oozie是服務於Hadoop生態系統的工作流調度工具,Job運行平臺是區別於其他調度工具的最大的不同。但其實現的思路跟一般調度工具幾乎完全相同。Oozie工作流通過HPDL(一種通過XML自定義處理的語言,類似JBOSS JBPM的JPDL)來構造。Oozie工作流中的Action在運程系統運行如(Hadoop,Pig伺服器上)。一旦Action完成,遠程伺服器將回調Oozie的介面 並通知Action已經完成,這時Oozie又會以同樣的方式執行工作流中的下一個Action,直到工作流中所有Action都完成(完成包括失敗)。Oozie工作流提供各種類型的Action用於支持不同的需要,如Hadoop Map/Reduce,Hadoop File System,Pig,SSH,HTTP,Email,Java以及Oozie子流程。Oozie也支持自定義擴展以上各種類型的Action。

一個正常工作的Oozie系統須包含如下四個模塊:Oozie Client、Oozie Server、DataBase和Hadoop集群。

  • Oozie Client可以通過Web Service API、Java API、Command line 方式向Oozie Server提交工作流任務請求。Oozie客戶端可以通過REST API或者Web GUI來從Oozie服務端獲取Job的日誌流。通常在Client端包括工作流配置文件、工作流屬性文件和工作流庫。
  • Oozie Server負責接收客戶端請求、調度工作任務、監控工作流的執行狀態。Oozie本身不會執行具體的Job,而是將Job的配置信息發送到執行環境。
  • DataBase用於存儲Bundle、Coordinator、Workflow工作流的Action信息、Job信息,記錄Oozie系統信息。簡單說,除了Oozie 運行日誌存在本地硬碟不存在DB中,其他信息都存儲到DB。
  • Hadoop集群運行Oozie工作流的實體,負責處理Oozie Server提交來的各種Job。包括HDFS、MapReduce、Hive、Sqoop等Hadoop組件提交的Job。

三、編譯Oozie

  • 使用的版本信息如下
Hadoop 2.4.1
JDK 1.7
Maven 3.5.0
Oozie 4.3
  • 在oozie解壓後的目錄下,編譯oozie,執行命令:

bin/mkdistro.sh -DskipTests -Dhadoop.version=2.4.1

註意:如果第一次安裝,Maven會自動下載依賴的jar包,時間可能    會比較長。

  • 如果出現下麵的錯誤,表示Maven的記憶體溢出。

設置環境變數:export MAVEN_OPTS="-Xmx512m -XX:MaxPermSize=128m"
並且重新編譯。
  • 編譯完成,成功出現以下提示。

四、安裝部署Oozie

  • 解壓安裝包
tar -zxvf oozie-4.3.0-distro.tar.gz -C ~/training/
  • 設置環境變數

  • 建立MySQL資料庫
create database oozie;
create user 'oozieowner'@'%' identified by 'password';              
grant all on oozie.* TO 'oozieowner'@'%'; 
grant all on oozie.* TO 'oozieowner'@'localhost' identified by 'password';
  • 修改文件:conf/oozie-site.xml

  • 配置oozie的web console
(*)創建目錄:mkdir /root/training/oozie-4.3.0/libext
(*)將文件ext-2.2.zip和mysql的驅動上傳到這個目錄
(*)拷貝$HADOOP_HOME/share/hadoop/*/*.jar和$HADOOP_HOME/share/hadoop/*/lib/*.jar到Oozie的libext目錄下
(*)由於hadoop和oozie自帶的tomcat jar包有衝突,所以需要把衝突的jar包驅動。執行下麵的命令:
      
      cd /root/training/oozie-4.3.0/libext
      mv servlet-api-2.5.jar servlet-api-2.5.jar.bak
      mv jsp-api-2.1.jar jsp-api-2.1.jar.bak
      mv jasper-compiler-5.5.23.jar jasper-compiler-5.5.23.jar.bak
      mv jasper-runtime-5.5.23.jar jasper-runtime-5.5.23.jar.bak
  • 初始化oozie
(*)生成oozie web console的war包:oozie-setup.sh prepare-war
(*)初始化資料庫:ooziedb.sh create -sqlfile oozie.sql -run
(*)將不同任務依賴的共用jar包上傳到HDFS:
      oozie-setup.sh sharelib create -fs hdfs://hadoop111:9000

(*)修改oozie-4.3.0/oozie-server/conf/server.xml,註釋掉下麵的記錄: 

  • 啟動oozie和Hadoop的historyserver
oozied.sh start
mr-jobhistory-daemon.sh start historyserver
  • 訪問URL地址:http://192.168.88.111:11000/oozie/


您的分享是我們最大的動力!

更多相關文章
  • 聲明: 1)僅作為個人學習,如有冒犯,告知速刪! 2)不想誤導,如有錯誤,不吝指教! 1: 查看文件信息:ls ls常用參數: 參數含義 -a 顯示指定目錄下所有子目錄與文件,包括隱藏文件 -l 以列表方式顯示文件的詳細信息 -h 配合 -l 以人性化的方式顯示文件大小 註:也可以ls -lh組合 ...
  • 一 Glusterfs介紹 Glusterfs是一個開源的分散式文件系統,是Scale存儲的核心,能夠處理千數量級的客戶端。是整合了許多存儲塊(server)通過Infiniband RDMA或者 Tcp/Ip方式互聯的一個並行的網路文件系統。 特征: 容量可以按比例的擴展,且性能卻不會因此而降低。 ...
  • 前面我們聊到了mariadb的事務,以及事務隔離級別,回顧請參考https://www.cnblogs.com/qiuhom-1874/p/13198186.html;今天我們來聊一聊mariadb的日誌相關話題;mariadb日誌有6種,分別是查詢日誌(general_log),慢查詢日誌(lo... ...
  • MySQL 事務 異常 事務隔離的級別 事務 在你操作資料庫的同時,有可能其他用戶還會不斷地對數據進行增刪改查操作。為了避免並行進行時出現混亂,就產生了“事務”。事務就是要保證一組資料庫操作,要麼全部成功要麼全部失敗,以此來保證不混亂。 事務支持是在引擎層實現的,MySQL支持多系統,不是所有引擎都 ...
  • dgraph 簡介 dgraph 使用示例(基於 golang) golang client 安裝 創建 schema 數據的 CURD 事務 總結 dgraph 簡介 dgraph 是基於 golang 開發的開源的分散式圖資料庫. 誕生時間不長, 發展卻很迅速. 目前是 v20.x 版本, dg ...
  • Linux系統環境下MySQL資料庫源代碼的安裝 基本環境:CentOS Linux release 7.8.2003 (Core)、MySQL5.6 一、 安裝環境準備 若要在Linux系統下進行Mysql源碼安裝,需要檢查系統是否具備編譯源碼的工具和庫:gcc、 gcc-c++、cmake,為方 ...
  • MySQL知識點總結 一、 MySQL常用命令 啟動MySQL服務:service mysqld start 或 systemctl start mysqld.service 停止MySQL服務:service mysqld stop 或 systemctl stopt mysqld.service ...
  • 1 --普通時間 轉 13 位時間戳 2 SELECT CONVERT(BIGINT,DATEDIFF(MI,'1970-01-01 00:00:00.000', GETUTCDATE())) * 60000 + DATEPART(S,GETUTCDATE()) * 1000 + DATEPART( ...
一周排行
  • 圖文講解,一門教學級邏輯式編程語言,NMiniKanren,的運行原理。 ...
  • 多Sheet導入教程 說明 本教程主要說明如何使用Magicodes.IE.Excel完成多個Sheet數據的Excel導入。 要點 多個相同格式的Sheet數據導入 多個不同格式的Sheet數據導入 主要步驟 1. 多個相同格式的Sheet數據導入 1.1 創建導入Sheet的Dto 主要代碼如下 ...
  • 在KeyPress事件中寫入 private void txtBoxKeyPress(object sender, KeyPressEventArgs e) { if ((e.KeyChar >= 'a' && e.KeyChar <= 'z') || (e.KeyChar >= 'A' && e. ...
  • 在 Xunit 中使用依賴註入 Intro 之前寫過一篇 xunit 的依賴註入相關的文章,但是實際使用起來不是那麼方便 今天介紹一個基於xunit和微軟依賴註入框架的“真正”的依賴註入使用方式 ——— Xunit.DependencyInjection, 來自大師的作品,讓你在測試代碼里使用依賴註 ...
  • 官網 http://www.hzhcontrols.com/ 前提 入行已經7,8年了,一直想做一套漂亮點的自定義控制項,於是就有了本系列文章。 GitHub:https://github.com/kwwwvagaa/NetWinformControl 碼雲:https://gitee.com/kww ...
  • 在項目的實際開發過程中,我們經常會遇到Tab頁面的開發 EciTab控制項有多種使用方式: 下麵介紹Frame容器方式: 下麵介紹的Tab頁面採用的策略是 Tab頁面管理幾個子頁面,頁面組織上用Iframe管理的模式 採用Iframe的原因主要有兩個 1.開發簡單,每一個頁面都是簡單的畫面 2.性能考 ...
  • 引用的DLL MySql.Data.MySqlClient System.Data City實體 public class City { public int ID { get; set; } public string Name { get; set; } public string Countr ...
  • 案例故事: 即時通訊(IM)軟體有很多,比如企業微信,釘釘,飛書,Skype, 微軟的Lync等, 這些軟體現在都很牛,還能監控誰誰在不在電腦旁工作,誰誰誰提前下班溜了。。。 一次偶然的機會,有個妹子請教我,她每天都想準時18點下班, 她問我如何做到: 假裝企業微信線上,併在2個小時後(20點)準時 ...
  • 一.官方文檔 https://pypi.org/project/muggle-ocr/ 二模塊安裝 pip install muggle-ocr # 因模塊過新,阿裡/清華等第三方源可能尚未更新鏡像,因此手動指定使用境外源,為了提高依賴的安裝速度,可預先自行安裝依賴:tensorflow/numpy ...
  • 前言 ​ 關於 Python 這個欄目,咕了幾個月了,今天講講如何發送驗證碼並驗證。 ​ 因為部分原因,寫這篇文章的時候心情是不太好的,播放首歌吧。 代碼 導入 導入yagmail,random和time庫 import yagmail,random,time #導入 yagmail , rando ...