一、什麼是工作流? 工作流(WorkFlow)就是工作流程的計算模型,即將工作流程中的工作如何前後組織在一起的邏輯和規則在電腦中以恰當的模型進行表示並對其實施計算。工作流要解決的主要問題是:為實現某個業務目標,在多個參與者之間,利用電腦,按某種預定規則自動傳遞。下麵我們以“員工請假的流程”為例, ...
一、什麼是工作流?
工作流(WorkFlow)就是工作流程的計算模型,即將工作流程中的工作如何前後組織在一起的邏輯和規則在電腦中以恰當的模型進行表示並對其實施計算。工作流要解決的主要問題是:為實現某個業務目標,在多個參與者之間,利用電腦,按某種預定規則自動傳遞。下麵我們以“員工請假的流程”為例,來為大家介紹什麼是工作流。
這個例子包含了一個完整的員工請假流程。從“請假流程開始”,到“員工填寫請假條”,再到“部門經理審批”,如果審批不通過,流程回到“員工填寫請假條”;如果部門經理審批通過,則流程進入下一個節點;直到最後的流程結束。在Java中,我們可以使用一些框架幫助我們來實現這樣的過程。Java的三大主流工作流引擎分別是:Shark,osworkflow,JBPM
二、什麼是Oozie?
關於什麼是Oozie,其實Oozie是服務於Hadoop生態系統的工作流調度工具,Job運行平臺是區別於其他調度工具的最大的不同。但其實現的思路跟一般調度工具幾乎完全相同。Oozie工作流通過HPDL(一種通過XML自定義處理的語言,類似JBOSS JBPM的JPDL)來構造。Oozie工作流中的Action在運程系統運行如(Hadoop,Pig伺服器上)。一旦Action完成,遠程伺服器將回調Oozie的介面 並通知Action已經完成,這時Oozie又會以同樣的方式執行工作流中的下一個Action,直到工作流中所有Action都完成(完成包括失敗)。Oozie工作流提供各種類型的Action用於支持不同的需要,如Hadoop Map/Reduce,Hadoop File System,Pig,SSH,HTTP,Email,Java以及Oozie子流程。Oozie也支持自定義擴展以上各種類型的Action。
一個正常工作的Oozie系統須包含如下四個模塊:Oozie Client、Oozie Server、DataBase和Hadoop集群。
- Oozie Client可以通過Web Service API、Java API、Command line 方式向Oozie Server提交工作流任務請求。Oozie客戶端可以通過REST API或者Web GUI來從Oozie服務端獲取Job的日誌流。通常在Client端包括工作流配置文件、工作流屬性文件和工作流庫。
- Oozie Server負責接收客戶端請求、調度工作任務、監控工作流的執行狀態。Oozie本身不會執行具體的Job,而是將Job的配置信息發送到執行環境。
- DataBase用於存儲Bundle、Coordinator、Workflow工作流的Action信息、Job信息,記錄Oozie系統信息。簡單說,除了Oozie 運行日誌存在本地硬碟不存在DB中,其他信息都存儲到DB。
- Hadoop集群運行Oozie工作流的實體,負責處理Oozie Server提交來的各種Job。包括HDFS、MapReduce、Hive、Sqoop等Hadoop組件提交的Job。
三、編譯Oozie
- 使用的版本信息如下
Hadoop 2.4.1 JDK 1.7 Maven 3.5.0 Oozie 4.3
-
在oozie解壓後的目錄下,編譯oozie,執行命令:
bin/mkdistro.sh -DskipTests -Dhadoop.version=2.4.1
註意:如果第一次安裝,Maven會自動下載依賴的jar包,時間可能 會比較長。
- 如果出現下麵的錯誤,表示Maven的記憶體溢出。
設置環境變數:export MAVEN_OPTS="-Xmx512m -XX:MaxPermSize=128m" 並且重新編譯。
- 編譯完成,成功出現以下提示。
四、安裝部署Oozie
- 解壓安裝包
tar -zxvf oozie-4.3.0-distro.tar.gz -C ~/training/
- 設置環境變數
- 建立MySQL資料庫
create database oozie; create user 'oozieowner'@'%' identified by 'password'; grant all on oozie.* TO 'oozieowner'@'%'; grant all on oozie.* TO 'oozieowner'@'localhost' identified by 'password';
- 修改文件:conf/oozie-site.xml
- 配置oozie的web console
(*)創建目錄:mkdir /root/training/oozie-4.3.0/libext (*)將文件ext-2.2.zip和mysql的驅動上傳到這個目錄 (*)拷貝$HADOOP_HOME/share/hadoop/*/*.jar和$HADOOP_HOME/share/hadoop/*/lib/*.jar到Oozie的libext目錄下 (*)由於hadoop和oozie自帶的tomcat jar包有衝突,所以需要把衝突的jar包驅動。執行下麵的命令: cd /root/training/oozie-4.3.0/libext mv servlet-api-2.5.jar servlet-api-2.5.jar.bak mv jsp-api-2.1.jar jsp-api-2.1.jar.bak mv jasper-compiler-5.5.23.jar jasper-compiler-5.5.23.jar.bak mv jasper-runtime-5.5.23.jar jasper-runtime-5.5.23.jar.bak
- 初始化oozie
(*)生成oozie web console的war包:oozie-setup.sh prepare-war (*)初始化資料庫:ooziedb.sh create -sqlfile oozie.sql -run (*)將不同任務依賴的共用jar包上傳到HDFS: oozie-setup.sh sharelib create -fs hdfs://hadoop111:9000 (*)修改oozie-4.3.0/oozie-server/conf/server.xml,註釋掉下麵的記錄:
- 啟動oozie和Hadoop的historyserver
oozied.sh start mr-jobhistory-daemon.sh start historyserver
- 訪問URL地址:http://192.168.88.111:11000/oozie/