Oozie操作篇--Oozie Spark Action 配置

Oozie Spark Action 配置 Spark Action 用來運行spark 任務，流程任務必須等當前節點的spark任務執行完成之後才能執行後續節點任務。運行Spark Job，必須在 spark action裡面配置 job-tracer，name-node，master，和一些必要 ...

Oozie Spark Action 配置

Spark Action 用來運行spark 任務，流程任務必須等當前節點的spark任務執行完成之後才能執行後續節點任務。
運行Spark Job，必須在 spark action裡面配置 job-tracer，name-node，master，和一些必要的參數和配置。
Spark options 可以用 " spark-opts" 元素來配置
同Shell Action一樣 Spark Action 可以配置成創建或者刪除HDFS目錄之後再去執行一個Sqoop任務
Spark 應用的配置可以使用job-xml文件中的元素，也可以使用內部元素來配置，像EL表達式也支持在內部元素中的配置，內部元素的配置可以覆蓋外部文件中的配置。

Spark Action格式

123456789101112131415161718192021222324252627282930313233343536

<workflow-app name="[WF-DEF-NAME]" xmlns="uri:oozie:workflow:0.3">    ...    <action name="[NODE-NAME]">        <spark xmlns="uri:oozie:spark-action:0.1">            <job-tracker>[JOB-TRACKER]</job-tracker>            <name-node>[NAME-NODE]</name-node>            <prepare>               <delete path="[PATH]"/>               ...               <mkdir path="[PATH]"/>               ...            </prepare>            <job-xml>[SPARK SETTINGS FILE]</job-xml>            <configuration>                <property>                    <name>[PROPERTY-NAME]</name>                    <value>[PROPERTY-VALUE]</value>                </property>                ...            </configuration>            <master>[SPARK MASTER URL]</master>            <mode>[SPARK MODE]</mode>            <name>[SPARK JOB NAME]</name>            <class>[SPARK MAIN CLASS]</class>            <jar>[SPARK DEPENDENCIES JAR / PYTHON FILE]</jar>            <spark-opts>[SPARK-OPTIONS]</spark-opts>            <arg>[ARG-VALUE]</arg>                ...            <arg>[ARG-VALUE]</arg>            ...        </spark>        <ok to="[NODE-NAME]"/>        <error to="[NODE-NAME]"/>    </action>    ...</workflow-app>

prepare 元素如果存在，表明在執行sqoop 命令之前需要執行的一系列 hdfs路徑的創建和刪除操作，並且路徑必須以 hdfs://HOST:PORT 開頭
job-xml 元素如果存在，則作為sqoop任務的配置文件，從 schema 0.3開始支持多個job-xml元素用來支持多個job.xml文件
configuration 用來給spark任務傳遞參數

master用來指定spark master 例如: spark://host:port, mesos://host:port, yarn-cluster, yarn-master, or local.
mode以集群或者客戶端的模式運行spark 程式例如：client,cluster
name spark 應用的名稱
classspark運行程式的主類名
jarspark 應用需要引用的其它jar包
spark-opts提交給驅動程式的參數。比如--conf key=value或者是在oozie-site.xml中配置的oozie.service.SparkConfiguationService.spark.configurations
arg spark 應用參數

Spark Action 使用實例一：Oozie自帶案例運行，使用oozie調度spark程式1，首先下載Oozie自帶的例子，解壓，打開到 examples\apps\spark 目錄，根據自己的安裝環境修改之後的job.properties文件如下

1234567

nameNode=hdfs://hadoop-node1.novalocal:8020jobTracker=hadoop-node1.novalocal:8021master=local[*]queueName=defaultexamplesRoot=xwj_testoozie.use.system.libpath=trueoozie.wf.application.path=${nameNode}/user/oozie/${examplesRoot}/apps/spark

2，根據自己測試環境路徑，修改後的workflow.xml 內容如下：

12345678910111213141516171819202122232425262728

<workflow-app xmlns='uri:oozie:workflow:0.5' name='SparkFileCopy'>    <start to='spark-node' />     <action name='spark-node'>        <spark xmlns="uri:oozie:spark-action:0.1">            <job-tracker>${jobTracker}</job-tracker>            <name-node>${nameNode}</name-node>            <prepare>                <delete path="${nameNode}/user/oozie/${examplesRoot}/apps/spark/output"/>            </prepare>            <master>${master}</master>            <name>Spark-FileCopy</name>            <class>org.apache.oozie.example.SparkFileCopy</class>            <jar>${nameNode}/user/oozie/${examplesRoot}/apps/spark/lib/oozie-examples.jar</jar>            <arg>${nameNode}/user/oozie/${examplesRoot}/apps/spark/input/data.txt</arg>            <arg>${nameNode}/user/oozie/${examplesRoot}/apps/spark/output</arg>        </spark>        <ok to="end" />        <error to="fail" />    </action>     <kill name="fail">        <message>Workflow failed, error            message[${wf:errorMessage(wf:lastErrorNode())}]        </message>    </kill>    <end name='end' /></workflow-app>

3，查看 org.apache.oozie.example.SparkFileCopy 內容

12345678910111213141516171819202122232425

package org.apache.oozie.example;import java.io.PrintStream;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;publicfinalclass SparkFileCopy{  publicstaticvoid main(String[] args)    
	   
您的分享是我們最大的動力!

-Advertisement-
     
更多相關文章  

				    	在騰訊雲的ubuntu伺服器上面安裝git伺服器
			    	
GitHub是一個免費托管開源代碼的遠程倉庫。但是對於某些視源代碼如生命的商業公司來說，既不想公開源代碼，又捨不得給GitHub交保護費，那就只能自己搭建一臺Git伺服器作為私有倉庫使用。搭建Git伺服器需要準備一臺運行Linux的機器，強烈推薦用Ubuntu或Debian，這樣，通過幾條簡單的ap ...

				    	第五章 繪圖基礎（DEVCAPS1）
			    	
獲取設備環境的信息 1 //DEVCAPS1.C--Device Capabilities Display Program No.1 (c) Charles Petzold, 1998 2 #include <Windows.h> 3 4 #define NUMLINES ((int) (sizeo ...

				    	This network connection does not exist
			    	
This network connection does not exist 在windows server 2008上面map了一個磁碟，共用的folder被我停止共用後，點擊該磁碟的disconnect，跳出提示信息： This network connection does not exist ...

				    	MySQL Innodb如何找出阻塞事務源頭SQL
			    	
在MySQL資料庫中出現了阻塞問題，如何快速查找定位問題根源？在實驗開始前，我們先梳理一下有什麼工具或命令查看MySQL的阻塞，另外，我們也要一一對比其優劣，因為有些命令可能在實際環境下可能並不適用。 1： show engine innodb status 2： Innotop工具 3： INNO... ...

				    	Mysql學習筆記_1
			    	
Linux作為操作系統，Apache 或Nginx作為 Web 伺服器，MySQL 作為資料庫，PHP/Perl/Python作為伺服器端腳本解釋器。這四個軟體都是免費或開源軟體軟體，因此使用這種方式除開人工成本就可以建立起一個穩定、免費的網站系統，稱為“LAMP“或“LNMP”組合。 一、以cmd ...

				    	淺談大數據整體架構及必備能力
			    	
大數據時代不可抗拒，應該是毋庸置疑的，但對於絕大多數企業來說，大數據本身僅是一個空泛的概念，不僅難以參與更難於控制。幾乎任何規模企業，每時每刻都在產生大量的數據，但這些數據如何歸集、提煉始終是一個困擾，這種感覺好像是守著金山卻無從下手。大數據技術的意義不在於掌握龐大的數據信息，而在於對這些數據進行智 ...

				    	Redis從入門到精通：初級篇
			    	
原文鏈接：http://www.cnblogs.com/xrq730/p/8890896.html，轉載請註明出處，謝謝 Redis從入門到精通：初級篇 平時陸陸續續看了不少Redis的文章了，工作中也一直在用Redis，感覺是時候對過往Redis的所學進行一次系統性的總結。《Redis從入門到精通 ...

				    	SQL中UNION ALL 和UNION的區別及使用
			    	
SQL中UNION和UNION ALL的區別及用法介紹，僅供參考，如有錯誤，歡迎糾正。 ...

一周排行

         -Advertisement-

				    	        移動開發（一）：使用.NET MAUI開發第一個安卓APP
			            	
移動開發（一）：使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說，近來想嘗試開發一款安卓APP，考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP，畢竟是使用Visual Studio開發工具，使用起來也比較的順手，結合微軟官方的教程進行了安卓 ...

				    	        wpf ToggleButton選中效果和一個登錄界面
			            	
前言 QuestPDF 是一個開源 .NET 庫，用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫，它徹底改變了我們生成 PDF 文檔的方 ...

				    	        彈幕樹洞項目功能新增篇
			            	
項目地址 項目後端地址： https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址： ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址： http://tree ...

				    	        第27篇 sqlserver2022詳細安裝步驟
			            	
話不多說，直接開乾 一.下載 1.官方鏈接下載： https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe，運行開始下載SQL server； 二. ...

				    	        .NET 開源高性能 MQTT 類庫
			            	
前言 隨著物聯網（IoT）技術的迅猛發展，MQTT（消息隊列遙測傳輸）協議憑藉其輕量級和高效性，已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫，為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...

				    	        Serilog文檔翻譯系列（六） - 可用的接收器、增強器、格式化輸出
			            	
Serilog支持多種接收器用於日誌存儲，增強器用於添加屬性，LogContext管理動態屬性，支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項，適用於不同需求。 ...

				    	        警惕 Visual Studio 屬性求值副作用導致邏輯不符合預期
			            	
目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據，爬取信息時需要模擬瀏覽器行為，否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下： 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...

				    	        [使用目前最新版]HybridCLR6.9.0+YooAsset2.2.4實現純C# Unity熱更新方案 (一)
			            	
1.前言 什麼是熱更新 游戲或者軟體更新時，無需重新下載客戶端進行安裝，而是在應用程式啟動的情況下，在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR，Xlua，ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles，Addressable， ...

				    	        在 ASP.NET Core Web API 中使用操作篩選器統一處理通用操作
			            	
本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺，其實像阿裡雲，騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後，它會送 ...

				    	        第28篇 如何.net中實現高效可靠數據同步api
			            	
通過以下方式可以高效，並保證數據同步的可靠性 1.API設計 使用RESTful設計，確保API端點明確，並使用適當的HTTP方法（如POST用於創建，PUT用於更新）。 設計清晰的請求和響應模型，以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證，確保接收到的數據符合預期格 ...

所有分類

		NET技術
編程語言
軟件設計
WEB前端
手機開發
數據庫技術
操作系統

		贊助連接：
        sw games | 
        kl.gg games | 
        qingtudi games | 
        conige games
	
Copyright ©2016 ZenDei.com All Rights Reserved.
廣告合作： info@ ZenDei.com