在實習期間,公司使用的hue平臺做的數倉,下麵就簡單介紹一下hue的一些使用的註意事項,主要是工作流的使用和調度 進入hue首頁: Workflow是工作流,Schedule是調度工作流的,如設置工作流何時跑,周期是多久,等等,下麵會詳細介紹,Bundle是綁定多個調度,暫時我沒有用上 等使用後再更 ...
在實習期間,公司使用的hue平臺做的數倉,下麵就簡單介紹一下hue的一些使用的註意事項,主要是工作流的使用和調度
進入hue首頁:
Workflow是工作流,Schedule是調度工作流的,如設置工作流何時跑,周期是多久,等等,下麵會詳細介紹,Bundle是綁定多個調度,暫時我沒有用上
等使用後再更新
上面有一欄,有hive,hive2,spark,java,shell等等,直接拖入到Drop your action here這個陰影框中即可
下麵的都以hive2為例,
選擇文件添加即可,同時下麵還有很多選項
友情提示,雖然已經選擇了文件,但是我建議還是在選擇一次,右邊的是添加文件依賴,
左邊是參數設置,比如工作流按時間跑,設置是時間等等,根據需求設置即可
工作流建立完成之後,單個腳本或者代碼可以單獨執行,進行測試,再右上角
或者整個工作流進行運行,也是在右上角
這是工作流的配置,下麵講調度
進入調度
選擇一個workflow工作流
註意hue,oozie是有時區的設置的,預設是零時區時間,換成東八區時間要+8小時,設置配置時間同步
由於公司沒有設置,所以是在建立調度上自己註意的,這裡的時間都是零時區的時間
可以按小時,天,周,月,年進行定時調度
因為是今天跑昨天的數據,所以數據是昨天的,時間要減,因為是零時區的時間和東八區的時間差了8個小時,所以減了16個小時
下麵的是輸入文件,起到標識作用,有了這個文件任務才能啟動,也是一種依賴文件
還有一種情況
如果是周計劃,或者月計劃,需要依賴多個,如7個,30個文件,不可能一一配置
選擇上面的range,-6代表從任務執行的是時間-6,因為時區原因,如果是星期一啟動任務,則到了上周星期一,0到了上周日
這是跑周計劃中依賴一周的文件,其他情況可以參考上面的,可能會一些時區或者平臺的問題有一些出入,配置根據具體情況而定
任務運行後可以查看執行情況:在右上角,
自己選擇查看類型,裡面也有日誌,執行task,執行參數,時間等等