轉載自天地風雷水火山澤 目的 因為我們的數倉數據源是Kafka,離線數倉需要用Flume採集Kafka中的數據到HDFS中。 在實際項目中,我們不可能一直在Xshell中啟動Flume任務,一是因為項目的Flume任務很多,二是一旦Xshell頁面關閉Flume任務就會停止,這樣非常不方便,因此必須 ...
轉載自天地風雷水火山澤
目的
因為我們的數倉數據源是Kafka,離線數倉需要用Flume採集Kafka中的數據到HDFS中。
在實際項目中,我們不可能一直在Xshell中啟動Flume任務,一是因為項目的Flume任務很多,二是一旦Xshell頁面關閉Flume任務就會停止,這樣非常不方便,因此必須在後臺啟動Flume任務。
所以經過測試後,我發現海豚調度器也可以啟動Flume任務。
海豚調度Flume任務配置
(一)Flume在Linux中的路徑
(二)Flume任務文件在Linux中的位置以及任務文件名
(三)在海豚中配置運行腳本
#!/bin/bash
source /etc/profile
/usr/local/hurys/dc_env/flume/flume190/bin/flume-ng agent -n a1 -f /usr/local/hurys/dc_env/flume/flume190/conf/statistics.properties
註意:/usr/local/hurys/dc_env/flume/flume190/為Flume在Linux中的安裝,根據自己安裝路徑進行調整
(四)海豚任務配置好後就可以啟動海豚任務
(五)在HDFS對應文件夾中驗證是否採集到數據
可以看到,Flume採集Kafka數據成功寫入到HDFS中,成功實現用Apache DolphinScheduler執行Flume任務的目的!
原文鏈接:
https://blog.csdn.net/tiantang2renjian/article/details/136399112
本文由 白鯨開源 提供發佈支持!