隨著大數據技術的快速發展,很多企業開始將Flink引入到生產環境中,以滿足日益複雜的數據處理需求。而作為一款企業級的數據調度平臺,Apache DolphinScheduler也跟上了時代步伐,推出了對Flink任務類型的支持。 Flink是一個開源的分散式流處理框架,具有高吞吐量、低延遲和準確性等 ...
隨著大數據技術的快速發展,很多企業開始將Flink引入到生產環境中,以滿足日益複雜的數據處理需求。而作為一款企業級的數據調度平臺,Apache DolphinScheduler也跟上了時代步伐,推出了對Flink任務類型的支持。
Flink是一個開源的分散式流處理框架,具有高吞吐量、低延遲和準確性等特點,廣泛應用於實時數據分析、機器學習等場景。通過DolphinScheduler的Flink任務類型,用戶可以輕鬆地將Flink作業納入到整個數據調度流程中,大大提高了數據處理的效率和可靠性。本文將介紹如何在DolphinScheduler中支持Flink節點,包括任務創建、設置等。
Flink節點
Flink 任務類型,用於執行 Flink 程式。對於 Flink 節點:
- 當程式類型為 Java、Scala 或 Python 時,worker 使用 Flink 命令提交任務 flink run。
- 當程式類型為 SQL 時,worker 使用sql-client.sh 提交任務。
創建任務
- 點擊項目管理-項目名稱-工作流定義,點擊“創建工作流”按鈕,進入 DAG 編輯頁面;
- 拖動工具欄的 任務節點到畫板中。
任務參數
任務樣例
執行 WordCount 程式
本案例為大數據生態中常見的入門案例,常應用於 MapReduce、Flink、Spark 等計算框架。主要為統計輸入的文本中,相同的單詞的數量有多少。
1.在 DolphinScheduler 中配置 Flink 環境
若生產環境中要是使用到 flink 任務類型,則需要先配置好所需的環境。配置文件如下:bin/env/dolphinscheduler_env.sh。
2.任務流程
- 上傳主程式包
在使用 Flink 任務節點時,需要利用資源中心上傳執行程式的 jar 包。
當配置完成資源中心之後,直接使用拖拽的方式,即可上傳所需目標文件。
- 配置 Flink 節點
根據上述參數說明,配置所需的內容即可。
- 執行 FlinkSQL 程式
根據上述參數說明,配置所需的內容即可。
註意事項
- Java 和 Scala 只是用來標識,沒有區別,如果是 Python 開發的 Flink 則沒有主函數的 class,其餘的都一樣。
- 使用 SQL 執行 Flink SQL 任務,目前只支持 Flink 1.13及以上版本。
原文鏈接:https://blog.csdn.net/zhengzaifeidelushang/article/details/136687233
本文由 白鯨開源 提供發佈支持!