Apache DolphinScheduler支持Flink嗎？

-Advertisement-

隨著大數據技術的快速發展，很多企業開始將Flink引入到生產環境中，以滿足日益複雜的數據處理需求。而作為一款企業級的數據調度平臺，Apache DolphinScheduler也跟上了時代步伐，推出了對Flink任務類型的支持。 Flink是一個開源的分散式流處理框架，具有高吞吐量、低延遲和準確性等 ...

隨著大數據技術的快速發展，很多企業開始將Flink引入到生產環境中，以滿足日益複雜的數據處理需求。而作為一款企業級的數據調度平臺，Apache DolphinScheduler也跟上了時代步伐，推出了對Flink任務類型的支持。

Flink是一個開源的分散式流處理框架，具有高吞吐量、低延遲和準確性等特點，廣泛應用於實時數據分析、機器學習等場景。通過DolphinScheduler的Flink任務類型，用戶可以輕鬆地將Flink作業納入到整個數據調度流程中，大大提高了數據處理的效率和可靠性。本文將介紹如何在DolphinScheduler中支持Flink節點，包括任務創建、設置等。

Flink節點

Flink 任務類型，用於執行 Flink 程式。對於 Flink 節點：

當程式類型為 Java、Scala 或 Python 時，worker 使用 Flink 命令提交任務 flink run。
當程式類型為 SQL 時，worker 使用sql-client.sh 提交任務。

創建任務

點擊項目管理-項目名稱-工作流定義，點擊“創建工作流”按鈕，進入 DAG 編輯頁面；
拖動工具欄的任務節點到畫板中。

任務參數

file

任務樣例

執行 WordCount 程式

本案例為大數據生態中常見的入門案例，常應用於 MapReduce、Flink、Spark 等計算框架。主要為統計輸入的文本中，相同的單詞的數量有多少。

1.在 DolphinScheduler 中配置 Flink 環境

若生產環境中要是使用到 flink 任務類型，則需要先配置好所需的環境。配置文件如下：bin/env/dolphinscheduler_env.sh。

file

2.任務流程

上傳主程式包

在使用 Flink 任務節點時，需要利用資源中心上傳執行程式的 jar 包。

當配置完成資源中心之後，直接使用拖拽的方式，即可上傳所需目標文件。

file

配置 Flink 節點

根據上述參數說明，配置所需的內容即可。

file

執行 FlinkSQL 程式

根據上述參數說明，配置所需的內容即可。

file

註意事項

Java 和 Scala 只是用來標識，沒有區別，如果是 Python 開發的 Flink 則沒有主函數的 class，其餘的都一樣。
使用 SQL 執行 Flink SQL 任務，目前只支持 Flink 1.13及以上版本。

原文鏈接：https://blog.csdn.net/zhengzaifeidelushang/article/details/136687233

本文由白鯨開源提供發佈支持！

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

使用DiskGenius工具來實現物理機遷移虛擬機，實現虛擬化

背景介紹：在實習的過程中，公司需要將一臺裝有win7的mac筆記本電腦遷移到戴爾G15上，提出的方案是將此筆記本的win7系統虛擬化，在戴爾G15的VmWare虛擬機上運行。作為公司的技術實習生，研究了兩天最後決定使用DiskGenius工具來進行操作。在最一開始，公司的技術發了一個名為Veri ...
Spark中的閉包引用和廣播變數

閉包引用概念所有編程語言都有閉包的概念，閉包就是在一個函數中引用了函數外的變數。 Spark中，普通的變數是在Driver程式中創建的，RDD的計算是在分散式集群中的task程式上進行的。因此，當分散式運算元的函數引用了外部的變數時，Driver會把該變數序列化後通過網路發送給每一個task（只針 ...
搭建MongoDB分片集群

目錄一、什麼是分片二、分片集群1、組件構成2、分片集群內各組件間交互三、數據如何切分四、分片策略1、哈希分片2、範圍分片五、分片集群架構六、搭建分片集群1、涉及主機2、所有主機安裝MongoDB3、分片節點副本集的創建3.1、第一套副本集shard13.1.1、準備存放數據和日誌的目錄3.1.2、創 ...
【VMware vCenter】連接和使用vCenter Server嵌入式vPostgres資料庫。

vCenter Server 早期支持內嵌（embedded）和外部（external）資料庫，內嵌資料庫就是vPostgres，基於VMware Postgres資料庫（PostgreSQL資料庫），外部資料庫用的多的是Oracle資料庫和SQL Server資料庫。因為早期使用內嵌的Postgr ...
Linux白屏部署OceanBase集群版

在Kafka中，Broker、Topic、Partition和Replication是四個核心概念，它們各自扮演了不同的角色並共同協作以確保數據的可靠性、可擴展性和高性能。以下是關於這四個概念的詳細解釋： Broker（代理） * Broker是Kafka集群中的一個節點，負責存儲和轉發消息。Kaf ...
Oracle中sysdate函數的個別用法舉例

1.什麼是sysdate 在Oracle中sysdate是一個函數，可直接調用sysdate，返回運行資料庫的操作系統的當前日期時間。註意：返回的日期時間值的格式取決於NLS_DATE_FORMAT參數的值。 sysdate的單位是天。 2.sysdate用法舉例 2.1sysdate sysdat ...
大數據怎麼學？對大數據開發領域及崗位的詳細解讀，完整理解大數據開發領域技術體系

經常有小伙伴和我咨詢大數據怎麼學，我覺得有必要寫一下關於大數據開發的具體方向，下次就不用苦哈哈的打字回覆了。直接回覆文章。 1.大數據崗位劃分我們通常說的大數據開發主要分為三大方向： 1.1數據平臺開發工程師主要從事後端開發，結合Hadoop，flink，spark等做二次開發，基於底層框架開發 ...
Apache SeaTunnel k8s 集群模式 Zeta 引擎部署指南

SeaTunnel提供了一種運行Zeta引擎(cluster-mode)的方法，可以讓Kubernetes在本地運行Zeta引擎，實現更高效的應用程式部署和管理。在本文中，我們將探索SeaTunnel k8s運行zeta引擎(cluster-mode模式)的更多信息，瞭解如何更好地利用Zeta引擎的 ...