從零構建Flink SQL計算平臺 - 1平臺搭建

来源:https://www.cnblogs.com/pyx0/archive/2020/02/22/12348114.html
-Advertisement-
Play Games

一、理想與現實 Apache Flink 是一個分散式流批一體化的開源平臺。Flink 的核心是一個提供數據分發、通信以及自動容錯的流計算引擎。Flink 在流計算之上構建批處理,並且原生的支持迭代計算,記憶體管理以及程式優化。 實時計算(Alibaba Cloud Realtime Compute, ...


一、理想與現實

Apache Flink 是一個分散式流批一體化的開源平臺。Flink 的核心是一個提供數據分發、通信以及自動容錯的流計算引擎。Flink 在流計算之上構建批處理,並且原生的支持迭代計算,記憶體管理以及程式優化。

實時計算(Alibaba Cloud Realtime Compute,Powered by Ververica)是阿裡雲提供的基於 Apache Flink 構建的企業級大數據計算平臺。在 PB 級別的數據集上可以支持亞秒級別的處理延時,賦能用戶標準實時數據處理流程和行業解決方案;支持 Datastream API 作業開發,提供了批流統一的 Flink SQL,簡化 BI 場景下的開發;可與用戶已使用的大數據組件無縫對接,更多增值特性助力企業實時化轉型。

Apache Flink 社區迎來了激動人心的兩位數位版本號,Flink 1.10.0 正式宣告發佈!作為 Flink 社區迄今為止規模最大的一次版本升級,Flink 1.10 容納了超過 200 位貢獻者對超過 1200 個 issue 的開發實現,包含對 Flink 作業的整體性能及穩定性的顯著優化、對原生 Kubernetes 的初步集成以及對 Python 支持(PyFlink)的重大優化。

Flink 1.10 同時還標志著對 Blink的整合宣告完成,隨著對 Hive 的生產級別集成及對 TPC-DS 的全面覆蓋,Flink 在增強流式 SQL 處理能力的同時也具備了成熟的批處理能力。

在過去的2019年,大數據領域的Flink異常火爆,從年初阿裡巴巴高調收購Flink的母公司,到秋天發佈的1.9以及最近的1.10版本完成整合阿裡Blink分支,各類分享文章和一系列國內外公司應用案例,都讓人覺得Flink是未來大數據領域統一計算框架的趨勢。尤其是看過阿裡雲上的實時計算平臺,支持完善的SQL開發和批流都能處理的模式讓人印(直)象(流)深(口)刻(水)。因為相對於公有雲產品,稍微有點規模的公司都更願意使用開源產品搭建自己的平臺,可是仔細研究Flink的官方文檔和源碼,準備擼起袖子開干時,才發現理想和現實的差距很大……

首先是阿裡實時計算平臺產品的SQL開發界面:

平臺

然而現實中Flink所支持的SQL開發API是這樣的:

// create a TableEnvironment for specific planner batch or streaming
TableEnvironment tableEnv = ...; // see "Create a TableEnvironment" section

// register a Table
tableEnv.registerTable("table1", ...)            // or
tableEnv.registerTableSource("table2", ...);     // or
tableEnv.registerExternalCatalog("extCat", ...);
// register an output Table
tableEnv.registerTableSink("outputTable", ...);

// create a Table from a Table API query
Table tapiResult = tableEnv.scan("table1").select(...);
// create a Table from a SQL query
Table sqlResult  = tableEnv.sqlQuery("SELECT ... FROM table2 ... ");

// emit a Table API result Table to a TableSink, same for SQL result
tapiResult.insertInto("outputTable");

// execute
tableEnv.execute("java_job");

最後翻遍Flink文檔發現提供了一個實驗性質的命令行SQL客戶端:

flinksqlclient

此外當我們用開源Flink代碼部署一套集群後,整個集群有 JobManager 和 TaskManager 兩種角色,其中 JobManager 提供了一個簡單的管理界面,提供了上傳Jar包執行任務的功能,以及一些簡單監控界面,此外還提供一系列管理和監控的 Rest Api,可惜都沒有和SQL層面直接相關的東西。

之所以有這一系列理想與現實的差異,是因為Flink更多的定位在計算引擎,在開發界面等方面暫時投入較少,但是每寫一個SQL然後嵌入到代碼中編譯成JAR包上傳到Flink集群執行是客(小)戶(白)所不能接受的,這也就需要我們自己開發一套以SQL作業為中心的管理平臺(對用戶暴露的web系統),由該平臺管理 Flink 集群,共同構成 Flink SQL 計算平臺。

二、平臺功能梳理

一個完整的SQL平臺在產品流程上至少(第一版)需要有以下部分。

  • SQL作業管理:新增、調試、提交、下線SQL任務

  • 數據源和維表管理:用DDL創建數據源表,其中維表也是一種特殊數據源

  • 數據匯管理:用DDL創建數據結果表,即 insert into 結果表 select xxx

  • UDF管理:上傳UDF的jar包

  • 調度和運維:任務定時上下線、任務縮容擴容、savepoint管理

  • 監控:日誌查看、指標採集和記錄、報警管理

  • 其他:角色和許可權管理、文檔幫助等等……

除了作為Web系統需要的一系列增刪改查和交互展示功能外,大部分功能可以通過操作Flink集群提供的Rest介面實現,但是其中沒有SQL相關內容,也就是前面四項功能(提交SQL、DDL、UDF,後文統稱提交作業部分)都需要自己實現和 Flink 的交互,這也是構建平臺的第一個挑戰。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Linux發行版的兩大系列 debian:代表的比如Ubuntu,軟體包管理工具apt、apt-get、dpkg,軟體包名.deb redhat:代表的比如CentOS(所以在VMware上安裝CentOS8時選擇的版本是red hat),軟體包管理工具yum,軟體包名.rpm Ubuntu要下載. ...
  • [TOC] 重裝系統的那些事兒 話說這次寒假在家實在閑得無聊,就根據自己專業的特點,瘋狂的在電腦上安裝以後可能用得到的軟體,比如:PyChrome、DW、MATLAB、MySQL、Tomcat... 在這裡就不一一列舉了。雖然都裝上了,但哪裡用的著呢?無非就是打發打發時間罷了。正式開課之前,各科老師 ...
  • 原文出自: "http://blog.csdn.net/xiaohui_hubei/article/details/16319249" 一、雙緩衝作用 雙緩衝甚至是多緩衝,在許多情況下都很有用。一般需要使用雙緩衝區的地方都是由於“生產者”和“消費者”供需不一致所造成的。這樣的情況在很多地方後可能會發 ...
  • 多線程技術 單線程結構進程 傳統進程是單線程結構進程 單線程結構進程的問題: 單線程結構進程在併發程式設計上存在的問題,進程切換開銷大,進程通信開銷大,限制了進程併發的粒度,降低了並行計算的效率 解決問題的思路: 把進程的兩項功能,即“獨立分配資源”與“被調度分派執行”分離開來,進程作為系統資源分配 ...
  • kali系統的root密碼忘記了,只需一分鐘時間,快速重置root密碼 ...
  • Mac自身的ruby 版本 2.x,通過ruby -v可以查看版本號。為更新到ruby的最新版本,可通過以下命令解決:brew updatebrew install ruby執行完命令後,ruby -v後其實還是原來的版本👌,這是因為環境變數沒有配置。因此,還有一個步驟就是配置環境變數。echo ... ...
  • 使用Unicode的優勢: 便於在不同語言之間進行數據交換。 讓你的exe或者dll文件支持所有的語言。 提高應用程式的執行效率。 Windows2000是使用Unicode重新開發的,核心部分都需要Unicode字元串。所以: 當參數中傳入一個ANSI字元串,那麼系統就要先把這個ANSI字元串轉換 ...
  • 一、導讀 愛奇藝的社交業務“泡泡”,擁有日活用戶6千萬+,後臺系統每日高峰期間介面QPS可以達到80K+,與視頻業務的主要區別是泡泡業務更多地引入了與用戶互動相關的數據,讀、寫的量均很大。無論是龐大的數據量,還是相對較高的QPS,使得我們在絕大多數場景下都依賴於高可靠、高性能、以及存儲量巨大的線上緩 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...