Flink mini-batch "引發" 的亂序問題

来源:https://www.cnblogs.com/0x12345678/archive/2023/01/03/17023546.html
-Advertisement-
Play Games

問題描述 近期業務反饋, 開啟了 mini-batch 之後, 出現了數據不准的情況, 關掉了 mini-batch 之後, 就正常了, 因此業務方懷疑,是不是 Flink 的 mini-batch 存在 bug ? 問題排查 初步分析 mini-batch 已經在內部大規模使用, 目前沒有發現一例 ...


問題描述

近期業務反饋, 開啟了 mini-batch 之後, 出現了數據不准的情況, 關掉了 mini-batch 之後, 就正常了, 因此業務方懷疑,是不是 Flink 的 mini-batch 存在 bug ?

問題排查

初步分析

  • mini-batch 已經在內部大規模使用, 目前沒有發現一例和開啟 mini-batch 有關, 同時 mini-batch 本質只是將數據進行攢批然後計算, 並沒有修改核心的運算邏輯.
  • 開關 mini-batch 的關鍵時數據的批量計算, 是否在批量計算使得原本存在 bug 的代碼暴露問題
  • 業務在 Flink SQL 使用了多個雙流 join 和 group window,如果不註意使用,很可能導致亂序,最終的錯誤結果是某條數據沒有被正常更新, 和亂序的情況比較類似.

綜上考慮, 整體排查的方向還是排查 SQL 的業務邏輯是否存在亂序的 case, 開啟了 mini-batch 後是否加劇了這種亂序的產生

代碼邏輯梳理

flowchart LR join1(join1 \n item_day, item_key) --> join2 join2(join2 \n item_day, item_key) --> join3 join3(join3 \n item_day, item_key) --> group1 group1(group1 \n item_day, item_key) --> group2 group2(group2 \n item_day, item_key, key1, key2, key3) --> sink sink(sink \n pk: item_day, item_key)

抽象之後的 DAG 如圖所示:

  1. join1, join2, join3, group1 都是基於 item_day 和 item_key 進行 hash 數據經過這些運算元均按照 [item_day, item_key] 進行 hash
  2. group2 運算元的 group key 為 [item_day, item_key, key1, key2, key3],Flink 會基於這些欄位整體進行 hash
  3. Sink 運算元的主鍵為 [item_day, item_key] ,數據流向 Sink 運算元時會按照 [item_day, item_key] 進行 hash.

分析:
key1, key2, key3 時由前面的 join1 運算元補充的維度欄位, 前面的 join 採用的是 left join, 因此可能會存在 item_day 和 item_key 相同的數據, 對應的 key1, key2, key3 並不相同, 經過 group2 會觸發具有相同 [item_day, item_key] 的數據,被 hash 到不同的併發,這種就出現了亂序問題

修複手段

最後的 group by [item_day, item_key, key1, key2, key3], 核心還是為了聚合相同的 item_day和 item_key, key1, key2, key3 不屬於 value 類型數據, 也不參與聚合, 因此將修改 SQL 避免基於 key1, key2, key3 進行聚合即可, 這裡採用 last_value 聚合函數取最後一條數據

-- 原始 SQL
SELECT item_day, item_key, key1, key2, key3, sum(value)
FROM XXX
GROUP BY item_day, item_key, key1, key2, key3

-- 修改為
SELECT item_day, item_key, last_value(key1), last_value(key2), last_value(key3), sum(value)
FROM XXX
GROUP BY item_day, item_key

經過修改之後,保證整個 Flink 處理鏈路中, 相同的主鍵對應的數據,無論經過多少次 hash, 都是在同一個並行處理,這種才能保證最終結果的正確性

結論

修改後, 業務的結果恢復正常, 因此 Mini-batch 並不是導致作業出現問題的核心原因, 核心原因還是亂序, 而開啟 mini-batch 會加劇這種亂序問題的觸發。

開啟 mini-batch 之後, 具有相同 key 的數據, 如果落到了同一個 batch, 這樣物理上的時間差就更短,因而更容易暴露問題。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 在實際業務中,當後臺數據發生變化,客戶端能夠實時的收到通知,而不是由用戶主動的進行頁面刷新才能查看,這將是一個非常人性化的設計。有沒有那麼一種場景,後臺數據明明已經發生變化了,前臺卻因為沒有及時刷新,而導致頁面顯示的數據與實際存在差異,從而造成錯誤的判斷。那麼如何才能在後臺數據變更時及時通知客戶端呢... ...
  • 一、獲取微信支付碼url (1)獲取微信支付碼url主方法 /// <summary> /// 獲取微信支付二維碼 /// </summary> /// <param name="log">日誌</param> /// <param name="orderId">訂單編號</param> /// < ...
  • 目前項目當中存有 .NET Framework 和 .NET Core 兩種類型的項目,但是都需要進行容器化將其分別部署在 Windows 集群和 Linux 集群當中。在 WCF 進行容器化的時候,遇到了以下幾個問題: 1. 某些服務使用到了 WSHttpBinding 保護服務安全,要在容器里... ...
  • 主題 2 Shell工具和腳本 Shell 工具和腳本 · the missing semester of your cs education (missing-semester-cn.github.io) Shell腳本 shell 腳本是一種更加複雜度的工具。 定義變數 在bash中為變數賦值的 ...
  • 用的是全志的R528 SDK,Linux內核是5.4,新增加一個250000的非標準波特率 參考網路大神文檔,實踐並記錄寶貴的經驗。 方法: 1、修改內核的/include/uapi/asm-generic/termbits.h文件 這個CBAUD原來是0010017改為0030017,是用來做掩碼 ...
  • Linux系統下卸載mysql 停止mysql服務 systemctl stop mysqld.service 查看安裝的mysql服務 rpm -qa|grep -i mysql 刪除安裝的mysql服務 rpm -e --nodeps mysql相關服務 #例如: rpm -e --nodeps ...
  • 登陸 登陸伺服器 ssh user@hostname user: 用戶名 hostname :IP地址或功能變數名稱 第一次登陸會提示 The authenticity of host '123.57.47.211 (123.57.47.211)' can't be established. ECDSA k ...
  • 目的 手裡有調試STM32的DAP-LINK,想試試通過JTAG調試ESP32 OpenOCD支持CMSIS-DAP DAP-LINK支持的晶元,我手上這款描述如下,應該JTAG協議的都支持 平臺 windows10 + ESP-IDF ESP-WROOM-32E模組 + 燒錄底座 DAP-LINK ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...