實時流式計算系統中的幾個陷阱

来源:https://www.cnblogs.com/tree1123/archive/2020/05/08/12848672.html
-Advertisement-
Play Games

隨著諸如Apache Flink,Apache Spark,Apache Storm之類的開源框架以及諸如Google Dataflow之類的雲框架的增多,創建實時數據處理作業變得非常容易。這些API定義明確,並且諸如Map Reduce之類的標準概念在所有框架中都遵循幾乎相似的語義。 但是,直到今 ...


file
隨著諸如Apache Flink,Apache Spark,Apache Storm之類的開源框架以及諸如Google Dataflow之類的雲框架的增多,創建實時數據處理作業變得非常容易。這些API定義明確,並且諸如Map-Reduce之類的標準概念在所有框架中都遵循幾乎相似的語義。

但是,直到今天,實時數據處理領域的開發人員都在為該領域的某些特性而苦苦掙扎。因此,他們在不知不覺中創建了一條路徑,該路徑導致了應用程式中相當常見的錯誤。

讓我們看一下在設計實時應用程式時可能需要剋服的一些陷阱。

活動時間

源生成數據的時間戳稱為“ 事件時間”,而應用程式處理數據的時間戳稱為“ 處理時間”。在實時數據流應用程式中,最常見的陷阱是無法區分這些時間戳。

讓我們詳細說明一下。

由於諸如代理中的GC較高或太多數據導致背壓之類的多個問題,數據隊列易出現延遲。我將事件表示為(E,P),其中E是事件時間戳(HH:MM:SS格式),P是處理時間戳。在理想世界中,E == P,但這在任何地方都不會發生。

假設我們收到以下數據

('05:00:00','05:00:02'),('05:00:01','05:00:03'),('05:00:01','05:00: 03'),('05:00:01','05:00:05'),
('05:00:02','05:00:05'),('05:00:02',' 05:00:05')

現在,我們假設有一個程式可以計算每秒接收到的事件數。根據事件時間,程式返回

[05:00:00,05:00:01)= 1 
[05:00:01,05:00:02)= 3 
[05:00:02,05:00:03)= 2

但是,基於處理時間,輸出為

[5時○○分00秒,5點00分01秒)= 0 
[5點00分01秒,5點00分02秒)= 0 
[5點00分02秒,5時00分03秒)= 1 
[05:00: 03,05:00:04)= 2 
[05:00:04,05:00:05)= 0 
[05:00:05,05:00:06)= 3

如您所見,這兩個都是完全不同的結果。

數據流中異常的延遲

大多數實時數據應用程式使用來自分散式隊列的數據,例如Apache Kafka,RabbitMQ,Pub / Sub等。隊列中的數據由其他服務生成,例如消費者應用程式的點擊流或資料庫的日誌。

問題隊列容易受到延遲的影響。即使在幾十毫秒內,生成的事件也可能到達您的工作中,或者在最壞的情況下可能會花費一個多小時(極高的背壓)。由於以下原因,數據可能會延遲:

  • kafka上的高負載
  • 生產者在其伺服器中緩衝數據
  • 由於應用程式中的背壓,消耗速度慢

假設數據將永遠不會延遲是一個巨大陷阱。開發人員應始終具有測量數據延遲的工具。例如,在Kafka,您應該檢查偏移量滯後。

您還應該監視作業中的背壓以及延遲(即事件時間與處理時間之間的差)。沒有這些將導致數據意外丟失,例如10分鐘。時間視窗似乎沒有數據,並且視窗顯示10分鐘。之後,其期望值將是預期值的兩倍。

Joins

在批處理數據處理系統中,將兩個數據集合併起來比較簡單。在流處理世界中,情況變得有些麻煩。

//數據集的格式為(時間戳,鍵,值)
//數據組1 (05:00: 
00,A,值A),
(05:00: 01,B,值B),(05:00: 04,C,值C),(05:00:04,D,值D)
//數據流2 
(05:00:00,A,值A'),(05:00:02,B,值B' ),
(05:00:00,C,值C')

file

現在,我們將兩個數據流都放在它們的Key上。為簡單起見,我們將進行內部聯接。

Key A — 值A和值A'都同時到達。因此,我們可以輕鬆地將它們組合為一個函數併發出輸出

Key B — 值B比值B`早1秒。因此,我們需要在數據流1上等待至少1秒鐘,才能使連接正常工作。因此,您需要考慮以下內容-

  • 那一秒鐘的數據將存儲在哪裡?
  • 如果1秒不是固定的延遲,並且在最壞的情況下不規則地增加到10分鐘怎麼辦?

Key C —值C比值C'晚4秒鐘到達。這與以前相同,但是現在您在數據流1和2中都具有不規則的延遲,並且沒有固定的模式將其值設為1。

Key D —值D到達,但是沒有觀察到值D'。考慮以下-

  • 您要等多久才能獲得價值D`?
  • 如果值D`可以從至少5秒到接近1小時的任何時間出現,該怎麼辦?
  • 如果這是一個外部聯接,而您必須決定何時單獨發出值D,該怎麼辦?
  • 如果在前一種情況下,在發出值D 1分鐘後到達值D`,該怎麼辦?

file

以上所有問題的答案將取決於您的用例。重要的是要考慮所有這些問題,而不是忽略流系統的複雜性。

一定要註意 不要迴避這些問題

配置

在標準微服務中,配置位於作業內部或資料庫中。您可以在數據流應用程式中執行相同的操作。但是,在繼續使用此方法之前,您需要考慮以下事項。

您將多久訪問一次配置?

如果需要為每個事件訪問配置,並且事件數量很多(超過一百萬RPM),那麼您也可以嘗試其他方法。一種是將配置存儲在作業狀態中。這可以使用狀態處理在Flink和Spark中完成。可以使用文件讀取器或Kafka中的其他流以狀態填充該配置。

在流處理世界中,針對每個事件進行資料庫調用可能會使您的應用程式變慢並導致背壓。選擇是使用快速資料庫,還是通過在應用程式內部存儲狀態來消除網路調用。

您的配置有多大?

如果配置很大,則僅當配置可以拆分到多個伺服器時才應使用應用程式內狀態,例如,一個配置為每個用戶保留一些閾值。可以基於用戶ID密鑰將這樣的配置拆分到多台電腦上。這有助於減少每台伺服器的存儲量。

如果無法在節點之間拆分配置,請首選資料庫。否則,所有數據將需要路由到包含配置的單個伺服器,然後再次重新分發。唯一包含配置的伺服器充當該方案的瓶頸。

file

設計實時數據流應用程式似乎很容易,但是開發人員會犯很多上述錯誤,特別是如果它們來自微服務領域。

重要的部分是瞭解數據流的基礎知識以及如何處理單個流,然後轉到處理多個聯接,實時配置更新等的複雜應用程式。

更多實時數據分析相關博文與科技資訊,歡迎關註 “實時流式計算”

file


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1、官網 https://www.navicat.com.cn/ 2、安裝教程(厚著臉皮,貼上大佬教程) Navicat15安裝教程: https://www.cnblogs.com/xuexianqi/p/12797170.html ...
  • 幫人分析解決一個YourSQLDba備份報錯問題,個人覺得有點意思,順手記錄一下分析思路,大體解決思路如下: 首先,找到YourSQLDba作業YourSQLDba_FullBackups_And_Maintenance的報錯郵件或者作業的錯誤日誌信息,檢查YourSQLDba出錯的詳細信息。 YO... ...
  • @2020.5.8 題目: 1、查詢所有的課程的名稱以及對應的任課老師姓名 2、查詢學生表中男女生各有多少人 3、查詢物理成績等於100的學生的姓名 4、查詢平均成績大於八十分的同學的姓名和平均成績 5、查詢所有學生的學號,姓名,選課數,總成績 6、 查詢姓李老師的個數 7、 查詢沒有報李平老師課的 ...
  • 【目錄】(其餘均為瞭解知識) 一 視圖 二 觸發器 三 事務(掌握) 四 存儲過程 五 函數 六 流程式控制制 七、索引理論 一、視圖 1、什麼是視圖 視圖是一個虛擬表(非真實存在),其本質是【根據SQL語句獲取動態的數據集,併為其命名】,用戶使用時只需使用【名稱】即可獲取結果集,可以將該結果集當做表來 ...
  • Redis 作為一個publish/subscribe server,起到了消息路由的功能。訂閱者可以通過subscribe和psubscribe命令向Redis server訂閱自己感興趣的消息類型,當發佈者通過publish命令向Redis server發送特定類型的消息時。訂閱該消息類型的全部 ...
  • 來源:http://www.postgres.cn/docs/11/ 13.2.1. 讀已提交隔離級別 讀已提交是PostgreSQL中的預設隔離級別。 當一個事務運行使用這個隔離級別時, 一個查詢(沒有FOR UPDATE/SHARE子句)只能看到查詢開始之前已經被提交的數據, 而無法看到未提交的 ...
  • 當需要對一個非常大的表INSERT的時候,會消耗非常多的資源,因為update表的時候,oracle需要生成 redo log和undo log;此時最好的解決辦法是用insert, 並且將表設置為nologging;當把表設為nologging後,並且使用的insert時,速度是最快的,這個時候o ...
  • 表結構 student(StuId,StuName,StuAge,StuSex) 學生表 teacher(TId,Tname) 教師表 course(CId,Cname,C_TId) 課程表 sc(SId,S_CId,Score) 成績表 問題六:查詢學過“001”並且也學過編號“002”課程的同學 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...