Storm 系列(一)—— Storm和流處理簡介

来源:https://www.cnblogs.com/heibaiying/archive/2019/09/03/11450828.html
-Advertisement-
Play Games

一、Storm 1.1 簡介 Storm 是一個開源的分散式實時計算框架,可以以簡單、可靠的方式進行大數據流的處理。通常用於實時分析,線上機器學習、持續計算、分散式 RPC、ETL 等場景。Storm 具有以下特點: + 支持水平橫向擴展; + 具有高容錯性,通過 ACK 機制每個消息都不丟失; + ...


一、Storm

1.1 簡介

Storm 是一個開源的分散式實時計算框架,可以以簡單、可靠的方式進行大數據流的處理。通常用於實時分析,線上機器學習、持續計算、分散式 RPC、ETL 等場景。Storm 具有以下特點:

  • 支持水平橫向擴展;
  • 具有高容錯性,通過 ACK 機制每個消息都不丟失;
  • 處理速度非常快,每個節點每秒能處理超過一百萬個 tuples ;
  • 易於設置和操作,並可以與任何編程語言一起使用;
  • 支持本地模式運行,對於開發人員來說非常友好;
  • 支持圖形化管理界面。

1.2 Storm 與 Hadoop對比

Hadoop 採用 MapReduce 處理數據,而 MapReduce 主要是對數據進行批處理,這使得 Hadoop 更適合於海量數據離線處理的場景。而 Strom 的設計目標是對數據進行實時計算,這使得其更適合實時數據分析的場景。

1.3 Storm 與 Spark Streaming對比

Spark Streaming 並不是真正意義上的流處理框架。 Spark Streaming 接收實時輸入的數據流,並將數據拆分為一系列批次,然後進行微批處理。只不過 Spark Streaming 能夠將數據流進行極小粒度的拆分,使得其能夠得到接近於流處理的效果,但其本質上還是批處理(或微批處理)。

1.4 Strom 與 Flink對比

storm 和 Flink 都是真正意義上的實時計算框架。其對比如下:

storm flink
狀態管理 無狀態 有狀態
視窗支持 對事件視窗支持較弱,緩存整個視窗的所有數據,視窗結束時一起計算 視窗支持較為完善,自帶一些視窗聚合方法,
並且會自動管理視窗狀態
消息投遞 At Most Once
At Least Once
At Most Once
At Least Once
Exactly Once
容錯方式 ACK 機制:對每個消息進行全鏈路跟蹤,失敗或者超時時候進行重發 檢查點機制:通過分散式一致性快照機制,
對數據流和運算元狀態進行保存。在發生錯誤時,使系統能夠進行回滾。

註 : 對於消息投遞,一般有以下三種方案:

  • At Most Once : 保證每個消息會被投遞 0 次或者 1 次,在這種機制下消息很有可能會丟失;
  • At Least Once : 保證了每個消息會被預設投遞多次,至少保證有一次被成功接收,信息可能有重覆,但是不會丟失;
  • Exactly Once : 每個消息對於接收者而言正好被接收一次,保證即不會丟失也不會重覆。

二、流處理

2.1 靜態數據處理

在流處理之前,數據通常存儲在資料庫或文件系統中,應用程式根據需要查詢或計算數據,這就是傳統的靜態數據處理架構。Hadoop 採用 HDFS 進行數據存儲,採用 MapReduce 進行數據查詢或分析,這就是典型的靜態數據處理架構。

2.2 流處理

而流處理則是直接對運動中數據的處理,在接收數據的同時直接計算數據。實際上,在真實世界中的大多數數據都是連續的流,如感測器數據,網站用戶活動數據,金融交易數據等等 ,所有這些數據都是隨著時間的推移而源源不斷地產生。

接收和發送數據流並執行應用程式或分析邏輯的系統稱為流處理器。流處理器的基本職責是確保數據有效流動,同時具備可擴展性和容錯能力,Storm 和 Flink 就是其代表性的實現。

流處理帶來了很多優點:

  • 可以立即對數據做出反應:降低了數據的滯後性,使得數據更具有時效性,更能反映對未來的預期;

  • 可以處理更大的數據量:直接處理數據流,並且只保留數據中有意義的子集,然後將其傳送到下一個處理單元,通過逐級過濾數據,從而降低實際需要處理的數據量;

  • 更貼近現實的數據模型:在實際的環境中,一切數據都是持續變化的,想要通過歷史數據推斷未來的趨勢,必須保證數據的不斷輸入和模型的持續修正,典型的就是金融市場、股票市場,流處理能更好地處理這些場景下對數據連續性和及時性的需求;

  • 分散和分離基礎設施:流式處理減少了對大型資料庫的需求。每個流處理程式通過流處理框架維護了自己的數據和狀態,這使其更適合於當下最流行的微服務架構。

參考資料

  1. What is stream processing?
  2. 流計算框架 Flink 與 Storm 的性能對比

更多大數據系列文章可以參見 GitHub 開源項目大數據入門指南


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • python連接mysql的客戶端 MySQL註入問題 之前我們進行用戶名密碼認證是先將用戶名和密碼保存到一個文件中,然後通過讀文件裡面的內容,來和客戶端發送過來的用戶名密碼進行匹配,現在我們學了資料庫,我們可以將這些用戶數據保存到資料庫中,然後通過資料庫裡面的數據來對客戶端進行用戶名和密碼的認證。 ...
  • 一、詞頻 TF • 假設:如果一個詞很重要,應該會在文章中多次出現 • 詞頻——TF(Term Frequency):一個詞在文章中出現的次數 • 也不是絕對的!出現次數最多的是“的”“是”“在”,這類最常用的詞,叫做停用詞(stop words)• 停用詞對結果毫無幫助,必須過濾掉的詞 • 過濾掉 ...
  • ApplicationMaster管理部分主要由三個服務構成,分別是ApplicationMasterLauncher、AMLivelinessMonitor和ApplicationMasterService,它們共同管理應用程式的ApplicationMaster的生命周期 Application ...
  • 建表前準備 1.笛卡爾積:將兩表所有的數據一一對應,生成一張大表 2.連表查詢 1.inner join 內連接 2.left join 左連接(left join左邊的表為主表,主表記錄必須全部顯示,輔表沒辦法對應上的,就通過null來補全) 3.right join 右連接 4.union 全連 ...
  • MySQL學習——有關表的操作語句 摘要:本文主要學習了使用DDL語句對錶進行操作的方法。 創建表 語法 表定義選項 用來創建定義表的結構,由列名(col_name)、列的定義(column_definition)以及可能的空值說明、完整性約束或表索引組成。 實例 查看表結構 語法 實例 說明 Nu ...
  • https://www.cnblogs.com/xiaofoyuan/p/5253332.html PostgreSQL自帶一個客戶端pgAdmin,裡面有個備份,恢覆選項,也能對資料庫進行備份 恢復(還原),但最近發現資料庫慢慢龐大的時候,經常出錯,備份的文件過程中出錯的幾率那是相當大,手動調節灰 ...
  • static u8 key_double_click_cnt = 0; if (TASK_BT == task_ctl.work_sta) { if (key_double_click_cnt > 0) { //雙擊超時計時. key_double_click_cnt--; } if(1 == ke ...
  • 1.基礎知識:Helloworld:例 1.1<html><head> <!-- 如果你用notepad建立一個txt之後你再改為html,一定在存時,要存成utf-8或unicode格式,或者你也可以用 myeclipse html designer,這樣你看的文本是有顏色的,如果覺得字體小,可以 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...