Storm 系列(一)—— Storm和流處理簡介

来源:https://www.cnblogs.com/heibaiying/archive/2019/09/03/11450828.html
-Advertisement-
Play Games

一、Storm 1.1 簡介 Storm 是一個開源的分散式實時計算框架,可以以簡單、可靠的方式進行大數據流的處理。通常用於實時分析,線上機器學習、持續計算、分散式 RPC、ETL 等場景。Storm 具有以下特點: + 支持水平橫向擴展; + 具有高容錯性,通過 ACK 機制每個消息都不丟失; + ...


一、Storm

1.1 簡介

Storm 是一個開源的分散式實時計算框架,可以以簡單、可靠的方式進行大數據流的處理。通常用於實時分析,線上機器學習、持續計算、分散式 RPC、ETL 等場景。Storm 具有以下特點:

  • 支持水平橫向擴展;
  • 具有高容錯性,通過 ACK 機制每個消息都不丟失;
  • 處理速度非常快,每個節點每秒能處理超過一百萬個 tuples ;
  • 易於設置和操作,並可以與任何編程語言一起使用;
  • 支持本地模式運行,對於開發人員來說非常友好;
  • 支持圖形化管理界面。

1.2 Storm 與 Hadoop對比

Hadoop 採用 MapReduce 處理數據,而 MapReduce 主要是對數據進行批處理,這使得 Hadoop 更適合於海量數據離線處理的場景。而 Strom 的設計目標是對數據進行實時計算,這使得其更適合實時數據分析的場景。

1.3 Storm 與 Spark Streaming對比

Spark Streaming 並不是真正意義上的流處理框架。 Spark Streaming 接收實時輸入的數據流,並將數據拆分為一系列批次,然後進行微批處理。只不過 Spark Streaming 能夠將數據流進行極小粒度的拆分,使得其能夠得到接近於流處理的效果,但其本質上還是批處理(或微批處理)。

1.4 Strom 與 Flink對比

storm 和 Flink 都是真正意義上的實時計算框架。其對比如下:

storm flink
狀態管理 無狀態 有狀態
視窗支持 對事件視窗支持較弱,緩存整個視窗的所有數據,視窗結束時一起計算 視窗支持較為完善,自帶一些視窗聚合方法,
並且會自動管理視窗狀態
消息投遞 At Most Once
At Least Once
At Most Once
At Least Once
Exactly Once
容錯方式 ACK 機制:對每個消息進行全鏈路跟蹤,失敗或者超時時候進行重發 檢查點機制:通過分散式一致性快照機制,
對數據流和運算元狀態進行保存。在發生錯誤時,使系統能夠進行回滾。

註 : 對於消息投遞,一般有以下三種方案:

  • At Most Once : 保證每個消息會被投遞 0 次或者 1 次,在這種機制下消息很有可能會丟失;
  • At Least Once : 保證了每個消息會被預設投遞多次,至少保證有一次被成功接收,信息可能有重覆,但是不會丟失;
  • Exactly Once : 每個消息對於接收者而言正好被接收一次,保證即不會丟失也不會重覆。

二、流處理

2.1 靜態數據處理

在流處理之前,數據通常存儲在資料庫或文件系統中,應用程式根據需要查詢或計算數據,這就是傳統的靜態數據處理架構。Hadoop 採用 HDFS 進行數據存儲,採用 MapReduce 進行數據查詢或分析,這就是典型的靜態數據處理架構。

2.2 流處理

而流處理則是直接對運動中數據的處理,在接收數據的同時直接計算數據。實際上,在真實世界中的大多數數據都是連續的流,如感測器數據,網站用戶活動數據,金融交易數據等等 ,所有這些數據都是隨著時間的推移而源源不斷地產生。

接收和發送數據流並執行應用程式或分析邏輯的系統稱為流處理器。流處理器的基本職責是確保數據有效流動,同時具備可擴展性和容錯能力,Storm 和 Flink 就是其代表性的實現。

流處理帶來了很多優點:

  • 可以立即對數據做出反應:降低了數據的滯後性,使得數據更具有時效性,更能反映對未來的預期;

  • 可以處理更大的數據量:直接處理數據流,並且只保留數據中有意義的子集,然後將其傳送到下一個處理單元,通過逐級過濾數據,從而降低實際需要處理的數據量;

  • 更貼近現實的數據模型:在實際的環境中,一切數據都是持續變化的,想要通過歷史數據推斷未來的趨勢,必須保證數據的不斷輸入和模型的持續修正,典型的就是金融市場、股票市場,流處理能更好地處理這些場景下對數據連續性和及時性的需求;

  • 分散和分離基礎設施:流式處理減少了對大型資料庫的需求。每個流處理程式通過流處理框架維護了自己的數據和狀態,這使其更適合於當下最流行的微服務架構。

參考資料

  1. What is stream processing?
  2. 流計算框架 Flink 與 Storm 的性能對比

更多大數據系列文章可以參見 GitHub 開源項目大數據入門指南


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • python連接mysql的客戶端 MySQL註入問題 之前我們進行用戶名密碼認證是先將用戶名和密碼保存到一個文件中,然後通過讀文件裡面的內容,來和客戶端發送過來的用戶名密碼進行匹配,現在我們學了資料庫,我們可以將這些用戶數據保存到資料庫中,然後通過資料庫裡面的數據來對客戶端進行用戶名和密碼的認證。 ...
  • 一、詞頻 TF • 假設:如果一個詞很重要,應該會在文章中多次出現 • 詞頻——TF(Term Frequency):一個詞在文章中出現的次數 • 也不是絕對的!出現次數最多的是“的”“是”“在”,這類最常用的詞,叫做停用詞(stop words)• 停用詞對結果毫無幫助,必須過濾掉的詞 • 過濾掉 ...
  • ApplicationMaster管理部分主要由三個服務構成,分別是ApplicationMasterLauncher、AMLivelinessMonitor和ApplicationMasterService,它們共同管理應用程式的ApplicationMaster的生命周期 Application ...
  • 建表前準備 1.笛卡爾積:將兩表所有的數據一一對應,生成一張大表 2.連表查詢 1.inner join 內連接 2.left join 左連接(left join左邊的表為主表,主表記錄必須全部顯示,輔表沒辦法對應上的,就通過null來補全) 3.right join 右連接 4.union 全連 ...
  • MySQL學習——有關表的操作語句 摘要:本文主要學習了使用DDL語句對錶進行操作的方法。 創建表 語法 表定義選項 用來創建定義表的結構,由列名(col_name)、列的定義(column_definition)以及可能的空值說明、完整性約束或表索引組成。 實例 查看表結構 語法 實例 說明 Nu ...
  • https://www.cnblogs.com/xiaofoyuan/p/5253332.html PostgreSQL自帶一個客戶端pgAdmin,裡面有個備份,恢覆選項,也能對資料庫進行備份 恢復(還原),但最近發現資料庫慢慢龐大的時候,經常出錯,備份的文件過程中出錯的幾率那是相當大,手動調節灰 ...
  • static u8 key_double_click_cnt = 0; if (TASK_BT == task_ctl.work_sta) { if (key_double_click_cnt > 0) { //雙擊超時計時. key_double_click_cnt--; } if(1 == ke ...
  • 1.基礎知識:Helloworld:例 1.1<html><head> <!-- 如果你用notepad建立一個txt之後你再改為html,一定在存時,要存成utf-8或unicode格式,或者你也可以用 myeclipse html designer,這樣你看的文本是有顏色的,如果覺得字體小,可以 ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...