Storm 系列（一）—— Storm和流處理簡介

-Advertisement-

一、Storm 1.1 簡介 Storm 是一個開源的分散式實時計算框架，可以以簡單、可靠的方式進行大數據流的處理。通常用於實時分析，線上機器學習、持續計算、分散式 RPC、ETL 等場景。Storm 具有以下特點： + 支持水平橫向擴展； + 具有高容錯性，通過 ACK 機制每個消息都不丟失； + ...

一、Storm

1.1 簡介

Storm 是一個開源的分散式實時計算框架，可以以簡單、可靠的方式進行大數據流的處理。通常用於實時分析，線上機器學習、持續計算、分散式 RPC、ETL 等場景。Storm 具有以下特點：

支持水平橫向擴展；
具有高容錯性，通過 ACK 機制每個消息都不丟失；
處理速度非常快，每個節點每秒能處理超過一百萬個 tuples ；
易於設置和操作，並可以與任何編程語言一起使用；
支持本地模式運行，對於開發人員來說非常友好；
支持圖形化管理界面。

1.2 Storm 與 Hadoop對比

Hadoop 採用 MapReduce 處理數據，而 MapReduce 主要是對數據進行批處理，這使得 Hadoop 更適合於海量數據離線處理的場景。而 Strom 的設計目標是對數據進行實時計算，這使得其更適合實時數據分析的場景。

1.3 Storm 與 Spark Streaming對比

Spark Streaming 並不是真正意義上的流處理框架。 Spark Streaming 接收實時輸入的數據流，並將數據拆分為一系列批次，然後進行微批處理。只不過 Spark Streaming 能夠將數據流進行極小粒度的拆分，使得其能夠得到接近於流處理的效果，但其本質上還是批處理（或微批處理）。

1.4 Strom 與 Flink對比

storm 和 Flink 都是真正意義上的實時計算框架。其對比如下：

	storm	flink
狀態管理	無狀態	有狀態
視窗支持	對事件視窗支持較弱，緩存整個視窗的所有數據，視窗結束時一起計算	視窗支持較為完善，自帶一些視窗聚合方法，並且會自動管理視窗狀態
消息投遞	At Most Once At Least Once	At Most Once At Least Once Exactly Once
容錯方式	ACK 機制：對每個消息進行全鏈路跟蹤，失敗或者超時時候進行重發	檢查點機制：通過分散式一致性快照機制，對數據流和運算元狀態進行保存。在發生錯誤時，使系統能夠進行回滾。

註 : 對於消息投遞，一般有以下三種方案：

At Most Once : 保證每個消息會被投遞 0 次或者 1 次，在這種機制下消息很有可能會丟失；

At Least Once : 保證了每個消息會被預設投遞多次，至少保證有一次被成功接收，信息可能有重覆，但是不會丟失；

Exactly Once : 每個消息對於接收者而言正好被接收一次，保證即不會丟失也不會重覆。

二、流處理

2.1 靜態數據處理

在流處理之前，數據通常存儲在資料庫或文件系統中，應用程式根據需要查詢或計算數據，這就是傳統的靜態數據處理架構。Hadoop 採用 HDFS 進行數據存儲，採用 MapReduce 進行數據查詢或分析，這就是典型的靜態數據處理架構。

2.2 流處理

而流處理則是直接對運動中數據的處理，在接收數據的同時直接計算數據。實際上，在真實世界中的大多數數據都是連續的流，如感測器數據，網站用戶活動數據，金融交易數據等等，所有這些數據都是隨著時間的推移而源源不斷地產生。

接收和發送數據流並執行應用程式或分析邏輯的系統稱為流處理器。流處理器的基本職責是確保數據有效流動，同時具備可擴展性和容錯能力，Storm 和 Flink 就是其代表性的實現。

流處理帶來了很多優點：

可以立即對數據做出反應：降低了數據的滯後性，使得數據更具有時效性，更能反映對未來的預期；
可以處理更大的數據量：直接處理數據流，並且只保留數據中有意義的子集，然後將其傳送到下一個處理單元，通過逐級過濾數據，從而降低實際需要處理的數據量；
更貼近現實的數據模型：在實際的環境中，一切數據都是持續變化的，想要通過歷史數據推斷未來的趨勢，必須保證數據的不斷輸入和模型的持續修正，典型的就是金融市場、股票市場，流處理能更好地處理這些場景下對數據連續性和及時性的需求；
分散和分離基礎設施：流式處理減少了對大型資料庫的需求。每個流處理程式通過流處理框架維護了自己的數據和狀態，這使其更適合於當下最流行的微服務架構。

參考資料

更多大數據系列文章可以參見 GitHub 開源項目： 大數據入門指南

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

python連接mysql服務端

python連接mysql的客戶端 MySQL註入問題之前我們進行用戶名密碼認證是先將用戶名和密碼保存到一個文件中，然後通過讀文件裡面的內容，來和客戶端發送過來的用戶名密碼進行匹配，現在我們學了資料庫，我們可以將這些用戶數據保存到資料庫中，然後通過資料庫裡面的數據來對客戶端進行用戶名和密碼的認證。 ...
大數據之路【第十二篇】：數據挖掘--NLP文本相似度

一、詞頻 TF • 假設：如果一個詞很重要，應該會在文章中多次出現 • 詞頻——TF（Term Frequency）：一個詞在文章中出現的次數 • 也不是絕對的！出現次數最多的是“的”“是”“在”，這類最常用的詞，叫做停用詞（stop words）• 停用詞對結果毫無幫助，必須過濾掉的詞 • 過濾掉 ...
ResourceManager學習之ApplicationMaster,NodeManager管理

ApplicationMaster管理部分主要由三個服務構成，分別是ApplicationMasterLauncher、AMLivelinessMonitor和ApplicationMasterService，它們共同管理應用程式的ApplicationMaster的生命周期 Application ...
mysql表的連接

建表前準備 1.笛卡爾積:將兩表所有的數據一一對應,生成一張大表 2.連表查詢 1.inner join 內連接 2.left join 左連接(left join左邊的表為主表,主表記錄必須全部顯示,輔表沒辦法對應上的,就通過null來補全) 3.right join 右連接 4.union 全連 ...
MySQL學習——有關表的操作語句

MySQL學習——有關表的操作語句摘要：本文主要學習了使用DDL語句對錶進行操作的方法。創建表語法表定義選項用來創建定義表的結構，由列名（col_name）、列的定義（column_definition）以及可能的空值說明、完整性約束或表索引組成。實例查看表結構語法實例說明 Nu ...
postgresql資料庫備份和恢復

https://www.cnblogs.com/xiaofoyuan/p/5253332.html PostgreSQL自帶一個客戶端pgAdmin，裡面有個備份，恢覆選項，也能對資料庫進行備份恢復（還原），但最近發現資料庫慢慢龐大的時候，經常出錯，備份的文件過程中出錯的幾率那是相當大，手動調節灰 ...
區分單擊與雙擊

static u8 key_double_click_cnt = 0; if (TASK_BT == task_ctl.work_sta) { if (key_double_click_cnt > 0) { //雙擊超時計時. key_double_click_cnt--; } if(1 == ke ...
給出一個javascript的Helloworld例子

1.基礎知識：Helloworld：例 1.1<html><head> <!-- 如果你用notepad建立一個txt之後你再改為html，一定在存時，要存成utf-8或unicode格式，或者你也可以用 myeclipse html designer，這樣你看的文本是有顏色的，如果覺得字體小，可以 ...