弄清Spark、Storm、MapReduce的這幾點區別才能學好大數據

-Advertisement-

很多初學者在剛剛接觸大數據的時候會有很多疑惑，比如對MapReduce、Storm、Spark三個計算框架的理解經常會產生混亂。哪一個適合對大量數據進行處理？哪一個又適合對實時的流數據進行處理？又該如何來區分他們呢？我對比整理了這3個計算框架的基本知識，大家可以瞭解一下以便對這個3個計算框架有一 ...

很多初學者在剛剛接觸大數據的時候會有很多疑惑，比如對MapReduce、Storm、Spark三個計算框架的理解經常會產生混亂。

哪一個適合對大量數據進行處理？哪一個又適合對實時的流數據進行處理？又該如何來區分他們呢？

我對比整理了這3個計算框架的基本知識，大家可以瞭解一下以便對這個3個計算框架有一個整體的認識。
大數據學習群119599574

弄清Spark、Storm、MR的這幾點區別才適合學習大數據

MapReduce

分散式離線計算框架
主要適用於大批量的集群任務，由於是批量執行，故時效性偏低。
原生支持 Java 語言開發 MapReduce ，其它語言需要使用到 Hadoop Streaming 來開發。

弄清Spark、Storm、MR的這幾點區別才適合學習大數據

Spark

Spark 是專為大規模數據處理而設計的快速通用的計算引擎，其是基於記憶體的迭代式計算。
Spark 保留了MapReduce 的優點，而且在時效性上有了很大提高，從而對需要迭代計算和有較高時效性要求的系統提供了很好的支持。
開發人員可以通過Java、Scala或者Python等語言進行數據分析作業編寫，並使用超過80種高級運算符。
Spark與HDFS全面相容，同時還能與其它Hadoop組件—包括YARN以及HBase並行協作。
Spark可以被用於處理多種作業類型，比如實時數據分析、機器學習與圖形處理。多用於能容忍小延時的推薦與計算系統。

弄清Spark、Storm、MR的這幾點區別才適合學習大數據

Storm

Storm是一個分散式的、可靠的、容錯的流式計算框架。
Storm 一開始就是為實時處理設計，因此在實時分析/性能監測等需要高時效性的領域廣泛採用。
Storm在理論上支持所有語言，只需要少量代碼即可完成適配。
Storm把集群的狀態存在Zookeeper或者本地磁碟，所以後臺進程都是無狀態的（不需要保存自己的狀態，都在zookeeper上），可以在不影響系統健康運行的同時失敗或重啟。
Storm可應用於--數據流處理、持續計算（持續地向客戶端發送數據，它們可以實時的更新以及展現數據，比如網站指標）、分散式遠程過程調用（輕鬆地並行化CPU密集型操作）。

弄清Spark、Storm、MR的這幾點區別才適合學習大數據

如何用4個月學會Hadoop開發並找到年薪25萬工作？

免費分享一套18年最新Hadoop大數據教程和100道Hadoop大數據必會面試題。

大數據學習群119599574

教程已幫助300+人成功轉型Hadoop開發，90%起薪超過20K，工資比之前翻了一倍。

由百度Hadoop核心架構師（T7級別）親自錄製。

內容包括0基礎入門、Hadoop生態系統、真實商業項目實戰3大部分。其中商業案例可以讓你接觸真實的生產環境，訓練自己的開發能力。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

MySQL(2)：SQL進階

一、資料庫相關理論 1、系統資料庫 information_schema：虛擬庫，不占用磁碟空間，存儲的是資料庫啟動後的一些參數，如用戶表信息、列信息、許可權信息、字元信息等performance_schema： MySQL 5.5開始新增一個資料庫：主要用於收集資料庫伺服器性能參數，記錄處理查詢請 ...
深入理解Redis高可用方案-Sentinel

Redis Sentinel是Redis的高可用方案。是Redis 2.8中正式引入的。在之前的主從複製方案中，如果主節點出現問題，需要手動將一個從節點升級為主節點，然後將其它從節點指向新的主節點，並且需要修改應用方主節點的地址。整個過程都需要人工干預。下麵通過日誌具體看看Sentinel的切換 ...
mongo數據集合屬性中存在點號(.)

基本知識點： 1.似乎mongo3.6之前不允許插入帶點（.）或美元符號（$）的鍵，但是當我使用mongoimport工具導入包含點的JSON文件時，它工作正常。 2.在使用spring-data-mongodb處理mongodb的增刪改查時會通過一個MappingMongoConverter(Do ...
SQL建表及增刪改查

數據表的建立和刪除： (瞭解) CREATE TABLE 數據表名稱(欄位1 類型1(長度),欄位2 類型2(長度) …… ) DROP TABLE 數據表名稱 (永久性刪除一個數據表) SQL插入數據語法： sql=“INSERT INTO 數據表 (欄位1,欄位2,欄位3 …) VALUES ( ...
工作日交易數據的閃電快速分析

在本文中，我們將分享在為事務性數據構建高度可伸縮的多租戶分析服務時所吸取的教訓。我們將從大局和業務需求開始。然後描述具有用於數據準備、發佈和查詢引擎的批處理和互動式模塊的體繫結構，並註意相關的Spark技術。然後我們將深入Prism查詢引擎的內部，重點介紹所使用的Spark SQL、DataFram ...
大型矩陣分析與推理

本章屬於總結章節，從矩陣的基礎知識講起，介紹了協方差、橢圓對稱矩陣、Dyads、Directional variance（方向差）等知識並從而擴展到了概率論知識例如貝葉斯公式，Bayes Rule for density matrices等，並用簡潔有力的語言總結了主成分分析的執行思想。資源下載 ...
hadoop的企業優化

前言： Mapreduce程式的效率的瓶頸在於兩點： MapReduce優化方法數據輸入：（1）合併小文件：在執行任務前將小文件進行合併（2）採用CombineTextInputformat來作為輸入，解決輸入端大量小文件的場景。將多個小文件從邏輯上規划到一個切片中，這樣，多個小文件就可以交給 ...
使用數據流引擎進行大型矩陣操作

現如今，數據增長速度快於處理速度，唯一的解決方案是在大型集群上並行化，而且這種技術以及廣泛應用於企業和網路行業。本章主要內容有：講解數據流與傳統的網路編程的區別、MapReduce的局限性、Spark computing engine、Matrix operations on Spark等。資源下 ...