hadoop和spark的區別_ZenDei技術網路在線

hadoop和spark的區別

-Advertisement-

hadoop是基於磁碟的，它的運算結果保存在磁碟當中；而spark的運算是基於記憶體的。因此spark的運算速度是 hadoop的100倍；即使在磁碟當中運算，spark也是hadoop的10倍左右，原因就是spark具有優秀的作業調度策略。故spark的速度快與hadoop的兩個原因：（1）sp ...

hadoop是基於磁碟的，它的運算結果保存在磁碟當中；而spark的運算是基於記憶體的。因此spark的運算速度是

hadoop的100倍；即使在磁碟當中運算，spark也是hadoop的10倍左右，原因就是spark具有優秀的作業調度策略。

故spark的速度快與hadoop的兩個原因：

（1）spark是基於記憶體，hadoop基於磁碟：

在hadoop中HDFS用於數據的存儲，MapReduce用於計算。 MapReduce：從磁碟中讀取文件->把迭代結果存儲到磁碟中->再從磁碟中讀取文件->.................. Spark:從磁碟中讀取文件->把迭代後的結果存儲到記憶體當中->再從記憶體中讀取數據->.................. Spark的計算速度是hadoop的100倍，即使再磁碟中操作數據也是hadoop的10倍。

（2）spark具有優秀的作業調度策略（使用了有向無環圖，關於這部分會在RDD學習模塊中介紹）。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

超詳細的 Linux CentOS yum 源的配置與使用【轉發+新增】

一、yum 簡介 yum，是Yellow dog Updater, Modified 的簡稱，是杜克大學為了提高RPM 軟體包安裝性而開發的一種軟體包管理器。起初是由yellow dog 這一發行版的開發者Terra Soft 研發，用python 寫成，那時還叫做yup(yellow dog up ...
HDFS High Availability Using the Quorum Journal Manager

http://hadoop.apache.org/docs/r2.9.0/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html 背景在Hadoop 2.0.0以前，在一個HDFS集群中NameNode存在單點故障。每個集群 ...
HDFS Federation

http://hadoop.apache.org/docs/r2.9.0/hadoop-project-dist/hadoop-hdfs/Federation.html Background HDFS有兩個主要的層： Namespace 由目錄、文件和塊組成它支持所有的文件系統命名空間操作，比如， ...
mysql下，保存時間時具體時間丟失，只保存了日期的問題

這邊將日誌信息記入資料庫時，發現資料庫日誌具體時間丟失，只保留了日期。我這邊環境是（SRPINGMVC+Mybatis，mysql版本5.6.28以上），java層使用類型為java.util.Date，數據欄位類型為date 參考了一些網上的說法，基本描述是說： date：只有日期，沒有時間，2 ...
mysql 查兩個表之間的數據差集

需要查兩個表之間的差集首先，想到的是主鍵直接not in 好吧！這個是可以，但是數據多了的話，想到這個查詢的邏輯有點受不住於是再改為下麵的這樣：利用了left join的，然後進行對比，並且利用where進行篩選。後面也在網上找了這條：概念上與第二條同理。好吧！回顧了一下left jo ...
redis詳解(持續更新)

Redis概述 Redis是一種key-value型資料庫，運行於記憶體中，與它相似的資料庫有memcached，現在基本被Redis替代。 Redis適用場景我們要與傳統的關係型資料庫進行對比才能更好的瞭解與使用Redis 1.高併發場景， redis是個單線程的程式對於純記憶體操作如hash查找可 ...
(Les15 Generating Reports by GroupingRelated Data)[20171226]

學習目標： -使用ROLLUP操作符產生小計值 -使用CUBE操作符產生交叉製表 -使用GROUPING函數來標識ROLLUP或CUBE運算符生成的結果集中的聚合級別 -使用GROUPING SETS生成一個相當於UNION ALL方法的結果集 ROLLUP操作符 SELECT [column,] ...
RDD介紹

（本人初次接觸spark可能有些地方理解的不夠到位，希望各位讀者多多指正，對於不恰當的地方也會進行改進） 1、RDD定義：是彈性分散式數據集，是分佈到各個節點的數據集合，具有自動容錯性、位置感知調度和可伸縮性等。 2、RDD的特性： 2.1 分區（partition）分區是RDD的基本組成單位（s ...