一 快速性 如果在記憶體中運行MapRaduce,要比Hadoop快100倍 如果在磁碟中運行,要比Hadoop快10倍 Spark使用先進的有向無環圖執行引擎來支持非迴圈的數據流在記憶體中計算 二 易用性 Spark提供超過80個高階運算元,這些運算元使其很容易構建並行應用 這些運算元支持多種語言 按照切合 ...
一 快速性
如果在記憶體中運行MapRaduce,要比Hadoop快100倍
如果在磁碟中運行,要比Hadoop快10倍
Spark使用先進的有向無環圖執行引擎來支持非迴圈的數據流在記憶體中計算
二 易用性
Spark提供超過80個高階運算元,這些運算元使其很容易構建並行應用
這些運算元支持多種語言 按照切合度排序為 Scala, Python, R
三 通用性
Spark有一個強大的堆庫,包括SQL and DataFrames, MLlib for machine learning, GraphX, and Spark Streaming
你可以在同一個應用中無縫的組合使用這些庫
四 跨平臺性(可運行在任何地方)
Spark可以運行在Hadoop, Mesos, standalone, or in the cloud
他可以訪問不同的數據源包括HDFS, Cassandra, HBase, and S3.