關於Apache Spark "Why Apache Spark" "關於Apache Spark" "如何安裝Apache Spark" " Apache Spark的工作原理" "spark彈性分散式數據集" "RDD持久性" "spark共用變數" "Spark SQL" "Spark Str ...
關於Apache Spark
1
Why Apache Spark
2
關於Apache Spark
3
如何安裝Apache Spark
4
Apache Spark的工作原理
5
spark彈性分散式數據集
6
RDD持久性
7
spark共用變數
8
Spark SQL
9
Spark Streaming
原文鏈接:http://blogxinxiucan.sh1.newtouch.com/2017/07/23/關於Apache-Spark/
Apache Spark是一個開放源碼,Hadoop相容,快速,富於表現力的集群計算平臺。它是在加州大學伯克利分校的AMPLabs創建的,作為伯克利數據分析平臺(BDAS)的一部分。它已經成為一個頂級的Apache項目。圖4顯示了當前Apache Spark堆棧的各種組件。
它有五大優點:
- 閃電的計算速度,因為數據被載入到分散式存儲器(RAM)的機器集群上。可以對數據進行快速轉換,並根據需要進行緩存,以便後續使用。已經註意到,由於記憶體不足,一些數據溢出到磁碟上時,Apache
Spark會比Hadoop Map更快地處理數據,當所有數據都適合記憶體時,數據速度提升10倍。
- 通過Java,Scala,Python,SQL(用於互動式查詢)內置的標準API可以很方便地訪問,並且具有豐富的機器學習庫可用於開箱即用。
- 與現有的Hadoop v1(SIMR)和2.x(YARN)生態系統的相容性使公司能夠利用其現有的基礎架構。
- 方便的下載和安裝過程。方便的shell(REPL:Read-Eval-Print-Loop)互動式學習API。
- 提高生產率,因為高層次結構將重點放在計算內容上。
此外,Spark在Scala中實現,這意味著代碼非常簡潔。