2.關於Apache Spark_ZenDei技術網路在線

2.關於Apache Spark

-Advertisement-

關於Apache Spark "Why Apache Spark" "關於Apache Spark" "如何安裝Apache Spark" " Apache Spark的工作原理" "spark彈性分散式數據集" "RDD持久性" "spark共用變數" "Spark SQL" "Spark Str ...

關於Apache Spark

1 Why Apache Spark
2 關於Apache Spark
3 如何安裝Apache Spark
4 Apache Spark的工作原理
5 spark彈性分散式數據集
6 RDD持久性
7 spark共用變數
8 Spark SQL
9 Spark Streaming

原文鏈接：http://blogxinxiucan.sh1.newtouch.com/2017/07/23/關於Apache-Spark/

Apache Spark是一個開放源碼，Hadoop相容，快速，富於表現力的集群計算平臺。它是在加州大學伯克利分校的AMPLabs創建的，作為伯克利數據分析平臺（BDAS）的一部分。它已經成為一個頂級的Apache項目。圖4顯示了當前Apache Spark堆棧的各種組件。

它有五大優點：

閃電的計算速度，因為數據被載入到分散式存儲器（RAM）的機器集群上。可以對數據進行快速轉換，並根據需要進行緩存，以便後續使用。已經註意到，由於記憶體不足，一些數據溢出到磁碟上時，Apache
Spark會比Hadoop Map更快地處理數據，當所有數據都適合記憶體時，數據速度提升10倍。
通過Java，Scala，Python，SQL（用於互動式查詢）內置的標準API可以很方便地訪問，並且具有豐富的機器學習庫可用於開箱即用。
與現有的Hadoop v1（SIMR）和2.x（YARN）生態系統的相容性使公司能夠利用其現有的基礎架構。
方便的下載和安裝過程。方便的shell（REPL：Read-Eval-Print-Loop）互動式學習API。
提高生產率，因為高層次結構將重點放在計算內容上。

此外，Spark在Scala中實現，這意味著代碼非常簡潔。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

MapReduce筆記——技術點彙總

目錄 · 概況 · 原理 · MapReduce編程模型 · MapReduce過程 · 容錯機制 · API · 概況 · WordCount示例 · Writable介面 · Mapper類 · Reducer類 · Partitioner抽象類 · WritableComparator介面 · ...
頁和區

SQL Server 中數據存儲的基本單位是頁。為資料庫中的數據文件（.mdf 或 .ndf）分配的磁碟空間可以從邏輯上劃分成頁（從 0 到 n 連續編號）。磁碟 I/O 操作在頁級執行。也就是說，SQL Server 讀取或寫入所有數據頁。區是八個物理上連續的頁的集合，用來有效地管理頁。所有頁都 ...
YARN筆記——技術點彙總

目錄 · 概況 · 原理 · 資源調度器分類 · YARN架構 · ResourceManager · NodeManager · ApplicationMaster · Container · YARN工作流程 · YARN資源調度 · 操作 · Overview · User Commands ...
HDFS筆記——技術點彙總

目錄 · 概況 · 原理 · HDFS 架構 · 塊 · NameNode · SecondaryNameNode · fsimage與edits合併 · DataNode · 數據讀寫 · 容錯機制 · 數據完整性 · NameNode HA · NameNode Federation · HDF ...
MySQL入門

1. mysql是一種常用的資料庫管理軟體，優點有：免費，開源，跨平臺，本文只是介紹一下MySQL的簡單操作 2.資料庫的基本結構可以把資料庫理解成一個文件夾，資料庫中的數據存放的單位是表，可以理解為excel表格，表格的表頭稱為欄位，表中的每一條數據稱為記錄 3.MySQL安裝 1.從官網下載 ...
SQLite busy handler

SQLite doesn't support high concurrency. In case of a lot of concurrent access from multi-process or multi-thread, calling a SQLite r/w function is pr ...
oracle-視圖(view)

一、視圖的定義視圖也稱為虛表，視圖本身不占用物理存儲空間，視圖存放於數據字典中，簡單的來說視圖可以看做是sql語句的集合。視圖從資料庫中的表產生，這些表稱為視圖的基表，一個視圖可以從另一個視圖中產生。視圖看上去非常象資料庫的物理表，對它的操作同任何其它的表一樣。當通過視圖修改數據時，實際上是在改 ...
MySQL Cluster

本文介紹了MySQL Cluster的概念和架構，並通過幾個實例詳細討論了Cluster的配置方法，啟動關閉，常用維護方法的概念。 ...