Spark簡介

-Advertisement-

# Spark Spark是一種快速、通用、可擴展的大數據分析引擎，2009年誕生於加州大學伯克利分校AMPLab，2010年開源，2013年6月成為Apache孵化項目，2014年2月成為Apache的頂級項目，2014年5月發佈spark1.0，2016年7月發佈spark2.0，2020年6月 ...

Spark

Spark是一種快速、通用、可擴展的大數據分析引擎，2009年誕生於加州大學伯克利分校AMPLab，2010年開源，2013年6月成為Apache孵化項目，2014年2月成為Apache的頂級項目，2014年5月發佈spark1.0，2016年7月發佈spark2.0，2020年6月18日發佈spark3.0.0

特點

Hadoop的MapReduce作為第一代分散式大數據計算引擎，在設計之初，受當時電腦硬體條件所限（記憶體、磁碟、cpu等），為了能夠計算海量數據，需要將中間結果保存到HDFS中，那麼就要頻繁讀寫HDFS從而使得網路IO和磁碟IO成為性能瓶頸。Spark可以將中間結果寫到本地磁碟或將中間cache到記憶體中，節省了大量的網路IO和磁碟IO開銷。並且Spark使用更先進的DAG任務調度思想，可以將多個計算邏輯構建成一個有向無環圖，並且還會將DAG先進行優化後再生成物理執行計劃，同時 Spark也支持數據緩存在記憶體中的計算。性能比Hadoop MapReduce快100倍。即便是不將數據cache到記憶體中，其速度也是MapReduce10 倍以上。

• Ease of Use：簡潔易用

Spark支持 Java、Scala、Python和R等編程語言編寫應用程式，大大降低了使用者的門檻。自帶了80多個高等級操作運算元，並且允許在Scala，Python，R 的使用命令進行互動式運行，可以非常方便的在Spark Shell中地編寫spark程式。

• Generality：通用、全棧式數據處理

Spark提供了統一的大數據處理解決方案，非常具有吸引力，畢竟任何公司都想用統一的平臺去處理遇到的問題，減少開發和維護的人力成本和部署平臺的物力成本。同時Spark還支持SQL，大大降低了大數據開發者的使用門檻，同時提供了SparkStream和Structed Streaming可以處理實時流數據；MLlib機器學習庫，提供機器學習相關的統計、分類、回歸等領域的多種演算法實現。其高度封裝的API 介面大大降低了用戶的學習成本；Spark GraghX提供分散式圖計算處理能力；PySpark支持Python編寫Spark程式；SparkR支持R語言編寫Spark程式。

• Runs Everywhere：可以運行在各種資源調度框架和讀寫多種數據源

Spark支持的多種部署方案：Standalone是Spark自帶的資源調度模式；Spark可以運行在Hadoop的YARN上面；Spark 可以運行在Mesos上（Mesos是一個類似於YARN的資源調度框架）；Spark還可以Kubernetes實現容器化的資源調度

豐富的數據源支持。Spark除了可以訪問操作系統自身的本地文件系統和HDFS之外，還可以訪問 Cassandra、HBase、Hive、Alluxio（Tachyon）以及任何 Hadoop相容的數據源。這極大地方便了已經的大數據系統進行順利遷移到Spark。

Spark與MapReduce的對比

面試題：MapReduce和Spark的本質區別：

MR只能做離線計算，如果實現複雜計算邏輯，一個MR搞不定，就需要將多個MR按照先後順序連成一串，一個MR計算完成後會將計算結果寫入到HDFS中，下一個MR將上一個MR的輸出作為輸入，這樣就要頻繁讀寫HDFS，網路IO和磁碟IO會成為性能瓶頸。從而導致效率低下。
spark既可以做離線計算，又可以做實時計算，提供了抽象的數據集（RDD、Dataset、DataFrame、DStream）
有高度封裝的API，運算元豐富，並且使用了更先進的DAG有向無環圖調度思想，可以對執行計劃優化後在執行，並且可以數據可以cache到記憶體中進行復用，shuffle時，數據可以不排序

註意：MR和Spark在Shuffle時數據都落本地磁碟

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

使用python發送sip協議的OPTIONS

環境：Windows10_x64 Python版本：3.9.2 sip協議提供了OPTIONS請求方法可用於探測對端狀態，今天記錄下Windows10環境下使用python3.9簡單實現sip協議的options功能（udp承載）的過程，並提供示例代碼及相關資源下載，可從如下渠道獲取：關註微信公 ...
在Windows11平臺安裝JDK11（雙11）

# 前言本文主要是詳細講解在 Windows 11 系統上安裝 JDK 11，安裝時有一些註意事項需要說明。與 JDK 8 的安裝過程有少許不一樣。 # 一、安裝前說明 ## 1.系統要求在微軟 Windows 11 平臺上安裝 JDK 11，首先我們看一下在64位 Windows 平臺上安裝 ...
Maven 入門實戰(1)--簡介及安裝

Maven 是一種軟體項目管理和理解工具；它基於項目對象模型（POM），從中央位置管理項目的構建、報告和文檔，並幫助開發人員輕鬆管理依賴項並自動化構建過程。 1、簡介 1.1、項目目錄 Maven 使用約定優於配置的原則，提倡使用一個共同的標準目錄結構。目錄說明 ${basedir} 項目根目錄， ...
一天吃透MySQL面試八股文

> 內容摘自我的學習網站：topjavaer.cn ## 什麼是MySQL MySQL是一個關係型資料庫，它採用表的形式來存儲數據。你可以理解成是Excel表格，既然是表的形式存儲數據，就有表結構（行和列）。行代表每一行數據，列代表該行中的每個值。列上的值是有數據類型的，比如：整數、字元串、日期等等 ...
小試Blazor——實現Ant Design Blazor動態表單

大家好，我是沙漠盡頭的狼。網站使用Blazor重構上線一天了，用Blazor開發是真便捷，空閑時間查查gpt和github，又上線一個 [正則表達式線上驗證工具](https://dotnet9.com/tools/regextester) 和幾個線上小游戲，比如 [井字棋游戲](https:// ...
WPF 入門筆記 - 06 - 命令

在`WPF`中，命令是一種用於處理用戶交互操作的機制。它將操作行為與界面元素解耦，使得界面元素可以通過命令進行觸發和執行相應的邏輯。`WPF`中的命令模型通過`ICommand`介面和相關的實現類來實現。命令模式的設計思想是將命令的發送者（例如按鈕）與命令的執行者（例如視圖模型中的方法）解耦，使得它... ...
centos7-datax和datax-web安裝以及安裝中問題的解決

問題應該算挺常見的但是一句話還挺難說清楚，所以百度特別難搜。場景就是，有一堆以員工名稱命名的文件（名稱可能還有字母數字等前尾碼），現在給定一個員工清單，需要從這些文件中篩選出員工清單上列出的員工的文件，並複製到另外一個目錄中。輸入： 1. 許多文件名包含員工名稱的文件 2.一個清單文件，裡面包含 ...
ps插件Camera Raw新增功能讓您的智能修圖更簡單~

哈嘍大家好，我是鹹魚今天跟大家分享一個關於 zabbix Timeout 值設置不當導致的問題，這個問題不知道大家有沒有碰到過 ## 問題事情經過是這樣的：把某一臺 zabbix agent 的模板由原來的 `Template OS Windows by Zabbix agent` 換成了 ` ...