Spark-Unit1-spark概述與安裝部署

-Advertisement-

一、Spark概述 spark官網：spark.apache.org Spark是用的大規模數據處理的統一計算引擎，它是為大數據處理而設計的快速通用的計算引擎。spark誕生於加油大學伯克利分校AMP實驗室。 mapreduce（MR）與spark的對比： 1.MR在計算中產生的結果存儲在磁碟上，s ...

一、Spark概述

　　spark官網：spark.apache.org

　　Spark是用的大規模數據處理的統一計算引擎，它是為大數據處理而設計的快速通用的計算引擎。spark誕生於加油大學伯克利分校AMP實驗室。

　　mapreduce（MR）與spark的對比：

　　　　1.MR在計算中產生的結果存儲在磁碟上，spark存儲在記憶體中；

　　　　2.磁碟運行spark的速度是MR的10倍，記憶體運行spark是MR的100多倍；

　　　　3.spark並不是為了替代Hadoop，而是為了補充Hadoop；

　　　　4.spark沒有存儲，但他可以繼承HDFS。

　　Spark啟用的是記憶體分散式數據集，而Scala語言可以輕鬆的處理分散式數據集，Scala語言可以說是為Spark而生的，而Spark 的出現推動了Scala語言的發展。

二、Spark特點

　　1.速度快

　　　　磁碟運行spark的速度是MR的10倍，記憶體運行spark是MR的100多倍；

　　　　Spark使用最先進的DAG調度程式，查詢優化器和物理執行引擎，實現批處理和流處理的高性能。

　　　　註釋：DAG：有向無環圖，上一個RDD的計算結果作為下一個RDD計算的初始值，可以迭代成千上萬次。

　　　　　　查詢優化器：指的是spark sql

　　　　　　　批處理：spark sql

　　　　　　　流處理：spark streaming

　　2.便於使用

　　　　支持Java/Scala/python/R/SQL編寫應用程式

　　3.通用性高

　　　　不僅支持批處理、流處理，

　　　　還支持機器學習（MLlib:machine learning library）和圖形計算（GraphX）

　　4.相容性高

　　　　Spark運行在Hadoop，Apache Mesos。Kubernetes，獨立或雲端。它可以訪問各種數據源。

　　　　Spark實現了Standalone模式作為內置的資源管理和調度框架。

三、Spark的安裝部署

　　1.準備工作：

　　　　新建三台虛擬機（建議2G記憶體，1G也可以）/使用遠程連接工具連接 / 關閉防火牆 / 修改主機名

　　　　/ 修改映射文件 / 設置免密登陸 / 安裝jdk（1.8以上版本）

　　2.在官網下載spark 安裝包（我是2.2.0版本）

　　　　然後上傳到Linux系統，解壓，刪包，重命名

　　3.修改spark部分配置文件

　　　　進入spark->conf

　　　　1）重命名spark-env.sh.template 為 spark-env.sh，進入該文件

　　　　添加配置信息：

　　　　export JAVA_HOME=/root/sk/jdk1.8.0_132　　　　//jdk安裝路徑

　　　　export SPARK_MASTER_HOST=spark-01　　　　//spark主節點機器名

　　　　export SPARK_MASTER_PORT=7077　　　　　 //spark主機點埠號

　　　　2）重命名slaves.template(好像是這個)為slaves，進入該文件

　　　　刪除最後一行“localhost”

　　　　添加:spark-02

　　　　　　 spark-03　　　　//其他兩台從節點worker，便於一鍵啟動

　　4.發送修改好的spark解壓文件夾到其他兩台機器

　　　　scp -r sprk sprk-02:$PWD

　　5.啟動spark，訪問web頁面

　　　　在spark 的sbin目錄下輸入命令：

　　　　./start-all.sh

　　　　然後通過ip:埠號訪問UI界面，如：

　　　　192.168.50.186:8080

四、Spark的UI界面詳解
　　 URL：統一資源定位符，spark-master的訪問地址
　　REST URL：可以通過rest的方式訪問集群
　　Alive Workers：存活的worker數量
　　cores in use：可以使用的核心數量
　　 Memory in use：可以使用的記憶體大小
　　Applications：正在運行和已經完成的應用程式
　　Driver：通過driver提交的任務情況
　　Status：節點的狀態

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Chrome 如何讓游標快速定位到地址欄-進行搜索

我們經常花費大量的時間來進行使用瀏覽器搜索網頁，如何進行高效的搜索，需要掌握一些快捷鍵：使用這些快捷鍵可以，讓游標快速定位到地址欄進行使用預設引擎搜索！資源來源自網路，保持更新，轉載請註明出處。 ...
Linux文件和目錄的粘滯位(sticky bit)

今天維護系統時發現一個非常詭異的問題：AAA用戶和BBB用戶同屬AAA組，但用AAA用戶創建的文件，許可權設置為777後，還是不能用BBB用戶刪除。詭異！幾經周轉，發現AAA用戶創建文件位置的上層目錄的許可權是drwxrwxrwt,做開發這麼多年了，還沒見過所謂"t"的許可權，於是找了一位公司的linu ...
cobbler網路裝機

cobbler網路裝機原理分析 cobbler簡介 Cobbler通過將設置和管理一個安裝伺服器所涉及的任務集中在一起，從而簡化了系統配置。相當於Cobbler封裝了DHCP、TFTP、XINTED等服務，結合了PXE、kickstart等安裝方法，可以實現自動化安裝操作系統，並且可以同時提供多種 ...
linux kernel 源碼安裝

有時我們在安裝系統後，發現沒有安裝當前系統的內核源碼在/usr/src/kernels目錄下，其實我們是少安裝了一個rpm包；當你配置好yum源後: 更多源碼網址：https://mirrors.tuna.tsinghua.edu.cn/kernel/ 保持更新，轉載請註明出處。 ...
FUSE 用戶空間文件系統（Filesystem in Userspace）

FUSE 倉庫 Wiki FUSE 性能評測關於Fuse文件系統： FUSE (Filesystem in Userspace) is an interface for userspace programs to export a filesystem to the Linux kernel. T ...
附001.kubectl介紹及使用

一 kubectl介紹 1.1 kubectl概要 kubectl控制Kubernetes集群管理器，使用Kubernetes命令行工具kubectl在Kubernetes上部署和管理應用程式。使用kubectl，您可以檢查群集資源; 創建，刪除和更新組件; 看看你的新集群; 並提出示例應用程式。 ...
MySQL 基礎知識梳理學習（四）----GTID

在日常運維中，GTID帶來的最方便的作用就是搭建和維護主從複製。GTID的主從模式代替了MySQL早期版本中利用二進位日誌文件的名稱和日誌位置的做法，使用GTID使操作和維護都變得更加簡潔和可高。 1.GTID的優點（1）基於GTID搭建主從複製根據簡單。（2）可以確保每個事務只會被執行一次。 ...
hadoop wordcout測試

hadoop wordcout測試安裝好hadoop 環境後，啟動HDFS等服務；輸密碼 1004 start-all.sh 查看啟動情況 1006 jps 1007 cd ~ 切換到用戶預設目錄創建數據文件data.txt,輸送值 hello beijing hello China 1028 ...