spark安裝和提交程式測試

来源:https://www.cnblogs.com/gongxiaoyang/archive/2018/03/02/8494266.html
-Advertisement-
Play Games

1. 安裝 1.1. 下載spark安裝包 下載地址spark官網:http://spark.apache.org/downloads.html 這裡我們使用 spark-1.6.2-bin-hadoop2.6版本. 1.2. 規劃安裝目錄 /opt/bigdata 1.3. 解壓安裝包 tar - ...


1. 安裝

1.1.  下載spark安裝包

下載地址spark官網:http://spark.apache.org/downloads.html

這裡我們使用 spark-1.6.2-bin-hadoop2.6版本.

 

1.2. 規劃安裝目錄

/opt/bigdata

1.3. 解壓安裝包

tar -zxvf spark-1.6.2-bin-hadoop2.6.tgz

1.4. 重命名目錄

mv spark-1.6.2-bin-hadoop2.6 spark

1.5. 修改配置文件

配置文件目錄在 /opt/bigdata/spark/conf

vi spark-env.sh 修改文件(先把spark-env.sh.template重命名為spark-env.sh)

 

 

#配置java環境變數

export JAVA_HOME=/opt/bigdata/jdk1.7.0_67

#指定spark老大Master的IP

export SPARK_MASTER_IP=node1

#指定spark老大Master的埠

export SPARK_MASTER_PORT=7077

 

vi slaves 修改文件(先把slaves.template重命名為slaves)

node2

node3

1.6. 拷貝配置到其他主機

通過scp 命令將spark的安裝目錄拷貝到其他機器上

 scp -r spark-2.0.2-bin-hadoop2.7/ root@node2:$PWD --拷貝到當前目錄

scp -r /opt/bigdata/spark hdp-node-02:/opt/bigdata

scp -r /opt/bigdata/spark hdp-node-03:/opt/bigdata

 

1.7. 配置spark環境變數

spark添加到環境變數,添加以下內容到 /etc/profile

 

export SPARK_HOME=/opt/bigdata/spark

export PATH=$PATH:$SPARK_HOME/bin

註意最後 source /etc/profile 刷新配置

3.7 啟動spark

#在主節點上啟動spark

/opt/bigdata/spark/sbin/start-all.sh

 

3.8 停止spark

#在主節點上停止spark集群

/opt/bigdata/spark/sbin/stop-all.sh

3.9 spark的web界面

正常啟動spark集群後,可以通過訪問 http://hdp-node-01:8080,查看spark的web界面,查看相關信息。

2. Spark HA高可用部署

2.1. 高可用部署說明

Spark Standalone集群是Master-Slaves架構的集群模式,和大部分的Master-Slaves結構集群一樣,存在著Master單點故障的問題。如何解決這個單點故障的問題,Spark提供了兩種方案:

  1. 基於文件系統的單點恢復(Single-Node Recovery with Local File System)。

主要用於開發或測試環境。當spark提供目錄保存spark Application和worker的註冊信息,並將他們的恢復狀態寫入該目錄中,這時,一旦Master發生故障,就可以通過重新啟動Master進程(sbin/start-master.sh),恢復已運行的spark Application和worker的註冊信息。

2)基於zookeeper的Standby Masters(Standby Masters with ZooKeeper)。

用於生產模式。其基本原理是通過zookeeper來選舉一個Master,其他的Master處於Standby狀態。將Standalone集群連接到同一個ZooKeeper實例並啟動多個Master,利用zookeeper提供的選舉和狀態保存功能,可以使一個Master被選舉,而其他Master處於Standby狀態。如果現任Master死去,另一個Master會通過選舉產生,並恢復到舊的Master狀態,然後恢復調度。整個恢復過程可能要1-2分鐘。

2.2. 基於zookeeper的Spark HA高可用集群配置機器都改成一樣的

HA方案使用起來很簡單,首先啟動一個ZooKeeper集群,然後在不同節點上啟動Master,註意這些節點需要具有相同的zookeeper配置。

配置:

(1)vim spark-env.sh

註釋掉export SPARK_MASTER_IP=node1

(2)在spark-env.sh添加SPARK_DAEMON_JAVA_OPTS,內容如下:

export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=node1:2181,node2:2181,node3:2181 -Dspark.deploy.zookeeper.dir=/spark"

參數說明

spark.deploy.recoveryMode:恢復模式(Master重新啟動的模式)

有三種:(1)ZooKeeper (2) FileSystem (3)NONE

spark.deploy.zookeeper.url:ZooKeeper的Server地址

spark.deploy.zookeeper.dir:保存集群元數據信息的文件、目錄。

包括Worker,Driver和Application。

註意:

在普通模式下啟動spark集群,只需要在主機上面執行start-all.sh 就可以了。

 

高可用模式下啟動spark集群,先需要在任意一臺主節點上啟動start-all.sh命令。然後在另外一臺主節點上單獨啟動master。命令sbin/start-master.sh。 

查看zk註冊 命令-zkCli.sh ls / --查看註冊的服務

 

3. Spark啟動方式

3.1. spark 提交任務方式

 

3.1.1. spark on yarn

$ ./bin/spark-submit--class org.apache.spark.examples.SparkPi \

    --master yarn-cluster \

    --num-executors 3 \

    --driver-memory 4g \

    --executor-memory 2g \

    --executor-cores 1 \

    --queue thequeue \

    lib/spark-examples*.jar \

    10

 

2)、spark on yarn提交任務時:在yarn-cluster的集群模式,驅動程式運行在不同的機器比客戶端,所以sparkcontext.addjar不會解決的是客戶端的本地文件盒。在可sparkcontext.addjar客戶端文件,包括他們的——jars選項在啟動命令。

$ ./bin/spark-submit--class my.main.Class \

    --master yarn-cluster \

    --jarsmy-other-jar.jar,my-other-other-jar.jar

    my-main-jar.jar

    app_arg1 app_arg2

 

3.1.2. 測試spark自帶的Pi程式,

./bin/spark-submit--class org.apache.spark.examples.SparkPi \

--master yarn-cluster\

--num-executors 1 \

--driver-memory 1g \

--executor-memory 1g \

--executor-cores 1 \

lib/spark-examples*.jar\

 

3.1.3. spark-submit

spark-submit測試PI

Sparkbin子目錄中的spark-submit腳本是用於提交程式到集群中運行的工具,我們使用此工具做一個關於pi的計算。命令如下:

./bin/spark-submit --master spark://spark113:7077 \

--class org.apache.spark.examples.SparkPi \  --name Spark-Pi --executor-memory 400M \  --driver-memory 512M \  

/home/hadoop/spark-1.0.0/examples/target/scala-2.10/spark-examples-1.0.0-hadoop2.0.0-cdh4.5.0.jar    

 

spark-submit 測試:

/home/hadoop/spark/spark-1.3.0-bin-hadoop2.4/bin/spark-submit\

--classorg.apache.spark.examples.SparkPi \

--masterspark://192.168.6.71:7077 \

--executor-memory100m \

--executor-cores 1 \

1000

 

3.2. 以集群的模式啟動spark-shell

./spark-shell  --master spark://hadoop1:7077 --executor-memory  500m

 

 

3.3. Spark 啟動方式:

3.3.1. 本地模式啟動

spark./spark-shell  --master local[2]        註意:可以指定多個線程

3.3.2. 集群模式啟動spark

[hadoop@hadoop1 spark-1.3.0-bin-hadoop2.4]$ ./bin/spark-shell --masterspark://hadoop1:7077 --executor-memory500m    

註意:此啟動方式指定了spark-shell 運行時暫用的每個機器上executor 的記憶體為500m

spark-shell --masteryarn-client --driver-memory 10g --num-executors 20 --executor-memory 20g--executor-cores 3 --queue spark

 

3.3.3. Python解釋器中啟動spark

bin/pyspark--master local[3]

3.3.4. R語言的解釋器中啟動spark

bin/sparkR --master local[2]

3.3.5. yarn的方式啟動spark:  

yarn集群啟動spark$ ./bin/spark-shell --master yarn-cluster  

    yarn客戶端啟動spark$ ./bin/spark-shell --masteryarn-client

spark-sql --masteryarn-client --driver-memory 10g --num-executors 20 --executor-memory 20g--executor-cores 3 --queue spark

spark-sql --masterspark://master:7077 --driver-memory 10g --executor-memory 20g --driver-cores 3 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • ASOC的出現是為了讓codec獨立於CPU,減少和CPU之間的耦合,這樣同一個codec驅動就無需修改就可以匹配任何一款平臺。 在Machine中已經知道,snd_soc_dai_link結構就指明瞭該Machine所使用的Platform和Codec。在Codec這邊通過codec_dai和Pl ...
  • 既然Windows API編程是與Windows操作系統進行交互,所以就必須對Windows操作系統如何運行應用程式的原理搞清楚。 1、保護模式 操作系統是依附於cpu硬體的,所以操作系統所具備的功能也是cpu所給予的。Intel的32位CPU有兩種主要的模式:實模式和保護模式。Dos操作系統就是運 ...
  • KeepAlived系列文章:http://www.cnblogs.com/f-ck-need-u/p/7576137.html 本文目錄:1. keepalived+lvs:健康狀況檢查示例2. keepalived+lvs:高可用+健康檢查示例3. keepalived+lvs:多實例+高可用( ...
  • Docker是什麼? Docker是一個虛擬環境容器,可以將你的環境、代碼、配置文件等一併打包到這個容器中,併發布和應用到任意平臺中。比如,你在本地部署了git,jenkins等,可以將其與插件一併打包到容器中,部署到任何你想部署的環境。簡單而迅速 Docker的三個概念 Ubuntu Docker ...
  • 今天啟動虛擬機,ssh服務起不來,提示如下: Starting sshd: /usr/sbin/sshd: error while loading shared libraries: libcrypto.so.10: cannot open shared object file: No such f ...
  • 請耐心閱讀,下麵有驚喜! 1.創建資料庫 2.創建各表(表結構;約束) 3.添加/插入 數據 4.查詢數據 5.修改數據 6.刪除數據 輔助blog MySQL 獲得當前日期時間 函數 獲得當前日期+時間(date + time)函數:now() mysql> select now(); + +| ...
  • The Employee table holds all employees including their managers. Every employee has an Id, and there is also a column for the manager Id. + + + + + | ...
  • problem: Write a SQL query to rank scores. If there is a tie between two scores, both should have the same ranking. Note that after a tie, the next ra ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...