Spark環境搭建及Spark shell

-Advertisement-

# StandAlone模式環境搭建環境準備：三台Linux，一個安裝Master，其他兩台機器安裝Worker ![image](https://img2023.cnblogs.com/blog/1742816/202306/1742816-20230627212426287-907092698 ...

StandAlone模式環境搭建

環境準備：三台Linux，一個安裝Master，其他兩台機器安裝Worker

下載spark安裝包，下載地址：https://spark.apache.org/downloads.html
上傳spark安裝包到Linux伺服器上
解壓spark安裝包

tar -zxvf spark-3.2.3-bin-hadoop3.2.tgz -C /opt/apps

進入到spark按照包目錄並將conf目錄下的spark-env.sh.template重命名為spark-env.sh，再修改

export JAVA_HOME=/usr/local/jdk1.8.0_251/
export SPARK_MASTER_HOST=linux01

將conf目錄下的workers.template重命名為workers並修改，指定Worker的所在節點

linux02
linux03

將配置好的spark拷貝到其他節點

for i in {2..3}; do scp -r spark-3.2.3-bin-hadoop3.2 linux0$i:$PWD; done

啟動Spark集群

sbin/start-all.sh

執行jps命令查看Java進程

jps

在ndoe-1上可以看見Master進程，在其他的節點上可以看見到Worker進程

訪問Master的web管理界面，埠8080

一些重要參數

export SPARK_WORKER_CORES=4    #指定worker可用的邏輯核數
export SPARK_WORKER_MEMORY=2g  #指定worker可用的記憶體大小

standalone模式高可用部署

spark的standalone模式可以啟動兩個以上的Master，但是需要依賴zookeeper進行協調，所有的節點啟動後，都向zk註冊

修改配置文件spark-env.sh

 # 註釋掉master的地址，所有節點都先連接zookeeper
 # export SPARK_MASTER_HOST=linux01
 export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=linux01:2181,linux02:2181,linux03:2181 -Dspark.deploy.zookeeper.dir=/spark"

啟動Spark Shell編程

spark shell是spark中的互動式命令行客戶端，可以在spark shell中使用scala編寫spark程式，啟動後預設已經創建了SparkContext，別名為sc

/opt/apps/spark-3.2.3-bin-hadoop3.2/bin/spark-shell \
--master spark://linux01:7077 --executor-memory 1g \
--total-executor-cores 3

如果Master配置了HA高可用，需要指定兩個Master（因為這兩個Master任意一個都可能是Active狀態）

/bigdata/spark-3.2.3-bin-hadoop3.2/bin/spark-shell \
--master spark://linux01:7077,linux02:7077 \
--executor-memory 1g \
--total-executor-cores 3

參數說明：
--master 指定masterd地址和埠，協議為spark://，埠是RPC的通信埠
--executor-memory 指定每一個executor的使用的記憶體大小
--total-executor-cores指定整個application總共使用了cores

在shell中編寫第一個spark程式

sc.textFile("hdfs://linux01:9000/words.txt").flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).sortBy(_._2,false).saveAsTextFile("hdfs://linux01:9000/out")

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Docker 中的 .NET 異常了怎麼抓 Dump

## 一：背景 ### 1. 講故事有很多朋友跟我說，在 Windows 上看過你文章知道了怎麼抓 Crash, CPU爆高，記憶體暴漲等各種Dump，為什麼你沒有寫在 Docker 中如何抓的相關文章呢？瞧不上嗎？哈哈，在DUMP的分析旅程中，跑在 Docker 中的 .NET 占比真的不多， ...
VS依賴註入(DI)構造函數自動生成局部私有變數

依賴註入(DI)在開發中既是常見的也是必需的技術。它幫助我們優化了代碼結構，使得應用更加靈活、易於擴展，同時也降低了各個模塊之間的耦合度，更容易進行單元測試，提高了編碼效率和質量。我們經常會先定義局部變數，再在構造函數中使用，每次都要這樣去編寫耗時，下麵通過VS自帶功能，可以給我方便的生成，節省時間... ...
Prism導航

在日常的工作生產中，經常會有將將生產數據或者一些信息主動推送給相關的管理人員，我們公司在開發WMS系統時，為了倉庫的儲存安全，需要在危廢品庫存達到一定的儲量時，自動通知倉管員去處理危廢品，所以就需要程式自動的通過企業微信告知倉管員，這個時候就需要用到企業微信的機器人了。現在我所知道的企業微信機器人 ...
Linux 可執行文件瘦身指令 strip 使用示例

在 Linux 系統下開發軟體，輸出的可執行文件可大可小，運行環境如果是在伺服器那麼可能資源比較充足，但如果是在嵌入式環境，那麼存儲資源是寸土必爭的。所以會有對可執行文件進行瘦身的需求，比如使用指令 strip。 ...
解決Ubuntu開機後提示“不完整的語言支持”問題

Ubuntu系統開機後總是提示“不完整語言支持”是一個存在已久的bug，一直未被修複，表現為點擊如圖所示更新信息中的“現在執行此動作”並不會安裝任何組件，每次開機自檢後都會提示。 ![](https://img2023.cnblogs.com/blog/3206341/202306/3206341- ...
電腦網路那些事之 MTU 篇

哈嘍大家好，我是鹹魚今天我們來聊聊電腦網路中的 MTU （Maximum Transmission Unit）什麼是 MTU ? MTU（Maximum Transmission Unit）是指數據鏈路層中的最大傳輸單元通俗點來講，MTU 是指數據鏈路層能夠傳輸的最大數據幀的大小（以位元組為單 ...
記錄一次系統訪問https報證書過期的問題

本人近期看到稚暉君的Linux - Card 的相關視頻介紹，看到它極大的方便，整體只需Type-C即可供電並且算力滿足目前所需要求，功能也不少。於是火速下單，從Speed Studio購入。到貨後先認識這個開發套件的外觀，可以說是非常小巧，能夠滿足大部分需求。當我用Type-C供電時發現並沒有 ...
MySQL安裝與卸載

## **MySQL安裝** ## 下載地址官網下載地址：[https://dev.mysql.com/downloads/mysql/](https://dev.mysql.com/downloads/mysql/) ![如圖](https://img-blog.csdnimg.cn/14637 ...