Spark環境搭建及Spark shell

来源:https://www.cnblogs.com/paopaoT/archive/2023/06/27/17509968.html
-Advertisement-
Play Games

# StandAlone模式環境搭建 環境準備:三台Linux,一個安裝Master,其他兩台機器安裝Worker ![image](https://img2023.cnblogs.com/blog/1742816/202306/1742816-20230627212426287-907092698 ...


StandAlone模式環境搭建

環境準備:三台Linux,一個安裝Master,其他兩台機器安裝Worker
image

  1. 下載spark安裝包,下載地址:https://spark.apache.org/downloads.html
  2. 上傳spark安裝包到Linux伺服器上
  3. 解壓spark安裝包
tar -zxvf spark-3.2.3-bin-hadoop3.2.tgz -C /opt/apps
  1. 進入到spark按照包目錄並將conf目錄下的spark-env.sh.template重命名為spark-env.sh,再修改
export JAVA_HOME=/usr/local/jdk1.8.0_251/
export SPARK_MASTER_HOST=linux01
  1. 將conf目錄下的workers.template重命名為workers並修改,指定Worker的所在節點
linux02
linux03
  1. 將配置好的spark拷貝到其他節點
for i in {2..3}; do scp -r spark-3.2.3-bin-hadoop3.2 linux0$i:$PWD; done

啟動Spark集群

  • 在Spark的安裝目錄執行啟動腳本
sbin/start-all.sh
  • 執行jps命令查看Java進程
jps

在ndoe-1上可以看見Master進程,在其他的節點上可以看見到Worker進程

  • 訪問Master的web管理界面,埠8080
    image

一些重要參數

export SPARK_WORKER_CORES=4    #指定worker可用的邏輯核數
export SPARK_WORKER_MEMORY=2g  #指定worker可用的記憶體大小

standalone模式高可用部署

spark的standalone模式可以啟動兩個以上的Master,但是需要依賴zookeeper進行協調,所有的節點啟動後,都向zk註冊
image

修改配置文件spark-env.sh

 # 註釋掉master的地址,所有節點都先連接zookeeper
 # export SPARK_MASTER_HOST=linux01
 export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=linux01:2181,linux02:2181,linux03:2181 -Dspark.deploy.zookeeper.dir=/spark"

啟動Spark Shell編程

spark shell是spark中的互動式命令行客戶端,可以在spark shell中使用scala編寫spark程式,啟動後預設已經創建了SparkContext,別名為sc

/opt/apps/spark-3.2.3-bin-hadoop3.2/bin/spark-shell \
--master spark://linux01:7077 --executor-memory 1g \
--total-executor-cores 3

如果Master配置了HA高可用,需要指定兩個Master(因為這兩個Master任意一個都可能是Active狀態)

/bigdata/spark-3.2.3-bin-hadoop3.2/bin/spark-shell \
--master spark://linux01:7077,linux02:7077 \
--executor-memory 1g \
--total-executor-cores 3

參數說明:
--master 指定masterd地址和埠,協議為spark://,埠是RPC的通信埠
--executor-memory 指定每一個executor的使用的記憶體大小
--total-executor-cores指定整個application總共使用了cores

在shell中編寫第一個spark程式

sc.textFile("hdfs://linux01:9000/words.txt").flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).sortBy(_._2,false).saveAsTextFile("hdfs://linux01:9000/out")

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • ## 一:背景 ### 1. 講故事 有很多朋友跟我說,在 Windows 上看過你文章知道了怎麼抓 Crash, CPU爆高,記憶體暴漲 等各種Dump,為什麼你沒有寫在 Docker 中如何抓的相關文章呢?瞧不上嗎? 哈哈,在DUMP的分析旅程中,跑在 Docker 中的 .NET 占比真的不多, ...
  • 依賴註入(DI)在開發中既是常見的也是必需的技術。它幫助我們優化了代碼結構,使得應用更加靈活、易於擴展,同時也降低了各個模塊之間的耦合度,更容易進行單元測試,提高了編碼效率和質量。我們經常會先定義局部變數,再在構造函數中使用,每次都要這樣去編寫耗時,下麵通過VS自帶功能,可以給我方便的生成,節省時間... ...
  • 在日常的工作生產中,經常會有將將生產數據或者一些信息主動推送給相關的管理人員,我們公司在開發WMS系統時,為了倉庫的儲存安全,需要在危廢品庫存達到一定的儲量時,自動通知倉管員去處理危廢品,所以就需要程式自動的通過企業微信告知倉管員,這個時候就需要用到企業微信的機器人了。 現在我所知道的企業微信機器人 ...
  • 在 Linux 系統下開發軟體,輸出的可執行文件可大可小,運行環境如果是在伺服器那麼可能資源比較充足,但如果是在嵌入式環境,那麼存儲資源是寸土必爭的。所以會有對可執行文件進行瘦身的需求,比如使用指令 strip。 ...
  • Ubuntu系統開機後總是提示“不完整語言支持”是一個存在已久的bug,一直未被修複,表現為點擊如圖所示更新信息中的“現在執行此動作”並不會安裝任何組件,每次開機自檢後都會提示。 ![](https://img2023.cnblogs.com/blog/3206341/202306/3206341- ...
  • 哈嘍大家好,我是鹹魚 今天我們來聊聊電腦網路中的 MTU (Maximum Transmission Unit) 什麼是 MTU ? MTU(Maximum Transmission Unit)是指數據鏈路層中的最大傳輸單元 通俗點來講,MTU 是指數據鏈路層能夠傳輸的最大數據幀的大小(以位元組為單 ...
  • 本人近期看到稚暉君的Linux - Card 的相關視頻介紹,看到它極大的方便,整體只需Type-C即可供電並且算力滿足目前所需要求,功能也不少。於是火速下單,從Speed Studio購入。 到貨後先認識這個開發套件的外觀,可以說是非常小巧,能夠滿足大部分需求。 當我用Type-C供電時發現並沒有 ...
  • ## **MySQL安裝** ## 下載地址 官網下載地址:[https://dev.mysql.com/downloads/mysql/](https://dev.mysql.com/downloads/mysql/) ![如圖](https://img-blog.csdnimg.cn/14637 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...