spark本地環境的搭建到運行第一個spark程式

来源:https://www.cnblogs.com/lanhuo666/archive/2018/11/29/10036243.html
-Advertisement-
Play Games

搭建spark本地環境 搭建Java環境 (1)到官網下載JDK 官網鏈接:https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html (2)解壓縮到指定的目錄 (3)設置路徑和環境變數 在 ...


搭建spark本地環境

搭建Java環境

(1)到官網下載JDK

官網鏈接:https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

(2)解壓縮到指定的目錄

>sudo tar -zxvf jdk-8u91-linux-x64.tar.gz -C /usr/lib/jdk //版本號視自己安裝的而定

(3)設置路徑和環境變數

>sudo vim /etc/profile

在文件的最後加上

export JAVA_HOME=/usr/lib/jdk/jdk1.8.0_91   
export JRE_HOME=${JAVA_HOME}/jre  
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib  
export PATH=${JAVA_HOME}/bin:$PATH

(4)讓配置生效

source /etc/profile

(5)驗證安裝是否成功

~$ java -version
java version "1.8.0_181"
Java(TM) SE Runtime Environment (build 1.8.0_181-b13)
Java HotSpot(TM) 64-Bit Server VM (build 25.181-b13, mixed mode)

 

安裝Scala

(1)到官網下載安裝包

官網鏈接:https://www.scala-lang.org/download/

(2)解壓縮到指定目錄

sudo tar -zxvf scala-2.11.8.tgz -C /usr/lib/scala //版本號視自己安裝的而定

(3)設置路徑和環境變數

>sudo vim /etc/profile

在文件最後加上

export SCALA_HOME=/usr/lib/scala/scala-2.11.8  //版本號視自己安裝的而定
export PATH=${SCALA_HOME}/bin:$PATH

(4)讓配製生效

source /etc/profile

(5)驗證安裝是否成功

:~$ scala
Welcome to Scala 2.12.6 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_181).
Type in expressions for evaluation. Or try :help.

scala> 

 

安裝Spark

(1)到官網下載安裝包

官網鏈接:http://spark.apache.org/downloads.html

(2)解壓縮到指定目錄

sudo tar -zxvf spark-1.6.1-bin-hadoop2.6.tgz -C /usr/lib/spark //版本號視自己安裝的而定

(3)設置路徑和環境變數

>sudo vim /etc/profile

在文件最後加上

export SPARK_HOME=/usr/lib/spark/spark-1.6.1-bin-hadoop2.6
export PATH=${SPARK_HOME}/bin:$PATH

(4)讓配置生效

source /etc/profile

(5)驗證安裝是否成功

:~$ cd spark-1.6.1-bin-hadoop2.6
:~/spark-1.6.1-bin-hadoop2.6$ ./bin/spark-shell
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
18/09/30 20:59:31 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
18/09/30 20:59:32 WARN Utils: Your hostname, pxh resolves to a loopback address: 127.0.1.1; using 10.22.48.4 instead (on interface wlan0)
18/09/30 20:59:32 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
18/09/30 20:59:45 WARN ObjectStore: Failed to get database global_temp, returning NoSuchObjectException
Spark context Web UI available at http://10.22.48.4:4040
Spark context available as 'sc' (master = local[*], app id = local-1538312374870).
Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 2.2.0
      /_/
         
Using Scala version 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_181)
Type in expressions to have them evaluated.
Type :help for more information.

 

安裝sbt

(1)到官網下載安裝包

官網鏈接:https://www.scala-sbt.org/download.html

(2)解壓縮到指定目錄

tar -zxvf sbt-0.13.9.tgz -C /usr/local/sbt

(3)在/usr/local/sbt 創建sbt腳本並添加以下內容

$ cd /usr/local/sbt
$ vim sbt
# 在sbt文本文件中添加如下信息:
BT_OPTS="-Xms512M -Xmx1536M -Xss1M -XX:+CMSClassUnloadingEnabled -XX:MaxPermSize=256M"
java $SBT_OPTS -jar /usr/local/sbt/bin/sbt-launch.jar "$@" 

(4)保存後,為sbt腳本增加執行許可權

$ chmod u+x sbt

(5)設置路徑和環境變數

>sudo vim /etc/profile

在文件最後加上

export PATH=/usr/local/sbt/:$PATH

(6)讓配置生效

source /etc/profile

(7)驗證安裝是否成功

$ sbt sbt-version
//如果這條命令運行不成功請改為以下這條 >sbt sbtVersion
$ sbt sbtVersion
Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=256M; support was removed in 8.0
[info] Loading project definition from /home/pxh/project
[info] Set current project to pxh (in build file:/home/pxh/)
[info] 1.2.1

 

編寫Scala應用程式

(1)在終端創建一個文件夾sparkapp作為應用程式根目錄

cd ~
mkdir ./sparkapp
mkdir -p ./sparkapp/src/main/scala  #創建所需的文件夾結構

 

(2)./sparkapp/src/main/scala在建立一個SimpleApp.scala的文件並添加以下代碼

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf

object SimpleApp {
    def main(args:Array[String]){
        val logFile = "file:///home/pxh/hello.ts"
        val conf = new SparkConf().setAppName("Simple Application")
        val sc = new SparkContext(conf)
        val logData = sc.textFile(logFile,2).cache()
        val numAs = logData.filter(line => line.contains("a")).count()
        println("Lines with a: %s".format(numAs))
    }
}

 

(3)添加該獨立應用程式的信息以及與Spark的依賴關係

vim ./sparkapp/simple.sbt

在文件中添加如下內容

name:= "Simple Project"
version:= "1.0"
scalaVersion :="2.11.8"
libraryDependencies += "org.apache.spark"%% "spark-core" % "2.2.0"

 

(4)檢查整個應用程式的文件結構

cd ~/sparkapp
find .

文件結構如下

.
./simple.sbt
./src
./src/main
./src/main/scala
./src/main/scala/SimpleApp.scala

 

(5)將整個應用程式打包成JAR(首次運行的話會花費較長時間下載依賴包,請耐心等待)

sparkapp$ /usr/local/sbt/sbt package
Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=256M; support was removed in 8.0
[info] Loading project definition from /home/pxh/sparkapp/project
[info] Loading settings for project sparkapp from simple.sbt ...
[info] Set current project to Simple Project (in build file:/home/pxh/sparkapp/)
[success] Total time: 2 s, completed 2018-10-1 0:04:59

 

(6)將生成的jar包通過spark-submit提交到Spark中運行

:~$ /home/pxh/spark-2.2.0-bin-hadoop2.7/bin/spark-submit --class "SimpleApp" /home/pxh/sparkapp/target/scala-2.11/simple-project_2.11-1.0.jar 2>&1 | grep "Lines with a:"
Lines with a: 3

 

END........

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 單例模式是設計模式中比較常見簡單的一種,典型雙重檢測寫法如下: 接下來對該寫法進行分析,為何這樣寫? 一、為何要同步: 多線程情況下,若是A線程調用getInstance,發現instance為null,那麼它會開始創建實例,如果此時CPU發生時間片切換,線程B開始執行,調用getInstance, ...
  • 數據持久化,也就是把數據保存到磁碟,以後可以再讀取出來使用(也可以再次更改或刪除)。很多場景需要數據持久化,比如為了減輕伺服器的訪問與存儲壓力,客戶端需要在本地做一些數據持久化的工作。iOS的數據持久化,有幾種方式,包括:自定義格式的文件、plistCoreData、FMDB等等。這裡記錄基於Cor... ...
  • 前言 在 "上一篇" 中我們學習了行為型模式的備忘錄模式(Memento Pattern)和狀態模式(Memento Pattern)。本篇則來學習下行為型模式的最後兩個模式,觀察者模式(Observer Pattern)和空對象模式模式(NullObject Pattern)。 觀察者模式 簡介 ...
  • "迭代器模式·原文地址" "更多《設計模式系列教程》" "更多免費教程" 博主按:《每天一個設計模式》旨在初步領會設計模式的精髓,目前採用 ( 靠這吃飯 )和 ( 純粹喜歡 )兩種語言實現。誠然,每種設計模式都有多種實現方式,但此小冊只記錄最直截了當的實現方式 :) 0. 項目地址 迭代器模式源碼: ...
  • 單例模式 介紹 模式:創建型 意圖:保證一個類只有一個實例,並提供一個訪問它的全局訪問點 解決:一個全局使用的類頻繁地創建與銷毀 場景: 唯一序列號 web中的計數器 I/O與資料庫的連接 …… 唯一序列號 web中的計數器 I/O與資料庫的連接 …… 實現方式 餓漢式 :靜態載入,線程安全 餓漢式 ...
  • 1. 簡單工廠 1. 你開了一家披薩店,點披薩的方法可能是這樣: 可以看到,每當你想增加一種披薩類型,就要修改代碼,添加一種if else條件.當有多個系統存在orderPizza的需求時,每個系統都要同時修改他們的代碼.因此,需要將這種實例化具體對象的代碼封裝起來. 這就是簡單工廠方法,他不算一種 ...
  • 迭代器模式(Iterator Pattern)是最常被使用的幾個模式之一,被廣泛地應用到Java的API中。 定義:提供一種方法訪問一個容器對象中各個元素,而又不需暴露該對象的內部細節。 類圖如下所示。 迭代器模式有以下4個角色。 抽象迭代器(Iterator)角色:負責定義訪問和遍歷元素的介面。 ...
  • 參考於 : 大話設計模式 馬士兵設計模式視頻 代碼參考於馬士兵設計模式視頻 寫在開頭:職責鏈模式:使多個對象都有機會處理請求,從而避免請求的發送者和接收者之間的耦合關係 圖來自大話設計模式,下麵我的代碼中,Clien是t依賴於Handler1和Handler2的,不過可以使用配置文件或者直接給Fil ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...