學習一個工具的最好途徑,就是使用它。在IT領域,在深入瞭解一個系統的原理、實現細節之前,應當先準備好它的運行環境或者源碼閱讀環境。如果能在實際環境下安裝和運行Spark,顯然能夠提升讀者對於Spark的一些感受,對系統能有個大體的印象,有經驗的工程師甚至能夠猜出一些Spark在實現過程中採用的設計模... ...
學習一個工具的最好途徑,就是使用它。這就好比《極品飛車》玩得好的同學,未必真的會開車,要學習車的駕駛技能,就必須用手觸摸方向盤、用腳感受剎車與油門的力道。在IT領域,在深入瞭解一個系統的原理、實現細節之前,應當先準備好它的運行環境或者源碼閱讀環境。如果能在實際環境下安裝和運行Spark,顯然能夠提升讀者對於Spark的一些感受,對系統能有個大體的印象,有經驗的工程師甚至能夠猜出一些Spark在實現過程中採用的設計模式、編程模型。
考慮到大部分公司在開發和生產環境都採用Linux操作系統,所以筆者選用了64位的Linux。在正式安裝Spark之前,先要找台好機器。為什麼?因為筆者在安裝、編譯、調試的過程中發現Spark非常耗費記憶體,如果機器配置太低,恐怕會跑不起來。Spark的開發語言是Scala,而Scala需要運行在JVM之上,因而搭建Spark的運行環境應該包括JDK和Scala。
本文只介紹最基本的與Spark相關的準備工作,至於Spark在實際生產環境下的配置,則需要結合具體的應用場景進行準備。
安裝JDK
自Spark2.0.0版本開始,Spark已經準備放棄對Java 7的支持,所以我們需要選擇Java 8。我們還需要使用命令getconf LONG_BIT查看linux機器是32位還是64位,然後下載相應版本的JDK並安裝。
下載地址:
http://www.oracle.com/technetwork/java/javase/downloads/index.html。
配置環境:
cd ~ vim .bash_profile
添加如下配置:
exportJAVA_HOME=/opt/java exportPATH=$PATH:$JAVA_HOME/bin exportCLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
輸入以下命令使環境變數快速生效:
source .bash_profile
安裝完畢後,使用java –version命令查看,確認安裝正常,如圖1所示。
圖1 查看java安裝是否正常
安裝Scala
由於從Spark 2.0.0開始,Spark預設使用Scala 2.11來編譯、打包,不再是以前的Scala 2.10,所以我們需要下載Scala 2.11。
下載地址:
http://www.scala-lang.org/download/
選擇Scala 2.11的版本進行下載,下載方法如下:
wget https://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz
移動到選好的安裝目錄,例如:
mv scala-2.11.8.tgz~/install/
進入安裝目錄,執行以下命令:
chmod 755scala-2.11.8.tgz tar -xzvfscala-2.11.8.tgz
配置環境:
cd ~ vim .bash_profile
添加如下配置:
export SCALA_HOME=$HOME/install/scala-2.11.8 export PATH=$SCALA_HOME/bin:$PATH
輸入以下命令使環境變數快速生效:
source .bash_profile
安裝完畢後鍵入scala,進入scala命令行以確認安裝正常,如圖2所示。
圖2 進入Scala命令行
安裝Spark
Spark進入2.0時代之後,目前一共有兩個大的版本:一個是2.0.0,一個是2.1.0。本書選擇2.1.0。
下載地址:
http://spark.apache.org/downloads.html
下載方法如下:
wget http://d3kbcqa49mib13.cloudfront.net/spark-2.1.0-bin-hadoop2.6.tgz
移動到選好的安裝目錄,如:
mv spark-2.1.0-bin-hadoop2.6.tgz~/install/
進入安裝目錄,執行以下命令:
chmod 755 spark-2.1.0-bin-hadoop2.6.tgz tar -xzvf spark-2.1.0-bin-hadoop2.6.tgz
配置環境:
cd ~ vim .bash_profile
添加如下配置:
export SPARK_HOME=$HOME/install/spark-2.1.0-bin-hadoop2.6 export PATH=$SPARK_HOME/bin:$PATH
輸入以下命令使環境變數快速生效:
source .bash_profile
安裝完畢後鍵入spark-shell,進入scala命令行以確認安裝正常,如圖3所示。
圖3 執行spark-shell進入Scala命令行
有了對spark運行環境的準備,下麵就可以來看看《Spark2.1.0之初體驗》
想要對Spark源碼進行閱讀的同學,可以看看《Spark2.1.0之代碼結構及載入Ecplise方法》