Spark源碼分析之Spark Shell(上)

来源:http://www.cnblogs.com/xing901022/archive/2017/02/18/6412619.html
-Advertisement-
Play Games

終於開始看Spark源碼了,先從最常用的spark shell腳本開始吧。不要覺得一個啟動腳本有什麼東東,其實裡面還是有很多知識點的。另外,從啟動腳本入手,是尋找代碼入口最簡單的方法,很多開源框架,其實都可以通過這種方式來尋找源碼入口。 先來介紹一下Spark shell是什麼? Spark she ...


終於開始看Spark源碼了,先從最常用的spark-shell腳本開始吧。不要覺得一個啟動腳本有什麼東東,其實裡面還是有很多知識點的。另外,從啟動腳本入手,是尋找代碼入口最簡單的方法,很多開源框架,其實都可以通過這種方式來尋找源碼入口。

先來介紹一下Spark-shell是什麼?

Spark-shell是提供給用戶即時交互的一個命令視窗,你可以在裡面編寫spark代碼,然後根據你的命令立即進行運算。這種東西也被叫做REPL,(Read-Eval-Print Loop)互動式開發環境。

先來粗略的看一眼,其實沒有多少代碼:

#!/usr/bin/env bash

# Shell script for starting the Spark Shell REPL

cygwin=false
case "`uname`" in
  CYGWIN*) cygwin=true;;
esac

# Enter posix mode for bash
set -o posix

if [ -z "${SPARK_HOME}" ]; then
  export SPARK_HOME="$(cd "`dirname "$0"`"/..; pwd)"
fi

export _SPARK_CMD_USAGE="Usage: ./bin/spark-shell [options]"

# SPARK-4161: scala does not assume use of the java classpath,
# so we need to add the "-Dscala.usejavacp=true" flag manually. We
# do this specifically for the Spark shell because the scala REPL
# has its own class loader, and any additional classpath specified
# through spark.driver.extraClassPath is not automatically propagated.
SPARK_SUBMIT_OPTS="$SPARK_SUBMIT_OPTS -Dscala.usejavacp=true"

function main() {
  if $cygwin; then
    # Workaround for issue involving JLine and Cygwin
    # (see http://sourceforge.net/p/jline/bugs/40/).
    # If you're using the Mintty terminal emulator in Cygwin, may need to set the
    # "Backspace sends ^H" setting in "Keys" section of the Mintty options
    # (see https://github.com/sbt/sbt/issues/562).
    stty -icanon min 1 -echo > /dev/null 2>&1
    export SPARK_SUBMIT_OPTS="$SPARK_SUBMIT_OPTS -Djline.terminal=unix"
    "${SPARK_HOME}"/bin/spark-submit --class org.apache.spark.repl.Main --name "Spark shell" "$@"
    stty icanon echo > /dev/null 2>&1
  else
    export SPARK_SUBMIT_OPTS
    "${SPARK_HOME}"/bin/spark-submit --class org.apache.spark.repl.Main --name "Spark shell" "$@"
  fi
}

# Copy restore-TTY-on-exit functions from Scala script so spark-shell exits properly even in
# binary distribution of Spark where Scala is not installed
exit_status=127
saved_stty=""

# restore stty settings (echo in particular)
function restoreSttySettings() {
  stty $saved_stty
  saved_stty=""
}

function onExit() {
  if [[ "$saved_stty" != "" ]]; then
    restoreSttySettings
  fi
  exit $exit_status
}

# to reenable echo if we are interrupted before completing.
trap onExit INT

# save terminal settings
saved_stty=$(stty -g 2>/dev/null)
# clear on error so we don't later try to restore them
if [[ ! $? ]]; then
  saved_stty=""
fi

main "$@"

# record the exit status lest it be overwritten:
# then reenable echo and propagate the code.
exit_status=$?
onExit

其實這個腳本只能看出來是調用了spark-submit,後續會再分析一下spark-submit的作用(它裡面會調用spark-class,這才是執行方法的最終執行者,前面都是傳參而已)。

最前面的

cygwin=false
case "`uname`" in
  CYGWIN*) cygwin=true;;
esac

這個在很多的啟動腳本中都可以看到,是檢查你的系統是否屬於cygwin。使用了uname命令,這個命令通常用於查詢系統的名字或者內核版本號

uname可以查看操作系統的名字, 詳情參考 man uname.直接輸入uname,一般顯示Linux; 使用uname -r 可以查看內核版本; 使用uname -a 可以查看所有的信息

set -o posix

設置shell的模式為POSIX標準模式,不同的模式對於一些命令和操作不一樣。Posix : Portable Operating System Interface of Unix它提供了操作系統的一套介面。

if [ -z "${SPARK_HOME}" ]; then
  export SPARK_HOME="$(cd "`dirname "$0"`"/..; pwd)"
fi

這句在很多啟動腳本中也比較常見,即獲取應用的主目錄。因為一般的應用都是這樣的

app主目錄/bin 啟動腳本
app主目錄/lib 相關jar
app主目錄/logs 日誌

而啟動腳本一般放在bin下麵,所以應用的主目錄就是bin的父目錄而已。

第一個if語句if [ -z "${SPARK_HOME}" ]; then用於檢測是否設置過SPARK_HOME環境變數。

在shell裡面條件表達式有非常多的用法,比如:

# 文件表達式
if [ -f  file ]    如果文件存在
if [ -d ...   ]    如果目錄存在
if [ -s file  ]    如果文件存在且非空 
if [ -r file  ]    如果文件存在且可讀
if [ -w file  ]    如果文件存在且可寫
if [ -x file  ]    如果文件存在且可執行   

# 整數變數表達式
if [ int1 -eq int2 ]    如果int1等於int2   
if [ int1 -ne int2 ]    如果不等於    
if [ int1 -ge int2 ]    如果>=
if [ int1 -gt int2 ]    如果>
if [ int1 -le int2 ]    如果<=
if [ int1 -lt int2 ]    如果<
   

#    字元串變數表達式
If  [ $a = $b ]                 如果string1等於string2,字元串允許使用賦值號做等號
if  [ $string1 !=  $string2 ]   如果string1不等於string2       
if  [ -n $string  ]             如果string 非空(非0),返回0(true)  
if  [ -z $string  ]             如果string 為空
if  [ $sting ]                  如果string 非空,返回0 (和-n類似)   

所以上面的那句判斷,就是檢查${SPARK_HOME}是否為空的意思。

export命令用於在當前的登陸中,設置某個環境變數,如果註銷,設置就失效了。所以如果你想要永久配置環境變數,還是得去/etc/profile裡面去看。

所以就應該能明白了,export SPARK_HOME="$(cd "dirname "$0""/..; pwd)"這句話就是設置SPARK_HOME環境變數的。那麼裡面那一坨是幹嘛的呢?咱們一點一點看。

首先$0是shell中的變數符號,類似的還有很多:

$# 是傳給腳本的參數個數
$0 是腳本本身的名字
$1 是傳遞給該shell腳本的第一個參數
$2 是傳遞給該shell腳本的第二個參數
$@ 是傳給腳本的所有參數的列表
$* 是以一個單字元串顯示所有向腳本傳遞的參數,與位置變數不同,參數可超過9個
$$ 是腳本運行的當前進程ID號
$? 是顯示最後命令的退出狀態,0表示沒有錯誤,其他表示有錯誤

最常用的應該是$0$@.

在說說dirname命令,這個命令用於顯示某個文件所在的路徑。比如我有一個文件/home/xinghl/test/test1,在test目錄中使用dirname test1,就會返回:

[root@localnode3 test]# pwd
/home/xinghl/test
[root@localnode3 test]# ll
總用量 4
-rw-r--r-- 1 root root 27 2月  17 10:48 test1
[root@localnode3 test]# dirname test1
.

我們要的其實就是那個點,在linux中.代表當前目錄。..代表父目錄。因此cd ./.. 就是進入父目錄的意思。

後面的pwd是顯示當前路徑。

整個連起來就是:

1 先獲取當前路徑
2 腳本路徑進入到應用主目錄
3 pwd顯示路徑,賦值給SPARK_HOME

有人就會問了,這不多此一舉麽?幹嘛不直接寫cd ..,這是因為你在哪執行spark-shell是不一定的。因此cd命令直接cd ..會根據你的目錄而改變。舉個例子:

[root@localnode3 test]# pwd
/home/xinghl/test
[root@localnode3 test]# cat test.sh
cd ./..
echo `pwd`
[root@localnode3 test]# sh test.sh
/home/xinghl
[root@localnode3 test]# cd ..
[root@localnode3 xinghl]# sh test/test.sh
/home

看出來作用了吧!

SPARK_SUBMIT_OPTS="$SPARK_SUBMIT_OPTS -Dscala.usejavacp=true"

因為scala預設不會使用java classpath,因此這裡需要手動設置一下,讓scala使用java。

就先介紹到這吧.....後面再介紹下,spark-shell視窗的原理。



您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • [1]效果演示 [2]原理解釋 [3]具體實現 [4]插件代碼 ...
  • 一、this.xx 和 xx 是兩回事 受後端語言影響,總把this.xx 和xx 當中一回事,認為在function中,xx 就是this.xx,其實完全兩回事; this.xx 是沿著this 原型鏈找變數,xx是沿著作用域鏈找變數 var func = function(){ console. ...
  • 本文將從頭開始編寫實際的代碼來完成一個angular2的demo。 題外話是其實angular2官網的快速開始項目已經很酷炫了,但其側重快速二字,只夠拿來練習玩耍,倒是github上確實已經有了一些不錯的angular2-starter。 1. 安裝必要的node環境與npm 當然TS環境也是必須的 ...
  • 微信公眾號開發,主要是移動端網頁的頁面開發,在這裡推薦3個移動端UI框架:WeUI、SUI和Mint UI。 ...
  • 1. 個人開發者賬號的申請 2. DUNS的申請 3. 個人開發者賬號轉公司賬號 ...
  • Navicatfor MySQL:快捷鍵整理, 使用快捷鍵,提升工作效率! ...
  • 1、 " Oracle 資料庫管理工具概述 " 2、 " SQL Plus 實用命令參考 " 2.1、 "連接/斷開命令" 2.2、 "執行 SQL 語句" 2.3、 "執行 PL/SQL 語句" 2.4、 "文件操作命令" 2.5、 "修改用戶密碼" 2.6、 "執行存儲過程" 2.7、 "其它命 ...
  • 本文屬於一篇內部規範文檔,整理的初衷是為了規範、統一集團的Windows伺服器(僅僅SQL Server資料庫伺服器)防火牆設置,僅僅供內部其它同事設置Windows防火牆時作為參考的文檔資料。如有不足,敬請指正。後續將不斷完善、整理該文檔。文檔裡面部分內容直接摘抄自MSDN,敬請知曉! 文檔類型 ... ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...