理解Spark SQL(一）—— CLI和ThriftServer

-Advertisement-

Spark SQL主要提供了兩個工具來訪問hive中的數據，即CLI和ThriftServer。前提是需要Spark支持Hive，即編譯Spark時需要帶上hive和hive-thriftserver選項，同時需要確保在$SPARK_HOME/conf目錄下有hive-site.xml配置文件（可以 ...

Spark SQL主要提供了兩個工具來訪問hive中的數據，即CLI和ThriftServer。前提是需要Spark支持Hive，即編譯Spark時需要帶上hive和hive-thriftserver選項，同時需要確保在$SPARK_HOME/conf目錄下有hive-site.xml配置文件（可以從hive中拷貝過來）。在該配置文件中主要是配置hive metastore的URI（Spark的CLI和ThriftServer都需要）以及ThriftServer相關配置項（如hive.server2.thrift.bind.host、hive.server2.thrift.port等）。註意如果該台機器上同時運行有Hive ThriftServer和Spark ThriftServer，則hive中的hive.server2.thrift.port配置的埠與spark中的hive.server2.thrift.port配置的埠要不一樣，避免同時啟動時發生埠衝突。

啟動CLI和ThriftServer之前都需要先啟動hive metastore。執行如下命令啟動：

[root@BruceCentOS ~]# nohup hive --service metastore &

成功啟動後，會出現一個RunJar的進程，同時會監聽埠9083（hive metastore的預設埠）。

先來看CLI，通過spark-sql腳本來使用CLI。執行如下命令：

[root@BruceCentOS4 spark]# $SPARK_HOME/bin/spark-sql --master yarn

上述命令執行後會啟動一個yarn client模式的Spark程式，如下圖所示：

同時它會連接到hive metastore，可以在隨後出現的spark-sql>提示符下運行hive sql語句，比如：

其中每輸入並執行一個SQL語句相當於執行了一個Spark的Job，如圖所示：

也就是說執行spark-sql腳本會啟動一個yarn clien模式的Spark Application，而後出現spark-sql>提示符，在提示符下的每個SQL語句都會在Spark中執行一個Job，但是對應的都是同一個Application。這個Application會一直運行，可以持續輸入SQL語句執行Job，直到輸入“quit;”，然後就會退出spark-sql，即Spark Application執行完畢。

另外一種更好地使用Spark SQL的方法是通過ThriftServer，首先需要啟動Spark的ThriftServer，然後通過Spark下的beeline或者自行編寫程式通過JDBC方式使用Spark SQL。

通過如下命令啟動Spark ThriftServer：

[root@BruceCentOS4 spark]# $SPARK_HOME/sbin/start-thriftserver.sh --master yarn

執行上面的命令後，會生成一個SparkSubmit進程，實際上是啟動一個yarn client模式的Spark Application，如下圖所示：

而且它提供一個JDBC/ODBC介面，用戶可以通過JDBC/ODBC介面連接ThriftServer來訪問Spark SQL的數據。具體可以通過Spark提供的beeline或者在程式中使用JDBC連接ThriftServer。例如在啟動Spark ThriftServer後，可以通過如下命令使用beeline來訪問Spark SQL的數據。

[root@BruceCentOS3 spark]# $SPARK_HOME/bin/beeline -n root -u jdbc:hive2://BruceCentOS4.Hadoop:10003

上述beeline連接到了BruceCentOS4上的10003埠，也就是Spark ThriftServer。所有連接到ThriftServer的客戶端beeline或者JDBC程式共用同一個Spark Application，通過beeline或者JDBC程式執行SQL相當於向這個Application提交並執行一個Job。在提示符下輸入“!exit”命令可以退出beeline。

最後，如果要停止ThriftServer（即停止Spark Application），需要執行如下命令：

[root@BruceCentOS4 spark]# $SPARK_HOME/sbin/stop-thriftserver.sh

綜上所述，在Spark SQL的CLI和ThriftServer中，比較推薦使用後者，因為後者更加輕量，只需要啟動一個ThriftServer（對應一個Spark Application）就可以給多個beeline客戶端或者JDBC程式客戶端使用SQL，而前者啟動一個CLI就啟動了一個Spark Application，它只能給一個用戶使用。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

020.掌握Pod-Pod基礎使用

一 Pod定義詳解 1.1 完整Pod定義文件 1 apiVersion: v1 #必選，版本號，例如v1,版本號必須可以用 kubectl api-versions 查詢到 2 kind: Pod #必選，Pod 3 metadata: #必選，元數據 4 name: string #必選，Pod ...
【Linux系列】Centos 7安裝 Nginx（三）

目的為了下麵的Laravel部署，本篇開始安裝Nignx伺服器。防火牆設置在物理主機上查看nginx是否安裝成功，需要開放虛擬機的80埠。用cmder登錄到虛擬機防火牆正在運行，有兩種方式處理：直接關閉火牆（不建議）設置防火牆80埠 Nginx安裝訪問 http://192.16 ...
強制刪除文件（夾）的方法

強制刪除文件（夾）的方法，不問原理，簡單粗暴！在桌面右鍵新建一個.txt文件，不妨命名為del.txt,把下麵兩行代碼複製進去，保存，關閉。 DEL /F /A /Q \\?\%1 RD /S /Q \\?\%1 將del.txt另存為del.bat（註意：新的尾碼是.bat）。最後，把想要刪除 ...
VMware Tools安裝方法

安裝VMware Tools的步驟點擊【虛擬機】選項中的【安裝VMware Tools】，此時在Ubuntu的桌面上就會出現一個光碟圖標。如果之前已經安裝過了，【虛擬機】選項中應為【重新安裝VMware Tools】。如果【重新安裝VMware Tools】選項是灰色的，則需要點擊【虛擬機】選 ...
讓Windows的文件名區分大小寫

背景最近在Linux官網下載了Linux內核，下載下來的是一個尾碼為.tar.xz的壓縮包，於是在毫不知情的情況下隨隨便便解壓了，解壓過程中出現了很多問題。其中一個問題就是在Windows下，不區分大小寫的文件名，但是在Ubuntu下就可以區分。比如，abc.txt和ABC.txt會被認為是同一 ...
arm-linux-gcc-5.4.0安裝方法

首先需要下載arm linux gcc的安裝包這裡提供一個5.4.0版本的安裝包，如有需要自行下載。下載鏈接：https://pan.baidu.com/s/1prpdmVNWBFzg79OXQsyt6A 提取碼：fH20 安裝步驟獲得最高許可權以便能在/usr文件夾下進行操作 sudo su ...
debian 10 安裝fcitx 後設置

設置好代理後 apt-get install fcitx 後仍然看不到語言欄可能是在設置fcitx時的字體太小了輸入法配置 ->外觀->字體加大即可 ...
fuse3 編譯相關簡要記錄於 fuse3 系統調優

下麵是在使用fuse3 編譯bbfs 過程中一些參數，用於備忘： FUSE_CFLAGS="-I/usr/local/include/fuse3" FUSE_LIBS="-L/usr/local/lib/x86_64-linux-gnu -lfuse3 -lpthread -ldl" ./confi ...