Spark(四): Spark-sql 讀hbase_ZenDei技術網路在線

Spark(四): Spark-sql 讀hbase

-Advertisement-

SparkSQL是指整合了Hive的spark-sql cli, 本質上就是通過Hive訪問HBase表，具體就是通過hive-hbase-handler, 具體配置參見：Hive(五):hive與hbase整合目錄： SparkSql 訪問 hbase配置測試驗證 SparkSql 訪問 hb ...

SparkSQL是指整合了Hive的spark-sql cli, 本質上就是通過Hive訪問HBase表，具體就是通過hive-hbase-handler, 具體配置參見：Hive(五):hive與hbase整合

目錄：

SparkSql 訪問 hbase配置
測試驗證

SparkSql 訪問 hbase配置:

拷貝HBase的相關jar包到Spark節點上的$SPARK_HOME/lib目錄下，清單如下：

guava-14.0.1.jar
htrace-core-3.1.0-incubating.jar
hbase-common-1.1.2.2.4.2.0-258.jar
hbase-common-1.1.2.2.4.2.0-258-tests.jar
hbase-client-1.1.2.2.4.2.0-258.jar
hbase-server-1.1.2.2.4.2.0-258.jar
hbase-protocol-1.1.2.2.4.2.0-258.jar
hive-hbase-handler-1.2.1000.2.4.2.0-258.jar

在 ambari 上配置Spark節點的$SPARK_HOME/conf/spark-env.sh,將上面的jar包添加到SPARK_CLASSPATH，如下圖：

配置項清單如下：註意jar包之間不能有空格或回車符

export SPARK_CLASSPATH=/usr/hdp/2.4.2.0-258/spark/lib/guava-11.0.2.jar: /usr/hdp/2.4.2.0-258/spark/lib/hbase-client-1.1.2.2.4.2.0-258.jar:/usr/hdp/2.4.2.0-258/spark/lib/hbase-common-1.1.2.2.4.2.0-258.jar:/usr/hdp/2.4.2.0-258/spark/lib/hbase-protocol-1.1.2.2.4.2.0-258.jar:/usr/hdp/2.4.2.0-258/spark/lib/hbase-server-1.1.2.2.4.2.0-258.jar:/usr/hdp/2.4.2.0-258/spark/lib/hive-hbase-handler-1.2.1000.2.4.2.0-258.jar:/usr/hdp/2.4.2.0-258/spark/lib/htrace-core-3.1.0-incubating.jar:  /usr/hdp/2.4.2.0-258/spark/lib/protobuf-java-2.5.0.jar:${SPARK_CLASSPATH}

將hbase-site.xml拷貝至${HADOOP_CONF_DIR},由於spark-env.sh中配置了Hadoop配置文件目錄${HADOOP_CONF_DIR},因此會將hbase-site.xml載入，hbase-site.xml中主要是以下幾個參數的配置：

<property>
<name>hbase.zookeeper.quorum</name>
<value>r,hdp2,hdp3</value>
<description>HBase使用的zookeeper節點</description>
</property>
<property>
<name>hbase.client.scanner.caching</name>
<value>100</value>
<description>HBase客戶端掃描緩存，對查詢性能有很大幫助</description>
</property>

ambari 上重啟修改配置後影響的組件服務

測試驗證：

任一spark client節點驗證：
命令： cd /usr/hdp/2.4.2.0-258/spark/bin (spark安裝目錄)
命令： ./spark-sql
執行： select * from stocksinfo; (stocksinfo 為與hbase關聯的hive外部表）
結果如下則OK：

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Masonry自動佈局與UIScrolView適配

Masonry介紹 Masonry是一個輕量級的佈局框架擁有自己的描述語法採用更優雅的鏈式語法封裝自動佈局簡潔明瞭並具有高可讀性而且同時支持 iOS 和 Max OS X。可以通過cocoapods將其導入。 Masonry使用 Masonry屬性及其說明其中leading與left t ...
iOS 保持界面流暢的技巧

這篇文章會非常詳細的分析 iOS 界面構建中的各種性能問題以及對應的解決思路，同時給出一個開源的微博列表實現，通過實際的代碼展示如何構建流暢的交互。 Index演示項目屏幕顯示圖像的原理卡頓產生的原因和解決方案CPU 資源消耗原因和解決方案GPU 資源消耗原因和解決方案AsyncDisplayKit ...
Android Weekly Notes Issue #220

Android Weekly Issue #220, 中文筆記. ...
Linux下Mysql自啟動

如果你都是按照預設配置安裝的那麼只要按照如下步驟就可以了 1、cp /usr/local/mysql/support-files/mysql.server /etc/init.d/mysql 將服務文件拷貝到init.d下，並重命名為mysql 2、chmod +x /etc/init.d/mysq ...
SQLServer併發問題，先SELECT後UPDATE，避免併發臟讀情況解決

在SQL Server中，需要對數據操作進行先SELECT 之後UPDATE，對於這樣的操作，如果出現高併發，可能導致臟讀情況的發生。不能保證數據的同步。解決方案是在事物中對錶進行加更新鎖：事務一：事務二： ...
分散式並行關聯規則挖掘

經典的關聯規則挖掘演算法Apriori和FP-growth，在大數據或者海量數據面前，由於候選集和生成的FP樹大而無法存儲到記憶體，同時也由於演算法本身單機的特點，決定了它串列處理數據的方式，這在效率上很難滿足大數據處理的要求，數據遷移到平臺需要傳輸和轉儲，在大數據面前，也是一大難題。一般而言"關聯規則 ...
MySQL的存儲引擎整理

01.MyISAM 01.MyISAM MySQL 5.0 以前的預設存儲引擎。MyISAM 不支持事務、也不支持外鍵，其優勢是訪問的速度快，對事務完整性沒有要求或者以SELECT、INSERT 為主的應用基本上都可以使用這個引擎來創建表。每個MyISAM 在磁碟上存儲成3 個文件，其文件名都和表 ...
Redis(二)linux下redis安裝

上篇講解了redis在windows下的安裝，接下來看看在linux下如何安裝redis（純菜鳥入門級別）？（1）redis的下載及編譯這裡，首先進入存放文件目錄（我的雲伺服器的是：cd /jelly/redis/） wget http://download.redis.io/releases/ ...