Spark(三): 安裝與配置_ZenDei技術網路在線

Spark(三): 安裝與配置

-Advertisement-

參見 HDP2.4安裝(五)：集群及組件安裝，安裝配置的spark版本為1.6, 在已安裝HBase、hadoop集群的基礎上通過 ambari 自動安裝Spark集群，基於hadoop yarn 的運行模式。目錄： Spark集群安裝參數配置測試驗證 Spark集群安裝：在ambari ...

參見 HDP2.4安裝(五)：集群及組件安裝，安裝配置的spark版本為1.6, 在已安裝HBase、hadoop集群的基礎上通過 ambari 自動安裝Spark集群，基於hadoop yarn 的運行模式。

目錄：

Spark集群安裝
參數配置
測試驗證

Spark集群安裝：

在ambari -service 界面選擇 “add Service",如圖：
在彈出界面選中spark服務，如圖：

"下一步”，分配host節點，因為前期我們已經安裝了hadoop 和hbase集群，按嚮導分配 spark history Server即可
分配client,如下圖：
發佈安裝，如下正確狀態

參數配置：

安裝完成後，重啟hdfs 和 yarn

查看 spark服務，spark thrift server 未正常啟動，日誌如下：

16/08/30 14:13:25 INFO Client: Verifying our application has not requested more than the maximum memory capability of the cluster (512 MB per container)
16/08/30 14:13:25 ERROR SparkContext: Error initializing SparkContext.
java.lang.IllegalArgumentException: Required executor memory (1024+384 MB) is above the max threshold (512 MB) of this cluster! Please check the values of 'yarn.scheduler.maximum-allocation-mb' and/or 'yarn.nodemanager.resource.memory-mb'.
    at org.apache.spark.deploy.yarn.Client.verifyClusterResources(Client.scala:284)
    at org.apache.spark.deploy.yarn.Client.submitApplication(Client.scala:140)
    at org.apache.spark.scheduler.cluster.YarnClientSchedulerBackend.start(YarnClientSchedulerBackend.scala:56)
    at org.apache.spark.scheduler.TaskSchedulerImpl.start(TaskSchedulerImpl.scala:144)
    at org.apache.spark.SparkContext.<init>(SparkContext.scala:530)
    at org.apache.spark.sql.hive.thriftserver.SparkSQLEnv$.init(SparkSQLEnv.scala:56)
    at org.apache.spark.sql.hive.thriftserver.HiveThriftServer2$.main(HiveThriftServer2.scala:76)
    at org.apache.spark.sql.hive.thriftserver.HiveThriftServer2.main(HiveThriftServer2.scala)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:731)
    at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:181)
    at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:206)
    at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:121)
    at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

View Code

解決方案：調整yarn相關參數配置 yarn.nodemanager.resource.memory-mb、yarn.scheduler.maximum-allocation-mb
yarn.nodemanager.resource.memory-mb

表示該節點上YARN可使用的物理記憶體總量，預設是8192（MB），註意，我本機的hdp2-3記憶體為4G，預設設置的值是512M，調整為如下圖大小
yarn.scheduler.maximum-allocation-mb

單個任務可申請的最多物理記憶體量，預設是8192（MB）。
保存配置，重啟依賴該配置的服務，正常後如下圖：

測試驗證：

在任一安裝spark client機器(hdp4)，將目錄切換至 spark 安裝目錄的 bin目錄下
命令： ./spark-sql
sql命令： show database; 如下圖
查看歷史記錄，如下：

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Percona TokuDB

Percona TokuDB Percona TokuDB. 1 1. TokuDB說明... 1 2. TokuDB安裝... 1 3. 使用TokuDB. 1 3.1 快速插入和富索引... 1 3.2 聚集secondary索引... 1 3.3 線上索引創建... 1 3.4 線上添加，刪除 ...
免費簡訊平臺函數說明

此簡訊平臺，支持法國wavecom簡訊貓.有VB及DELPHI示常式序錯誤說明0 成功-1 連接簡訊平臺失敗-2 命令執行失敗-3 無可讀簡訊 function ConnectToServer(aServerName, aLogID, aPass: pchar): integer; stdcall ...
windows系統下的redis啟動教程

下載解壓後配置redis.conf文件配置埠號和密碼，打開poweshell命令，進入redis解壓目錄，使用.\redis-server.exe redis.conf 命令啟動redis服務，再打開一個powershell命令，通過命令.\redis-cli -h 127.0.0.1 -p 63 ...
C++使用Mysql的詳細步驟及各個常用方法的代碼演示：select,insert,update,delete

這幾天一直在學習C++下使用Mysql的方法及其中各種的問題，也看了很多Mysql的API函數，當然自己看的還是很基礎的。其實對於每種資料庫的操作，基本的方法都是非常類似的，大多都是connect,select,update,delete以及insert這幾個操作。接下來我就將這幾個步驟以代碼的方式 ...
Redis集群~StackExchange.redis連接Sentinel伺服器並訂閱相關事件（原創）

回到目錄對於redis-sentinel我在之前的文章中已經說過，它是一個仲裁者，當主master掛了後，它將在所有slave伺服器中進行選舉，選舉的原則當然可以看它的官方文章，這與我們使用者沒有什麼關係，而對於sentinel來說，它在進行主從切換時，會觸發相關事件，這是和我們開發人員有關係的， ...
sql-索引的作用(超詳細)

（一）深入淺出理解索引結構實際上，您可以把索引理解為一種特殊的目錄。微軟的SQL SERVER提供了兩種索引：聚集索引（clustered index，也稱聚類索引、簇集索引）和非聚集索引（nonclustered index，也稱非聚類索引、非簇集索引）。下麵，我們舉例來說明一下聚集索引和非聚集 ...
使用Spark分析拉勾網招聘信息(二): 獲取數據

要獲取什麼樣的數據? 我們要獲取的數據,是指那些公開的,可以輕易地獲取地數據.如果你有完整的數據集,肯定是極好的,但一般都很難通過還算正當的方式輕易獲取.單就本系列文章要研究的實時招聘信息來講,能獲取最近一個月的相關信息,已是足矣. 如何獲取數據? 爬蟲,也是可以的,作為一個備選方案.但是,我註意到 ...
Sql Server中查詢當天，最近三天，本周，本月，最近一個月，本季度的數據的sql語句

當天： select * from T_news where datediff(day,addtime,getdate())=0 最近三天： select * from T_news where datediff(day,addtime,getdate())<= 2 and datediff(day ...