spark-2.4.0-hadoop2.7-簡單操作

来源:https://www.cnblogs.com/zhanglianghhh/archive/2018/12/02/10054856.html
-Advertisement-
Play Games

1. 說明 本文基於:spark-2.4.0-hadoop2.7-高可用(HA)安裝部署 2. 啟動Spark Shell 在任意一臺有spark的機器上執行 註意: 如果啟動spark shell時沒有指定master地址,但是也可以正常啟動spark shell和執行spark shell中的程 ...


 

1. 說明

本文基於:spark-2.4.0-hadoop2.7-高可用(HA)安裝部署

 

 

2. 啟動Spark Shell

  在任意一臺有spark的機器上執行

 1 # --master spark://mini02:7077  連接spark的master,這個master的狀態為alive,而不是standby
 2 # --total-executor-cores 2  總共占用2核CPU
 3 # --executor-memory 512m  每個woker占用512m記憶體
 4 [yun@mini03 ~]$ spark-shell --master spark://mini02:7077 --total-executor-cores 2 --executor-memory 512m  
 5 2018-11-25 12:07:39 WARN  NativeCodeLoader:62 - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
 6 Setting default log level to "WARN".
 7 To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
 8 Spark context Web UI available at http://mini03:4040
 9 Spark context available as 'sc' (master = spark://mini02:7077, app id = app-20181125120746-0001).
10 Spark session available as 'spark'.
11 Welcome to
12       ____              __
13      / __/__  ___ _____/ /__
14     _\ \/ _ \/ _ `/ __/  '_/
15    /___/ .__/\_,_/_/ /_/\_\   version 2.4.0
16       /_/
17          
18 Using Scala version 2.11.12 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_112)
19 Type in expressions to have them evaluated.
20 Type :help for more information.
21 
22 scala> sc
23 res0: org.apache.spark.SparkContext = org.apache.spark.SparkContext@77e1b84c

 

註意:

  如果啟動spark shell時沒有指定master地址,但是也可以正常啟動spark shell和執行spark shell中的程式,其實是啟動了spark的local模式,該模式僅在本機啟動一個進程,沒有與集群建立聯繫。

 

2.1. 相關截圖

 

 

3. 執行第一個spark程式

  該演算法是利用蒙特•卡羅演算法求PI

 1 [yun@mini03 ~]$ spark-submit \
 2  --class org.apache.spark.examples.SparkPi \
 3  --master spark://mini02:7077 \
 4  --total-executor-cores 2 \
 5  --executor-memory 512m \
 6  /app/spark/examples/jars/spark-examples_2.11-2.4.0.jar 100
 7 # 列印的信息如下:
 8 2018-11-25 12:25:42 WARN  NativeCodeLoader:62 - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
 9 2018-11-25 12:25:43 INFO  SparkContext:54 - Running Spark version 2.4.0
10 ………………
11 2018-11-25 12:25:49 INFO  TaskSetManager:54 - Finished task 97.0 in stage 0.0 (TID 97) in 20 ms on 172.16.1.14 (executor 0) (98/100)
12 2018-11-25 12:25:49 INFO  TaskSetManager:54 - Finished task 98.0 in stage 0.0 (TID 98) in 26 ms on 172.16.1.13 (executor 1) (99/100)
13 2018-11-25 12:25:49 INFO  TaskSetManager:54 - Finished task 99.0 in stage 0.0 (TID 99) in 25 ms on 172.16.1.14 (executor 0) (100/100)
14 2018-11-25 12:25:49 INFO  TaskSchedulerImpl:54 - Removed TaskSet 0.0, whose tasks have all completed, from pool 
15 2018-11-25 12:25:49 INFO  DAGScheduler:54 - ResultStage 0 (reduce at SparkPi.scala:38) finished in 3.881 s
16 2018-11-25 12:25:49 INFO  DAGScheduler:54 - Job 0 finished: reduce at SparkPi.scala:38, took 4.042591 s
17 Pi is roughly 3.1412699141269913
18 ………………

 

 

4. Spark shell求Word count 【結合Hadoop】

1、啟動Hadoop

2、將文件放到Hadoop中

 1 [yun@mini05 sparkwordcount]$ cat wc.info 
 2 zhang linux
 3 linux tom
 4 zhan kitty
 5 tom  linux
 6 [yun@mini05 sparkwordcount]$ hdfs dfs -ls /
 7 Found 4 items
 8 drwxr-xr-x   - yun supergroup          0 2018-11-16 11:36 /hbase
 9 drwx------   - yun supergroup          0 2018-11-14 23:42 /tmp
10 drwxr-xr-x   - yun supergroup          0 2018-11-14 23:42 /wordcount
11 -rw-r--r--   3 yun supergroup   16402010 2018-11-14 23:39 /zookeeper-3.4.5.tar.gz
12 [yun@mini05 sparkwordcount]$ hdfs dfs -mkdir -p /sparkwordcount/input
13 [yun@mini05 sparkwordcount]$ hdfs dfs -put wc.info /sparkwordcount/input/1.info
14 [yun@mini05 sparkwordcount]$ hdfs dfs -put wc.info /sparkwordcount/input/2.info
15 [yun@mini05 sparkwordcount]$ hdfs dfs -put wc.info /sparkwordcount/input/3.info
16 [yun@mini05 sparkwordcount]$ hdfs dfs -put wc.info /sparkwordcount/input/4.info
17 [yun@mini05 sparkwordcount]$ hdfs dfs -ls /sparkwordcount/input
18 Found 4 items
19 -rw-r--r--   3 yun supergroup         45 2018-11-25 14:41 /sparkwordcount/input/1.info
20 -rw-r--r--   3 yun supergroup         45 2018-11-25 14:41 /sparkwordcount/input/2.info
21 -rw-r--r--   3 yun supergroup         45 2018-11-25 14:41 /sparkwordcount/input/3.info
22 -rw-r--r--   3 yun supergroup         45 2018-11-25 14:41 /sparkwordcount/input/4.info

 

3、進入spark shell命令行,並計算

1 [yun@mini03 ~]$ spark-shell --master spark://mini02:7077 --total-executor-cores 2 --executor-memory 512m  
2 # 計算完畢後,列印在命令行
3 scala> sc.textFile("hdfs://mini01:9000/sparkwordcount/input").flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).sortBy(_._2, false).collect  
4 res6: Array[(String, Int)] = Array((linux,12), (tom,8), (kitty,4), (zhan,4), ("",4), (zhang,4))  
5 # 計算完畢後,保存在HDFS【因為有多個文件組成,則有多個reduce,所以輸出有多個文件】
6 scala> sc.textFile("hdfs://mini01:9000/sparkwordcount/input").flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).sortBy(_._2, false).saveAsTextFile("hdfs://mini01:9000/sparkwordcount/output")
7 # 計算完畢後,保存在HDFS【將reduce設置為1,輸出就只有一個文件】
8 scala> sc.textFile("hdfs://mini01:9000/sparkwordcount/input").flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_, 1).sortBy(_._2, false).saveAsTextFile("hdfs://mini01:9000/sparkwordcount/output1")

 

4、在HDFS的查看結算結果

 1 [yun@mini05 sparkwordcount]$ hdfs dfs -ls /sparkwordcount/
 2 Found 2 items
 3 drwxr-xr-x   - yun supergroup          0 2018-11-25 15:03 /sparkwordcount/input
 4 drwxr-xr-x   - yun supergroup          0 2018-11-25 15:05 /sparkwordcount/output
 5 drwxr-xr-x   - yun supergroup          0 2018-11-25 15:07 /sparkwordcount/output1
 6 [yun@mini05 sparkwordcount]$ hdfs dfs -ls /sparkwordcount/output
 7 Found 5 items
 8 -rw-r--r--   3 yun supergroup          0 2018-11-25 15:05 /sparkwordcount/output/_SUCCESS
 9 -rw-r--r--   3 yun supergroup          0 2018-11-25 15:05 /sparkwordcount/output/part-00000
10 -rw-r--r--   3 yun supergroup         11 2018-11-25 15:05 /sparkwordcount/output/part-00001
11 -rw-r--r--   3 yun supergroup          8 2018-11-25 15:05 /sparkwordcount/output/part-00002
12 -rw-r--r--   3 yun supergroup         34 2018-11-25 15:05 /sparkwordcount/output/part-00003
13 [yun@mini05 sparkwordcount]$ 
14 [yun@mini05 sparkwordcount]$ hdfs dfs -cat /sparkwordcount/output/part*
15 (linux,12)
16 (tom,8)
17 (,4)
18 (zhang,4)
19 (kitty,4)
20 (zhan,4)
21 ###############################################
22 [yun@mini05 sparkwordcount]$ hdfs dfs -ls /sparkwordcount/output1
23 Found 2 items
24 -rw-r--r--   3 yun supergroup          0 2018-11-25 15:07 /sparkwordcount/output1/_SUCCESS
25 -rw-r--r--   3 yun supergroup         53 2018-11-25 15:07 /sparkwordcount/output1/part-00000
26 [yun@mini05 sparkwordcount]$ hdfs dfs -cat /sparkwordcount/output1/part-00000 
27 (linux,12)
28 (tom,8)
29 (,4)
30 (zhang,4)
31 (kitty,4)
32 (zhan,4)

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1. 主機規劃 主機名稱 IP地址 操作系統 部署軟體 運行進程 備註 mini01 172.16.1.11【內網】 10.0.0.11 【外網】 CentOS 7.5 Jdk-8、zookeeper-3.4.5、Hadoop2.7.6、hbase-2.0.2、kafka_2.11-2.0.0、sp ...
  • "參考1 https://computing.llnl.gov/tutorials/pthreads/" "參考2 http://man7.org/linux/man pages/man7/pthreads.7.html" join 阻塞調用線程,直至指定pthread_t線程終止 在同一個線程中重 ...
  • CPU上下文頻繁切換會導致系統性能下降,切換分為進程切換、線程切換及中斷切換,進程切換的開銷較大,除了需要保存寄存器和程式計數器中的值還需保存全局變數、棧等到記憶體中,以便下次運行恢復,而同一進程中的線程切換開銷會小很多,只需更新寄存器和線程獨有的棧,共用資源如打開的文件、全局變數等無需切換,當硬體中... ...
  • [root@lamp02 yum.repos.d]# yum install nfs-utils rpcbind -y Loaded plugins: fastestmirror, securityExisting lock /var/run/yum.pid: another copy is run ...
  • 一、 alias 命令:系統設置命令別名 用法:alias [-p] [name[=value] ... ] 註意‘=’和字元串之間不能包含空格 顯示當前設置的別名:alias 或 alias –p 1 [root@localhost ~]# alias 2 3 alias cp='cp -i' 4 ...
  • 輸入 yum install mysql-server 按Y繼續 安裝完成,設置開機啟動Mysql,輸入 chkconfig --levels 235 mysqld on 然後啟動tomcat,輸入service mysqld start 啟動完畢,然後登錄MYsql設置密碼 輸入set passw ...
  • 開發板 : JZ2440 Linux內核 : Linux-2.6.22.6 Busybox1.29.3 最小根文件系統所需的部分: 1./dev/console /dev/null :創建根文件系統所必備的,指出了所需要的標準輸入,標準輸出,標準錯誤設備終端。 2.init 程式: 當busybox ...
  • 一. 聚合框架 聚合框架是MongoDB的高級查詢語言,它允許我們通過轉換和合併多個文檔中的數據來生成新的單個文檔中不存在的信息。 聚合管道操作主要包含下麵幾個部分: $lookup 在本篇幅中,我們聚焦$lookup的使用。 二. $lookup的功能及語法 1. 主要功能 是將每個輸入待處理的文 ...
一周排行
    -Advertisement-
    Play Games
  • 前言 本文介紹一款使用 C# 與 WPF 開發的音頻播放器,其界面簡潔大方,操作體驗流暢。該播放器支持多種音頻格式(如 MP4、WMA、OGG、FLAC 等),並具備標記、實時歌詞顯示等功能。 另外,還支持換膚及多語言(中英文)切換。核心音頻處理採用 FFmpeg 組件,獲得了廣泛認可,目前 Git ...
  • OAuth2.0授權驗證-gitee授權碼模式 本文主要介紹如何筆者自己是如何使用gitee提供的OAuth2.0協議完成授權驗證並登錄到自己的系統,完整模式如圖 1、創建應用 打開gitee個人中心->第三方應用->創建應用 創建應用後在我的應用界面,查看已創建應用的Client ID和Clien ...
  • 解決了這個問題:《winForm下,fastReport.net 從.net framework 升級到.net5遇到的錯誤“Operation is not supported on this platform.”》 本文內容轉載自:https://www.fcnsoft.com/Home/Sho ...
  • 國內文章 WPF 從裸 Win 32 的 WM_Pointer 消息獲取觸摸點繪製筆跡 https://www.cnblogs.com/lindexi/p/18390983 本文將告訴大家如何在 WPF 裡面,接收裸 Win 32 的 WM_Pointer 消息,從消息裡面獲取觸摸點信息,使用觸摸點 ...
  • 前言 給大家推薦一個專為新零售快消行業打造了一套高效的進銷存管理系統。 系統不僅具備強大的庫存管理功能,還集成了高性能的輕量級 POS 解決方案,確保頁面載入速度極快,提供良好的用戶體驗。 項目介紹 Dorisoy.POS 是一款基於 .NET 7 和 Angular 4 開發的新零售快消進銷存管理 ...
  • ABP CLI常用的代碼分享 一、確保環境配置正確 安裝.NET CLI: ABP CLI是基於.NET Core或.NET 5/6/7等更高版本構建的,因此首先需要在你的開發環境中安裝.NET CLI。這可以通過訪問Microsoft官網下載並安裝相應版本的.NET SDK來實現。 安裝ABP ...
  • 問題 問題是這樣的:第三方的webapi,需要先調用登陸介面獲取Cookie,訪問其它介面時攜帶Cookie信息。 但使用HttpClient類調用登陸介面,返回的Headers中沒有找到Cookie信息。 分析 首先,使用Postman測試該登陸介面,正常返回Cookie信息,說明是HttpCli ...
  • 國內文章 關於.NET在中國為什麼工資低的分析 https://www.cnblogs.com/thinkingmore/p/18406244 .NET在中國開發者的薪資偏低,主要因市場需求、技術棧選擇和企業文化等因素所致。歷史上,.NET曾因微軟的閉源策略發展受限,儘管後來推出了跨平臺的.NET ...
  • 在WPF開發應用中,動畫不僅可以引起用戶的註意與興趣,而且還使軟體更加便於使用。前面幾篇文章講解了畫筆(Brush),形狀(Shape),幾何圖形(Geometry),變換(Transform)等相關內容,今天繼續講解動畫相關內容和知識點,僅供學習分享使用,如有不足之處,還請指正。 ...
  • 什麼是委托? 委托可以說是把一個方法代入另一個方法執行,相當於指向函數的指針;事件就相當於保存委托的數組; 1.實例化委托的方式: 方式1:通過new創建實例: public delegate void ShowDelegate(); 或者 public delegate string ShowDe ...