Spark-Unit1-spark概述與安裝部署

来源:https://www.cnblogs.com/HelloBigTable/archive/2019/01/12/10261420.html
-Advertisement-
Play Games

一、Spark概述 spark官網:spark.apache.org Spark是用的大規模數據處理的統一計算引擎,它是為大數據處理而設計的快速通用的計算引擎。spark誕生於加油大學伯克利分校AMP實驗室。 mapreduce(MR)與spark的對比: 1.MR在計算中產生的結果存儲在磁碟上,s ...


一、Spark概述

  spark官網:spark.apache.org

  Spark是用的大規模數據處理的統一計算引擎,它是為大數據處理而設計的快速通用的計算引擎。spark誕生於加油大學伯克利分校AMP實驗室。

  mapreduce(MR)與spark的對比:

    1.MR在計算中產生的結果存儲在磁碟上,spark存儲在記憶體中;

    2.磁碟運行spark的速度是MR的10倍,記憶體運行spark是MR的100多倍;

    3.spark並不是為了替代Hadoop,而是為了補充Hadoop;

    4.spark沒有存儲,但他可以繼承HDFS。

  Spark啟用的是記憶體分散式數據集,而Scala語言可以輕鬆的處理分散式數據集,Scala語言可以說是為Spark而生的,而Spark 的出現推動了Scala語言的發展。

 

二、Spark特點

  1.速度快

    磁碟運行spark的速度是MR的10倍,記憶體運行spark是MR的100多倍;

    Spark使用最先進的DAG調度程式,查詢優化器和物理執行引擎,實現批處理和流處理的高性能。

    註釋:DAG:有向無環圖,上一個RDD的計算結果作為下一個RDD計算的初始值,可以迭代成千上萬次。

          查詢優化器:指的是spark sql

       批處理:spark sql

       流處理:spark streaming

  2.便於使用

    支持Java/Scala/python/R/SQL編寫應用程式

  3.通用性高

    不僅支持批處理、流處理,

    還支持機器學習(MLlib:machine learning library)和圖形計算(GraphX)

  4.相容性高

    Spark運行在Hadoop,Apache Mesos。Kubernetes,獨立或雲端。它可以訪問各種數據源。

    Spark實現了Standalone模式作為內置的資源管理和調度框架。

 

三、Spark的安裝部署

  1.準備工作:

    新建三台虛擬機(建議2G記憶體,1G也可以)/使用遠程連接工具連接 / 關閉防火牆 / 修改主機名

    / 修改映射文件 / 設置免密登陸 / 安裝jdk(1.8以上版本)

  2.在官網下載spark 安裝包(我是2.2.0版本)

    然後上傳到Linux系統,解壓,刪包,重命名

  3.修改spark部分配置文件

    進入spark->conf

    1)重命名spark-env.sh.template 為 spark-env.sh,進入該文件

    添加配置信息:

    export JAVA_HOME=/root/sk/jdk1.8.0_132    //jdk安裝路徑

    export SPARK_MASTER_HOST=spark-01    //spark主節點機器名

    export SPARK_MASTER_PORT=7077       //spark主機點埠號

    2)重命名slaves.template(好像是這個)為slaves,進入該文件

    刪除最後一行“localhost”

    添加:spark-02

       spark-03    //其他兩台從節點worker,便於一鍵啟動

  4.發送修改好的spark解壓文件夾到其他兩台機器

    scp -r sprk sprk-02:$PWD

  5.啟動spark,訪問web頁面

    在spark 的sbin目錄下輸入命令:

    ./start-all.sh

    然後通過ip:埠號訪問UI界面,如:

    192.168.50.186:8080

四、Spark的UI界面詳解
   URL:統一資源定位符,spark-master的訪問地址
   REST URL:可以通過rest的方式訪問集群
   Alive Workers:存活的worker數量
   cores in use:可以使用的核心數量
   Memory in use:可以使用的記憶體大小
   Applications:正在運行和已經完成的應用程式
   Driver:通過driver提交的任務情況
   Status:節點的狀態

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 我們經常花費大量的時間來進行使用瀏覽器搜索網頁,如何進行高效的搜索,需要掌握一些快捷鍵: 使用這些快捷鍵可以,讓游標快速定位到地址欄進行使用預設引擎搜索! 資源來源自網路,保持更新,轉載請註明出處。 ...
  • 今天維護系統時發現一個非常詭異的問題:AAA用戶和BBB用戶同屬AAA組,但用AAA用戶創建的文件,許可權設置為777後,還是不能用BBB用戶刪除。詭異! 幾經周轉,發現AAA用戶創建文件位置的上層目錄的許可權是drwxrwxrwt,做開發這麼多年了,還沒見過所謂"t"的許可權,於是找了一位公司的linu ...
  • cobbler網路裝機 原理分析 cobbler簡介 Cobbler通過將設置和管理一個安裝伺服器所涉及的任務集中在一起,從而簡化了系統配置。相當於Cobbler封裝了DHCP、TFTP、XINTED等服務,結合了PXE、kickstart等安裝方法,可以實現自動化安裝操作系統,並且可以同時提供多種 ...
  • 有時我們在安裝系統後,發現沒有安裝當前系統的內核源碼在/usr/src/kernels目錄下,其實我們是少安裝了一個rpm包; 當你配置好yum源後: 更多源碼網址:https://mirrors.tuna.tsinghua.edu.cn/kernel/ 保持更新,轉載請註明出處。 ...
  • FUSE 倉庫 Wiki FUSE 性能評測 關於Fuse文件系統: FUSE (Filesystem in Userspace) is an interface for userspace programs to export a filesystem to the Linux kernel. T ...
  • 一 kubectl介紹 1.1 kubectl概要 kubectl控制Kubernetes集群管理器,使用Kubernetes命令行工具kubectl在Kubernetes上部署和管理應用程式。使用kubectl,您可以檢查群集資源; 創建,刪除和更新組件; 看看你的新集群; 並提出示例應用程式。 ...
  • 在日常運維中,GTID帶來的最方便的作用就是搭建和維護主從複製。GTID的主從模式代替了MySQL早期版本中利用二進位日誌文件的名稱和日誌位置的做法,使用GTID使操作和維護都變得更加簡潔和可高。 1.GTID的優點 (1)基於GTID搭建主從複製根據簡單。 (2)可以確保每個事務只會被執行一次。 ...
  • hadoop wordcout測試 安裝好hadoop 環境後,啟動HDFS等服務;輸密碼 1004 start-all.sh 查看啟動情況 1006 jps 1007 cd ~ 切換到用戶預設目錄 創建數據文件data.txt,輸送值 hello beijing hello China 1028 ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...