spark2.4 分散式安裝

来源:https://www.cnblogs.com/xiguage119/archive/2019/04/22/10750131.html
-Advertisement-
Play Games

一.Spark2.0的新特性Spark讓我們引以為豪的一點就是所創建的API簡單、直觀、便於使用,Spark 2.0延續了這一傳統,併在兩個方面凸顯了優勢: 1、標準的SQL支持; 2、數據框(DataFrame)/Dataset (數據集)API的統一。 在SQL方面,我們已經對Spark的SQL ...


一.Spark2.0的新特性
Spark讓我們引以為豪的一點就是所創建的API簡單、直觀、便於使用,Spark 2.0延續了這一傳統,併在兩個方面凸顯了優勢:
  1、標準的SQL支持;
  2、數據框(DataFrame)/Dataset (數據集)API的統一。

  在SQL方面,我們已經對Spark的SQL功能做了重大拓展,引入了新的ANSI SQL解析器,並支持子查詢功能。Spark 2.0可以運行所有99個TPC-DS查詢(需求SQL:2003中的很多功能支持)。由於SQL是Spark應用所使用的主要介面之一,對SQL功能的拓展大幅削減了將遺留應用移植到Spark時所需的工作。

在編程API方面,我們合理化了API:

  1、在Scala/Java中統一了DataFrames與Dataset:從Spark 2.0開始,DataFrames只是行(row)數據集的typealias了。無論是映射、篩選、groupByKey之類的類型方法,還是select、groupBy之類的無類型方法都可用於Dataset的類。此外,這個新加入的Dataset介面是用作Structured Streaming的抽象,由於Python和R語言中編譯時類型安全(compile-time type-safety)不屬於語言特性,數據集的概念無法應用於這些語言API中。而DataFrame仍是主要的編程抽象,在這些語言中類似於單節點DataFrames的概念,想要瞭解這些API的相關信息,請參見相關筆記和文章。

  2、SparkSession:這是一個新入口,取代了原本的SQLContext與HiveContext。對於DataFrame API的用戶來說,Spark常見的混亂源頭來自於使用哪個“context”。現在你可以使用SparkSession了,它作為單個入口可以相容兩者,點擊這裡來查看演示。註意原本的SQLContext與HiveContext仍然保留,以支持向下相容。
更簡單、性能更佳的Accumulator API:我們設計了一個新的Accumulator API,不但在類型層次上更簡潔,同時還專門支持基本類型。原本的Accumulator API已不再使用,但為了向下相容仍然保留。

  3、基於DataFrame的機器學習API將作為主ML API出現:在Spark 2.0中,spark.ml包及其“管道”API會作為機器學習的主要API出現,儘管原本的spark.mllib包仍然保留,但以後的開發重點會集中在基於DataFrame的API上。

  4、機器學習管道持久化:現在用戶可以保留與載入機器學習的管道與模型了,Spark對所有語言提供支持。查看這篇博文以瞭解更多細節,這篇筆記中也有相關樣例。
R語言的分散式演算法:增加對廣義線性模型(GLM)、朴素貝葉斯演算法(NB演算法)、存活回歸分析(Survival Regression)與聚類演算法(K-Means)的支持。

二.Spark2.4 安裝
環境要求jdk 1.8以上版本,scala-2.12以上
基於的Hadoop版本,我的現有hadoop為2.6
官網下載時註意:http://spark.apache.org/downloads.html

安裝架構
h220 為主節點
H221,h222 為從節點
1.解壓縮spark
[hadoop@h220 spark]$ cp spark-2.4.1-bin-hadoop2.6.tgz /home/hadoop/
[hadoop@h220 ~]$ tar -zxvf spark-2.4.1-bin-hadoop2.6.tgz
2.安裝jdk,scala
[hadoop@h220 usr]$ tar -zxvf jdk-8u151-linux-x64.tar.gz
[hadoop@h220 ~]$ tar -zxvf scala-2.12.4.tgz
3.設置環境變數
[hadoop@h220 ~]$ vi .bash_profile
export JAVA_HOME=/usr/jdk1.8.0_151
export JAVA_BIN=/usr/jdk1.8.0_151/bin
export SCALA_HOME=/home/hadoop/scala-2.12.4
export SPARK_HOME=/home/hadoop/spark-2.4.1-bin-hadoop2.6

[hadoop@h220 ~]$ source .bash_profile

4.配置spark
[hadoop@h220 ~]$ cd spark-2.4.1-bin-hadoop2.6/conf/
[hadoop@h220 conf]$ cp spark-env.sh.template spark-env.sh
[hadoop@h220 conf]$ vi spark-env.sh
添加:
export JAVA_HOME=/usr/jdk1.8.0_151
export SCALA_HOME=/home/hadoop/scala-2.12.4
export SPARK_MASTER_IP=h220
export SPARK_WORDER_INSTANCES=1
export SPARK_WORKER_CORES=1
export SPARK_WORKER_MEMORY=1g
export HADOOP_HOME=/home/hadoop/hadoop-2.6.0-cdh5.5.2
export HADOOP_CONF_DIR=/home/hadoop/hadoop-2.6.0-cdh5.5.2/etc/hadoop

[hadoop@h220 conf]$ cp slaves.template slaves
[hadoop@h220 conf]$ vi slaves
刪除localhost
添加:
h221
h222

5.copy到從節點
配置ssh證書
[hadoop@h220 ~]$ scp -r spark-2.4.1-bin-hadoop2.6 h221:/home/hadoop/
[hadoop@h220 ~]$ scp -r spark-2.4.1-bin-hadoop2.6 h222:/home/hadoop/

6.啟動,驗證
主節點:
[hadoop@h220 spark-2.4.1-bin-hadoop2.6]$ sbin/start-all.sh
[hadoop@h220 spark-2.4.1-bin-hadoop2.6]$ jps
6970 Master
從節點:
[hadoop@h221 spark-2.4.1-bin-hadoop2.6]$ jps
3626 Worker
主節點:
[hadoop@h220 spark-2.4.1-bin-hadoop2.6]$ bin/spark-shell
沒有報錯


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • mysql語法中case when then與列轉行的使用場景非常豐富。 case語句類似java中條件分支語句的作用,可以類比java中的switch語句或者if語句來學習。 其語法如下: case語句的語法: 轉換單個欄位時: case 欄位 when 欄位值 then 返回值 when 欄位值 ...
  • JDBC(Java DataBase Connector) :定義了一系列的介面用於資料庫的操作 要掌握的介面: java.sql.Driver : -->驅動 java.sql.Connection -->連接 java.sql.Statement -->靜態處理塊 java.sql.Prepar ...
  • 更新緩存的時候涉及兩個問題: 刪除(del)還是 修改(set)? 先操作資料庫,還是 先操作緩存? 組合起來就有四種情況: 第一種情況:先刪除緩存,後更新資料庫 如果刪除緩存失敗,則後面的操作都不會執行,沒問題; 如果刪除緩存成功,更新資料庫失敗,則緩存與資料庫不一致,但這種不一致會馬上被修正, ...
  • SQL操作符 算術操作符:+加, 減, 乘,/除 比較操作符: ,=,!=,,= 常用的判斷,和!=相同 between $lower_val$ and $hight_val$ between .. and.. 包括兩端 查詢20 ...
  • 這一篇筆記的mysql優化是註重於查詢優化,根據mysql的執行情況,判斷mysql什麼時候需要優化,關於資料庫開始階段的資料庫邏輯、物理結構的設計結構優化不是本文重點,下次再談 查看mysql語句的執行情況,判斷是否需要進行優化 以下分別通過java程式員可分析的前三個方面來討論mysql語句的查 ...
  • 1.按姓氏筆畫排序:Select * From TableName Order By CustomerName Collate Chinese_PRC_Stroke_ci_as 2.資料庫加密:select encrypt('原始密碼')select pwdencrypt('原始密碼')select ...
  • mysql優化二之鎖機制 mysql提供了鎖機制和MVCC機制來保證併發操作的安全性,這裡主要討論鎖機制, MVCC見下篇文章 mysql的鎖按照鎖粒度可分為行鎖與表鎖,按照操作類型劃分可讀鎖和寫鎖 InnoDB存儲引擎支持表鎖和行鎖,預設鎖為行鎖,MyIsam只支持表鎖 鎖粒度越高則併發性越好 表 ...
  • SQL中只有兩列數據(欄位1,欄位2),將其相同欄位1的行轉列 轉換前: 轉換後: 轉自:https://bbs.csdn.net/topics/392320974 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...