(資源整理)帶你入門Spark

来源:http://www.cnblogs.com/shiyanlou/archive/2016/12/15/6183389.html
-Advertisement-
Play Games

一、Spark簡介: 以下是百度百科對Spark的介紹: Spark 是一種與 Hadoop 相似的開源集群計算環境,但是兩者之間還存在一些不同之處,這些有用的不同之處使 Spark 在某些工作負載方面表現得更加優越,換句話說,Spark 啟用了記憶體分佈數據集,除了能夠提供互動式查詢外,它還可以優化 ...


一、Spark簡介:

以下是百度百科對Spark的介紹:

Spark 是一種與 Hadoop 相似的開源集群計算環境,但是兩者之間還存在一些不同之處,這些有用的不同之處使 Spark 在某些工作負載方面表現得更加優越,換句話說,Spark 啟用了記憶體分佈數據集,除了能夠提供互動式查詢外,它還可以優化迭代工作負載。

Spark 是在 Scala 語言中實現的,它將 Scala 用作其應用程式框架。與 Hadoop 不同,Spark 和 Scala 能夠緊密集成,其中的 Scala 可以像操作本地集合對象一樣輕鬆地操作分散式數據集。

二、Spark生態圈介紹

Spark力圖整合機器學習(MLib)、圖演算法(GraphX)、流式計算(Spark Streaming)和數據倉庫(Spark SQL)等領域,通過計算引擎Spark,彈性分散式數據集(RDD),架構出一個新的大數據應用平臺。

Spark生態圈以HDFS、S3、Techyon為底層存儲引擎,以Yarn、Mesos和Standlone作為資源調度引擎;使用Spark,可以實現MapReduce應用;基於Spark,Spark SQL可以實現即席查詢,Spark Streaming可以處理實時應用,MLib可以實現機器學習演算法,GraphX可以實現圖計算,SparkR可以實現複雜數學計算。

Spark生態圈介紹

這一段摘選自:點這裡

三、Spark教程

有很多想要學習Spark的小伙伴都是自學的,但是網上的教程太多太雜太零散,其實並不適合一個Spark小白的人學習,而我們實驗樓剛好又有一些系列的教程,因此整理出來,希望對Spark學習者有所幫助~

我們就按照上圖的生態圈,從左到右的順序介紹課程吧;

1、Spark 講堂之 SQL 入門

Spark SQL 是一個分散式查詢引擎,在這個教程里你可以學習到 Spark SQL 的基礎知識和常用 API 用法,瞭解常用的數學和統計函數。最後將通過一個分析股票價格與石油價格關係的實例進一步學習如何利用 Spark SQL 分析數據。

2、Spark 講堂之 Streaming 入門

Spark Streaming 適用於實時處理流式數據。該教程帶你學習 Spark Streaming 的工作機制,瞭解 Streaming 應用的基本結構,以及如何在 Streaming 應用中附加 SQL 查詢。

附帶一張Streaming圖:

Streaming

3、Spark 講堂之 MLlib 入門

這個教程你可以瞭解到 Spark 的 MLlib 庫相關知識,掌握 MLlib 的幾個基本數據類型,並且可以動手練習如何通過機器學習中的一些演算法來推薦電影。

4、Spark 講堂之 GraphX 入門

GraphX是Spark用於解決圖和並行圖計算問題的新組件。GraphX通過RDD的擴展,在其中引入了一個新的圖抽象,即頂點和邊帶有特性的有向多重圖,提供了一些基本運算符和優化了的Pregel API,來支持圖計算。

5、Spark 講堂之 GraphX 圖演算法

GraphX包含了一些用於簡化圖分析任務的的圖計算演算法。你可以通過圖操作符來直接調用其中的方法。這個教程中講解這些演算法的含義,以及如何實現它們。

6、Spark 講堂之 SparkR 入門

SparkR是一個提供輕量級前端的R包,集成了Spark的分散式計算和存儲等特性。這個教程將以較為輕鬆的方式帶你學習如何在SparkR中創建和操作DataFrame,如何應用SQL查詢和機器學習演算法等。

7、Spark 講堂之 DataFrame 入門

DataFrame讓Spark具備了處理大規模結構化數據的能力,在比原有的RDD轉化方式更加易用、計算性能更好。這個教程通過一個簡單的數據集分析任務,講解DataFrame的由來、構建方式以及一些常用操作。

8、Spark 講堂之 DataFrame 詳解

這個教程通過更加深入的講解,使用真實的數據集,並結合實際問題分析過程作為引導,旨在讓Spark學習者掌握DataFrame的高級操作技巧,如創建DataFrame的兩種方式、UDF等。

9、Sqoop 數據遷移工具

Sqoop 是大數據環境中重要的是數據轉換工具,這個教程對Sqoop 的安裝配置進行了詳細的講解,併列舉了Sqoop 在數據遷移過程中基本操作指令。

以上9個教程比較適合有一定的Spark基礎的人學習。

10、Spark 大數據動手實驗

這個教程是一個系統性的教程,總共15個小節,帶你親身體驗Spark大數據分析的魅力,課程中可以實踐:
Spark,Scala,Python,Spark Streaming,SparkSQL,MLlib,GraphX,IndexedRDD,SparkR,Tachyon,KeystoneML,BlinkDB等技術點,無疑是學習Spark最快的上手教程!

這個教程較為系統,非常適合零基礎的人進行學習。

最後

希望以上10個教程可以幫助想入門Spark的人,入門之後,你自然會知道如何讓自己的技術更上一層樓,也自然會有意無意去收集整理Spark學習資源和資料,因此這裡就不多介紹了。



您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 這是一篇我曾經拜讀過的資料庫基礎總結性的文章,原文出自園友 "游戲世界" 。最近想重新鞏固一遍,不過原文訪問受限,我在某網站找到爬蟲版,重新排版後轉載至此處。 1.什麼是SQL語句 SQL語言,結構化的查詢語言(Structured Query Language),是關係資料庫管理系統的標準語言。它 ...
  • 初識spark,需要對其API有熟悉的瞭解才能方便開發上層應用。本文用圖形的方式直觀表達相關API的工作特點,並提供瞭解新的API介面使用的方法。例子代碼全部使用python實現。 1. 數據源準備 準備輸入文件: 啟動pyspark: 使用textFile創建RDD: 查看RDD分區與數據: 2. ...
  • 你正在使用 SQL Server 的哪個版本? "我是誰" SQL Server 及其組件的版本、版本類別和更新級別? 作為一個SQL Server資料庫管理者或維護、支持人員,應該會經常問自己這樣一個問題:我當前SQL Server版本號是?當前版本已經有的累計更新、安全更新包有哪些?這麼多包要選 ...
  • 1、環境 centos7 hadoop2.6.5 zookeeper3.4.9 jdk1.8 master作為active主機,data1作為standby備用機,三台機器均作為數據節點,yarn資源管理器在master上開啟,在data1上備用,data1上開啟歷史伺服器 主要參考見下表 Data ...
  • 在Disk-Base資料庫中,如果系統頻繁地創建和更新臨時表,大量的IO操作集中在tempdb中,tempdb很可能成為系統性能的瓶頸。在SQL Server 2016的記憶體(Memory-Optimized)資料庫中,如果考慮使用記憶體優化結構來存儲臨時表,表變數,表值參數的數據,那麼將完全消除IO ...
  • Microsoft SQL Server 2005 提供了一些工具來監控資料庫。方法之一是動態管理視圖。動態管理視圖 (DMV) 和動態管理函數 (DMF) 返回的伺服器狀態信息可用於監控伺服器實例的運行狀況、診斷問題和優化性能。常規伺服器動態管理對象包括:– dm_db_*:資料庫和資料庫對象– ...
  • 我們知道當ORACLE資料庫啟用共用伺服器模式時,通過共用伺服器模式連接到資料庫的會話是有一些特征的。在v$session裡面,其SERVER的狀態一般為SHARED和NONE, 為SHARED時,表示當前會話正在執行SQL語句,其占用共用伺服器進程,會話的STATUS狀態為ACTIVE;當會話狀態... ...
  • 行級安全RLS(Row-Level Security)是在數據行級別上控制用戶的訪問,控制用戶只能訪問資料庫表的特定數據行。斷言是邏輯表達式,在SQL Server 2016中,RLS是基於安全斷言(Security Predicate)的訪問控制,Security Predicate是由內聯表值函 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...