Python3實戰Spark大數據分析及調度 (網盤分享)

来源:https://www.cnblogs.com/nobug123/archive/2019/09/15/11524436.html
-Advertisement-
Play Games

Python3實戰Spark大數據分析及調度 搜索QQ號直接加群獲取其它學習資料:715301384 部分課程截圖: 鏈接:https://pan.baidu.com/s/12VDmdhN4hr7ypdKTJvvgKg 提取碼:cv9z PS:免費分享,若點擊鏈接無法獲取到資料,若如若鏈接失效請加群 ...


Python3實戰Spark大數據分析及調度

搜索QQ號直接加群獲取其它學習資料:715301384

 

 部分課程截圖:

 

鏈接:https://pan.baidu.com/s/12VDmdhN4hr7ypdKTJvvgKg 

提取碼:cv9z

PS:免費分享,若點擊鏈接無法獲取到資料,若如若鏈接失效請加群

其它資源在群里,私聊管理員即可免費領取;群——715301384,點擊加群,或掃描二維碼

 

 

 

 

 

 

 

 

 

 

 

 

 

  • 第1章 課程介紹

    課程介紹

    •  1-1 PySpark導學試看
    •  1-2 OOTB環境演示
  • 第2章 實戰環境搭建

    工欲善其事必先利其器,本章講述JDK、Scala、Hadoop、Maven、Python3以及Spark源碼編譯及部署

    •  2-1 -課程目錄
    •  2-2 -Java環境搭建
    •  2-3 -Scala環境搭建
    •  2-4 -Hadoop環境搭建
    •  2-5 -Maven環境搭建
    •  2-6 -Python3環境部署
    •  2-7 -Spark源碼編譯及部署
  • 第3章 Spark Core核心RDD

    本章詳細講解RDD是什麼以及特性(面試常考)、Spark中兩個核心類SparkContext和SparkConf、pyspark啟動腳本分析、RDD的創建方式以及如何使用IDE開發Python Spark應用程式並提交到伺服器上運行

    •  3-1 -課程目錄
    •  3-2 -RDD是什麼
    •  3-3 -通過電影描述集群的強大之處
    •  3-4 -RDD的五大特性
    •  3-5 -RDD特性在源碼中的體現試看
    •  3-6 -圖解RDD
    •  3-7 -SparkContext&SparkConf詳解
    •  3-8 -pyspark
    •  3-9 -RDD創建方式一
    •  3-10 -RDD創建方式二
    •  3-11 -使用IDE開發pyspark應用程式
    •  3-12 -提交pyspark作業到伺服器上運行
  • 第4章 Spark Core RDD編程

    本章將針對RDD中常用的運算元進行詳細案例講解,併進行綜合案例實戰

    •  4-1 -課程目錄
    •  4-2 -RDD常用操作
    •  4-3 -map運算元使用詳解
    •  4-4 -filter運算元詳解
    •  4-5 -flatMap運算元詳解
    •  4-6 -groupByKey運算元詳解
    •  4-7 -reduceByKey運算元詳解
    •  4-8 -sortByKey運算元詳解
    •  4-9 -union運算元使用詳解
    •  4-10 -distinct運算元使用詳解
    •  4-11 -join運算元詳解
    •  4-12 -action常用運算元詳解
    •  4-13 -運算元綜合案例實戰一詞頻統計
    •  4-14 -運算元綜合案例實戰之詞頻統計重構
    •  4-15 -運算元綜合案例實戰之TopN統計
    •  4-16 -運算元綜合案例實戰之平均數統計
  • 第5章 Spark運行模式

    本章將介紹Spark的幾種運行模式,需要重點掌握on YARN模式

    •  5-1 -課程目錄
    •  5-2 -local模式運行
    •  5-3 -standalone模式環境搭建及pyspark運行
    •  5-4 -standalone模式spark-submit運行
    •  5-5 -yarn運行模式詳解
  • 第6章 Spark Core進階

    本章將介紹Spark中的核心術語、運行架構、並對比Spark和MapReduce的概念區分、存儲策略及選擇方式、寬窄依賴及Shuffle

    •  6-1 -課程目錄
    •  6-2 -Spark核心概念詳解
    •  6-3 -結合Spark UI詳解Spark核心概念試看
    •  6-4 -Spark運行架構及註意事項
    •  6-5 -Spark和Hadoop重要概念區分
    •  6-6 -Spark緩存的作用
    •  6-7 -Spark緩存概述
    •  6-8 -Spark緩存策略詳解
    •  6-9 -Spark緩存策略選擇依據
    •  6-10 -Spark Lineage機制
    •  6-11 -Spark窄依賴和寬依賴
    •  6-12 -Spark Shuffle概述
    •  6-13 -圖解RDD的shuffle以及依賴關係
  • 第7章 Spark Core調優

    本章將從Spark作業性能指標、序列化、記憶體管理、廣播變數及數據本地化這幾個方面來介紹Spark作業的調優

    •  7-1 -課程目錄
    •  7-2 -優化之HistoryServer配置及使用
    •  7-3 -優化之序列化
    •  7-4 -優化之記憶體管理
    •  7-5 -優化之廣播變數
    •  7-6 -優化之數據本地性
  • 第8章 Spark SQL

    本章將講解Spark SQL的架構、DataFrame&Dataset、以及如何使用Python API來對DataFrame進行編程

    •  8-1 -課程目錄
    •  8-2 -Spark SQL前世今生
    •  8-3 -Spark SQL概述&錯誤認識糾正
    •  8-4 -Spark SQL架構
    •  8-5 -DataFrame&Dataset詳解
    •  8-6 -DataFrame API編程
    •  8-7 -RDD與DataFrame互操作方法一
    •  8-8 -RDD與DataFrame互操作方法二
    •  8-9 -Spark SQL其他
  • 第9章 Spark Streaming

    本章將講解Spark Streaming的核心概念、執行原理、以及如何Python API來對Spark Streaming進行編程

    •  9-1 -課程目錄
    •  9-2 -Spark Streaming概述
    •  9-3 -實時流處理框架對比
    •  9-4 -Spark Streaming執行原理
    •  9-5 -從詞頻統計案例來瞭解SparkStreaming
    •  9-6 -核心概念之StreamingContext
    •  9-7 -核心概念之DStream及常用操作
    •  9-8 -SparkStreaming操作文件系統數據實戰
  • 第10章 Azkaban基礎篇

    本章將講解Azkaban的特性、架構、運行模式、源碼編譯及部署、快速入門

    •  10-1 Azkaban基礎篇課程目錄
    •  10-2 -工作流概述
    •  10-3 -工作流在大數據處理中的重要性
    •  10-4 -常用調度框架介紹
    •  10-5 -Azkaban概述及特性
    •  10-6 -Azkaban架構
    •  10-7 -Azkaban運行模式詳解
    •  10-8 -Azkaban源碼編譯
    •  10-9 -Azkaban solo server環境部署
    •  10-10 -Azkaban快速入門案例
  • 第11章 Azkaban實戰篇

    本章將講解如何使用Azkaban來完成HDFS、MapReduce、Hive作業的調度、定時作業調度以及郵件告警

    •  11-1 -Azkaban實戰篇課程目錄
    •  11-2 -依賴作業在Azkaban中的使用
    •  11-3 -HDFS作業在Azkaban中的使用
    •  11-4 -MapReduce作業在Azkaban中的使用
    •  11-5 -Hive作業在Azkaban中的使用
    •  11-6 -定時調度作業在Azkaban中的使用
    •  11-7 -郵件告警及SLA在Azkaban中的使用
  • 第12章 Azkaban進階篇

    本章將講解Azkaban在生產上的部署、許可權管理、Ajax API、Plugin、以及簡訊和調度框架的二次開發

    •  12-1 -Azkaban進階篇課程目錄
    •  12-2 -Two Server Mode之資料庫準備工作
    •  12-3 -Two Server Mode之AzkabanWebServer搭建
    •  12-4 -Two Server Mode之AzkabanExecServer搭建
    •  12-5 -Two Server Mode之使用實戰
    •  12-6 -Azkaban許可權管理
    •  12-7 -Azkaban中AJAX API使用
    •  12-8 -Azkaban Plugin的使用
    •  12-9 -Azkaban中簡訊告警改造思路
    •  12-10 Azbakan在生產上使用的改造思路
  • 第13章 項目實戰

    本章將講解在構建大數據平臺的技術選型、集群升級資源評估,並使用Spark對氣象數據進行分析,講分析結果寫入ES,並通過Kibana進行統計結果的可視化展示

    •  13-1 -課程目錄
    •  13-2 -大數據項目開發流程
    •  13-3 -大數據企業級應用
    •  13-4 -企業級大數據分析平臺
    •  13-5 -集群數據量預估
    •  13-6 -集群機器規模&資源&作業規劃
    •  13-7 -項目需求
    •  13-8 -數據載入成DataFrame並選出需要的列
    •  13-9 -SparkSQL UDF函數開發
    •  13-10 -每年Grade出現的次數統計
    •  13-11 -Grade在每年中的占比統計
    •  13-12 -ES部署及使用
    •  13-13 -Kibana部署及使用
    •  13-14 -將作業運行到YARN上
    •  13-15 -統計分析結果寫入ES測試
    •  13-16 -統計分析結果入ES並通過Kibana圖形化展示
    •  13-17 -作業
    •  13-18 -通過Azkaban調度整個流程
    •  13-19 -課程總結及展望(重點關註)

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 這裡向大家分享一下python爬蟲的一些應用,主要是用爬蟲配合簡單的GUI界面實現視頻,音樂和小說的下載器。今天就先介紹如何實現一個動態視頻下載器。 爬取電影天堂視頻 首先介紹的是python爬取電影天堂網站的視頻(包括電影,電視劇,綜藝等),主要是用selenium動態網頁技術加上簡單的爬蟲技術。 ...
  • 一、方法重載 1.又被稱為overload 2.方法重載使用場景 功能類似的時候,儘可能仍方法名相同(但是功能不同或者不相似的時候,方法名儘量不同) 3.什麼條件滿足之後,可以構成方法重載 (1)在同一類中;(2)方法名不同;(3)參數列表不同:i.數量不同;ii.順序不同;iii.類型不同 4.方 ...
  • 本代碼演示: 1. pandas讀取純文本文件 讀取csv文件 讀取txt文件 2. pandas讀取xlsx格式excel文件 3. pandas讀取mysql數據表 1、讀取純文本文件 1.1 讀取CSV,使用預設的標題行、逗號分隔符 .dataframe tbody tr th:only of ...
  • Servlet的生命周期分為5個階段:載入、創建、初始化、處理客戶請求、卸載。 (1)載入:容器通過類載入器使用servlet類對應的文件載入servlet (2)創建:通過調用servlet構造函數創建一個servlet對象 (3)初始化:調用init方法初始化 (4)處理客戶請求:每當有一個客戶 ...
  • Django之使用內置函數和celery發郵件,內容包括 發送郵件前的郵箱配置,使用Django內置函數發郵件,使用celery發郵件。在開發項目時,特別是用戶註冊時,我們通常都要給用戶發送郵件驗證註冊,那麼在Django中如何發郵件呢?這裡例舉了兩種方式來給用戶發送郵件,並且創建一個項目之後複製代... ...
  • 本文源碼: "GitHub·點這裡" || "GitEE·點這裡" 一、觀察者模式 1、概念描述 觀察者模式是對象的行為模式,又叫發佈 訂閱(Publish/Subscribe)模式。觀察者模式定義了一種一對多的依賴關係,讓多個觀察者對象同時監聽某一個主題對象,主題對象在狀態發生變化時,會通知所有觀 ...
  • jdbc 動力節點視頻教程 JDBC編程六步 1.註冊驅動(作用:告訴Java程式,即將要連接的是哪個品牌的資料庫) 2.獲取連接 (表示JVM進程和資料庫進程之間的通道打開了,屬於進程間的通信,重量級的,使用完一定要關閉) 3.獲取資料庫操作對象(專門執行SQL 語句的對象) 4.執行sql(主要 ...
  • 新聞 "宣告ML.NET 1.4的預覽版及更新模型構建器" ".NET展示會:一系列的活動!" "Octopus入門版:對於小團隊免費" "宣告.NET Core 3.0預覽版9" "使用IntelliCode更簡單地進行重構" ".NET Core 3.0預覽版9中ASP.NET Core與Bla ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...