Python3實戰Spark大數據分析及調度（網盤分享）

-Advertisement-

Python3實戰Spark大數據分析及調度搜索QQ號直接加群獲取其它學習資料：715301384 部分課程截圖：鏈接：https://pan.baidu.com/s/12VDmdhN4hr7ypdKTJvvgKg 提取碼：cv9z PS：免費分享，若點擊鏈接無法獲取到資料，若如若鏈接失效請加群 ...

Python3實戰Spark大數據分析及調度

搜索QQ號直接加群獲取其它學習資料：715301384

部分課程截圖：

鏈接：https://pan.baidu.com/s/12VDmdhN4hr7ypdKTJvvgKg

提取碼：cv9z

PS：免費分享，若點擊鏈接無法獲取到資料，若如若鏈接失效請加群

其它資源在群里，私聊管理員即可免費領取；群——715301384，點擊加群，或掃描二維碼

第1章課程介紹

課程介紹
- 1-1 PySpark導學試看
- 1-2 OOTB環境演示
第2章實戰環境搭建

工欲善其事必先利其器，本章講述JDK、Scala、Hadoop、Maven、Python3以及Spark源碼編譯及部署
- 2-1 -課程目錄
- 2-2 -Java環境搭建
- 2-3 -Scala環境搭建
- 2-4 -Hadoop環境搭建
- 2-5 -Maven環境搭建
- 2-6 -Python3環境部署
- 2-7 -Spark源碼編譯及部署
第3章 Spark Core核心RDD

本章詳細講解RDD是什麼以及特性(面試常考)、Spark中兩個核心類SparkContext和SparkConf、pyspark啟動腳本分析、RDD的創建方式以及如何使用IDE開發Python Spark應用程式並提交到伺服器上運行
- 3-1 -課程目錄
- 3-2 -RDD是什麼
- 3-3 -通過電影描述集群的強大之處
- 3-4 -RDD的五大特性
- 3-5 -RDD特性在源碼中的體現試看
- 3-6 -圖解RDD
- 3-7 -SparkContext&SparkConf詳解
- 3-8 -pyspark
- 3-9 -RDD創建方式一
- 3-10 -RDD創建方式二
- 3-11 -使用IDE開發pyspark應用程式
- 3-12 -提交pyspark作業到伺服器上運行
第4章 Spark Core RDD編程

本章將針對RDD中常用的運算元進行詳細案例講解，併進行綜合案例實戰
- 4-1 -課程目錄
- 4-2 -RDD常用操作
- 4-3 -map運算元使用詳解
- 4-4 -filter運算元詳解
- 4-5 -flatMap運算元詳解
- 4-6 -groupByKey運算元詳解
- 4-7 -reduceByKey運算元詳解
- 4-8 -sortByKey運算元詳解
- 4-9 -union運算元使用詳解
- 4-10 -distinct運算元使用詳解
- 4-11 -join運算元詳解
- 4-12 -action常用運算元詳解
- 4-13 -運算元綜合案例實戰一詞頻統計
- 4-14 -運算元綜合案例實戰之詞頻統計重構
- 4-15 -運算元綜合案例實戰之TopN統計
- 4-16 -運算元綜合案例實戰之平均數統計
第5章 Spark運行模式

本章將介紹Spark的幾種運行模式，需要重點掌握on YARN模式
- 5-1 -課程目錄
- 5-2 -local模式運行
- 5-3 -standalone模式環境搭建及pyspark運行
- 5-4 -standalone模式spark-submit運行
- 5-5 -yarn運行模式詳解
第6章 Spark Core進階

本章將介紹Spark中的核心術語、運行架構、並對比Spark和MapReduce的概念區分、存儲策略及選擇方式、寬窄依賴及Shuffle
- 6-1 -課程目錄
- 6-2 -Spark核心概念詳解
- 6-3 -結合Spark UI詳解Spark核心概念試看
- 6-4 -Spark運行架構及註意事項
- 6-5 -Spark和Hadoop重要概念區分
- 6-6 -Spark緩存的作用
- 6-7 -Spark緩存概述
- 6-8 -Spark緩存策略詳解
- 6-9 -Spark緩存策略選擇依據
- 6-10 -Spark Lineage機制
- 6-11 -Spark窄依賴和寬依賴
- 6-12 -Spark Shuffle概述
- 6-13 -圖解RDD的shuffle以及依賴關係
第7章 Spark Core調優

本章將從Spark作業性能指標、序列化、記憶體管理、廣播變數及數據本地化這幾個方面來介紹Spark作業的調優
- 7-1 -課程目錄
- 7-2 -優化之HistoryServer配置及使用
- 7-3 -優化之序列化
- 7-4 -優化之記憶體管理
- 7-5 -優化之廣播變數
- 7-6 -優化之數據本地性
第8章 Spark SQL

本章將講解Spark SQL的架構、DataFrame&Dataset、以及如何使用Python API來對DataFrame進行編程
- 8-1 -課程目錄
- 8-2 -Spark SQL前世今生
- 8-3 -Spark SQL概述&錯誤認識糾正
- 8-4 -Spark SQL架構
- 8-5 -DataFrame&Dataset詳解
- 8-6 -DataFrame API編程
- 8-7 -RDD與DataFrame互操作方法一
- 8-8 -RDD與DataFrame互操作方法二
- 8-9 -Spark SQL其他
第9章 Spark Streaming

本章將講解Spark Streaming的核心概念、執行原理、以及如何Python API來對Spark Streaming進行編程
- 9-1 -課程目錄
- 9-2 -Spark Streaming概述
- 9-3 -實時流處理框架對比
- 9-4 -Spark Streaming執行原理
- 9-5 -從詞頻統計案例來瞭解SparkStreaming
- 9-6 -核心概念之StreamingContext
- 9-7 -核心概念之DStream及常用操作
- 9-8 -SparkStreaming操作文件系統數據實戰
第10章 Azkaban基礎篇

本章將講解Azkaban的特性、架構、運行模式、源碼編譯及部署、快速入門
- 10-1 Azkaban基礎篇課程目錄
- 10-2 -工作流概述
- 10-3 -工作流在大數據處理中的重要性
- 10-4 -常用調度框架介紹
- 10-5 -Azkaban概述及特性
- 10-6 -Azkaban架構
- 10-7 -Azkaban運行模式詳解
- 10-8 -Azkaban源碼編譯
- 10-9 -Azkaban solo server環境部署
- 10-10 -Azkaban快速入門案例
第11章 Azkaban實戰篇

本章將講解如何使用Azkaban來完成HDFS、MapReduce、Hive作業的調度、定時作業調度以及郵件告警
- 11-1 -Azkaban實戰篇課程目錄
- 11-2 -依賴作業在Azkaban中的使用
- 11-3 -HDFS作業在Azkaban中的使用
- 11-4 -MapReduce作業在Azkaban中的使用
- 11-5 -Hive作業在Azkaban中的使用
- 11-6 -定時調度作業在Azkaban中的使用
- 11-7 -郵件告警及SLA在Azkaban中的使用
第12章 Azkaban進階篇

本章將講解Azkaban在生產上的部署、許可權管理、Ajax API、Plugin、以及簡訊和調度框架的二次開發
- 12-1 -Azkaban進階篇課程目錄
- 12-2 -Two Server Mode之資料庫準備工作
- 12-3 -Two Server Mode之AzkabanWebServer搭建
- 12-4 -Two Server Mode之AzkabanExecServer搭建
- 12-5 -Two Server Mode之使用實戰
- 12-6 -Azkaban許可權管理
- 12-7 -Azkaban中AJAX API使用
- 12-8 -Azkaban Plugin的使用
- 12-9 -Azkaban中簡訊告警改造思路
- 12-10 Azbakan在生產上使用的改造思路
第13章項目實戰

本章將講解在構建大數據平臺的技術選型、集群升級資源評估，並使用Spark對氣象數據進行分析，講分析結果寫入ES，並通過Kibana進行統計結果的可視化展示
- 13-1 -課程目錄
- 13-2 -大數據項目開發流程
- 13-3 -大數據企業級應用
- 13-4 -企業級大數據分析平臺
- 13-5 -集群數據量預估
- 13-6 -集群機器規模&資源&作業規劃
- 13-7 -項目需求
- 13-8 -數據載入成DataFrame並選出需要的列
- 13-9 -SparkSQL UDF函數開發
- 13-10 -每年Grade出現的次數統計
- 13-11 -Grade在每年中的占比統計
- 13-12 -ES部署及使用
- 13-13 -Kibana部署及使用
- 13-14 -將作業運行到YARN上
- 13-15 -統計分析結果寫入ES測試
- 13-16 -統計分析結果入ES並通過Kibana圖形化展示
- 13-17 -作業
- 13-18 -通過Azkaban調度整個流程
- 13-19 -課程總結及展望(重點關註)

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

python動態視頻下載器

這裡向大家分享一下python爬蟲的一些應用，主要是用爬蟲配合簡單的GUI界面實現視頻，音樂和小說的下載器。今天就先介紹如何實現一個動態視頻下載器。爬取電影天堂視頻首先介紹的是python爬取電影天堂網站的視頻(包括電影，電視劇，綜藝等)，主要是用selenium動態網頁技術加上簡單的爬蟲技術。 ...
Java連載30-方法重載、方法遞歸

一、方法重載 1.又被稱為overload 2.方法重載使用場景功能類似的時候，儘可能仍方法名相同（但是功能不同或者不相似的時候，方法名儘量不同） 3.什麼條件滿足之後，可以構成方法重載（1）在同一類中；（2）方法名不同；（3）參數列表不同：i.數量不同；ii.順序不同；iii.類型不同 4.方 ...
Pandas系列-讀取csv/txt/excel/mysql數據

本代碼演示： 1. pandas讀取純文本文件讀取csv文件讀取txt文件 2. pandas讀取xlsx格式excel文件 3. pandas讀取mysql數據表 1、讀取純文本文件 1.1 讀取CSV，使用預設的標題行、逗號分隔符 .dataframe tbody tr th:only of ...
Servlet的生命周期

Servlet的生命周期分為5個階段：載入、創建、初始化、處理客戶請求、卸載。 (1)載入：容器通過類載入器使用servlet類對應的文件載入servlet (2)創建：通過調用servlet構造函數創建一個servlet對象 (3)初始化：調用init方法初始化 (4)處理客戶請求：每當有一個客戶 ...
Django之使用內置函數和celery發郵件

Django之使用內置函數和celery發郵件，內容包括發送郵件前的郵箱配置，使用Django內置函數發郵件，使用celery發郵件。在開發項目時，特別是用戶註冊時，我們通常都要給用戶發送郵件驗證註冊，那麼在Django中如何發郵件呢？這裡例舉了兩種方式來給用戶發送郵件，並且創建一個項目之後複製代... ...
Java描述設計模式(11)：觀察者模式

本文源碼： "GitHub·點這裡" || "GitEE·點這裡" 一、觀察者模式 1、概念描述觀察者模式是對象的行為模式，又叫發佈訂閱(Publish/Subscribe)模式。觀察者模式定義了一種一對多的依賴關係，讓多個觀察者對象同時監聽某一個主題對象，主題對象在狀態發生變化時，會通知所有觀 ...
JDBC連接MySQL 註冊驅動，獲取連接

jdbc 動力節點視頻教程 JDBC編程六步 1.註冊驅動（作用：告訴Java程式，即將要連接的是哪個品牌的資料庫） 2.獲取連接（表示JVM進程和資料庫進程之間的通道打開了，屬於進程間的通信，重量級的，使用完一定要關閉） 3.獲取資料庫操作對象（專門執行SQL 語句的對象） 4.執行sql（主要 ...
F#周報2019年第37期

新聞 "宣告ML.NET 1.4的預覽版及更新模型構建器" ".NET展示會：一系列的活動！" "Octopus入門版：對於小團隊免費" "宣告.NET Core 3.0預覽版9" "使用IntelliCode更簡單地進行重構" ".NET Core 3.0預覽版9中ASP.NET Core與Bla ...

Python3實戰Spark大數據分析及調度 （網盤分享）

Python3實戰Spark大數據分析及調度

第1章 課程介紹

第2章 實戰環境搭建

第3章 Spark Core核心RDD

第4章 Spark Core RDD編程

第5章 Spark運行模式

第6章 Spark Core進階

第7章 Spark Core調優

第8章 Spark SQL

第9章 Spark Streaming

第10章 Azkaban基礎篇

第11章 Azkaban實戰篇

第12章 Azkaban進階篇

第13章 項目實戰

Python3實戰Spark大數據分析及調度（網盤分享）

第1章課程介紹

第2章實戰環境搭建

第13章項目實戰