Python3實戰Spark大數據分析及調度 搜索QQ號直接加群獲取其它學習資料:715301384 部分課程截圖: 鏈接:https://pan.baidu.com/s/12VDmdhN4hr7ypdKTJvvgKg 提取碼:cv9z PS:免費分享,若點擊鏈接無法獲取到資料,若如若鏈接失效請加群 ...
Python3實戰Spark大數據分析及調度
搜索QQ號直接加群獲取其它學習資料:715301384
部分課程截圖:
鏈接:https://pan.baidu.com/s/12VDmdhN4hr7ypdKTJvvgKg
提取碼:cv9z
PS:免費分享,若點擊鏈接無法獲取到資料,若如若鏈接失效請加群
其它資源在群里,私聊管理員即可免費領取;群——715301384,點擊加群,或掃描二維碼
-
第1章 課程介紹
課程介紹
- 1-1 PySpark導學試看
- 1-2 OOTB環境演示
-
第2章 實戰環境搭建
工欲善其事必先利其器,本章講述JDK、Scala、Hadoop、Maven、Python3以及Spark源碼編譯及部署
- 2-1 -課程目錄
- 2-2 -Java環境搭建
- 2-3 -Scala環境搭建
- 2-4 -Hadoop環境搭建
- 2-5 -Maven環境搭建
- 2-6 -Python3環境部署
- 2-7 -Spark源碼編譯及部署
-
第3章 Spark Core核心RDD
本章詳細講解RDD是什麼以及特性(面試常考)、Spark中兩個核心類SparkContext和SparkConf、pyspark啟動腳本分析、RDD的創建方式以及如何使用IDE開發Python Spark應用程式並提交到伺服器上運行
- 3-1 -課程目錄
- 3-2 -RDD是什麼
- 3-3 -通過電影描述集群的強大之處
- 3-4 -RDD的五大特性
- 3-5 -RDD特性在源碼中的體現試看
- 3-6 -圖解RDD
- 3-7 -SparkContext&SparkConf詳解
- 3-8 -pyspark
- 3-9 -RDD創建方式一
- 3-10 -RDD創建方式二
- 3-11 -使用IDE開發pyspark應用程式
- 3-12 -提交pyspark作業到伺服器上運行
-
第4章 Spark Core RDD編程
本章將針對RDD中常用的運算元進行詳細案例講解,併進行綜合案例實戰
- 4-1 -課程目錄
- 4-2 -RDD常用操作
- 4-3 -map運算元使用詳解
- 4-4 -filter運算元詳解
- 4-5 -flatMap運算元詳解
- 4-6 -groupByKey運算元詳解
- 4-7 -reduceByKey運算元詳解
- 4-8 -sortByKey運算元詳解
- 4-9 -union運算元使用詳解
- 4-10 -distinct運算元使用詳解
- 4-11 -join運算元詳解
- 4-12 -action常用運算元詳解
- 4-13 -運算元綜合案例實戰一詞頻統計
- 4-14 -運算元綜合案例實戰之詞頻統計重構
- 4-15 -運算元綜合案例實戰之TopN統計
- 4-16 -運算元綜合案例實戰之平均數統計
-
第5章 Spark運行模式
本章將介紹Spark的幾種運行模式,需要重點掌握on YARN模式
- 5-1 -課程目錄
- 5-2 -local模式運行
- 5-3 -standalone模式環境搭建及pyspark運行
- 5-4 -standalone模式spark-submit運行
- 5-5 -yarn運行模式詳解
-
第6章 Spark Core進階
本章將介紹Spark中的核心術語、運行架構、並對比Spark和MapReduce的概念區分、存儲策略及選擇方式、寬窄依賴及Shuffle
- 6-1 -課程目錄
- 6-2 -Spark核心概念詳解
- 6-3 -結合Spark UI詳解Spark核心概念試看
- 6-4 -Spark運行架構及註意事項
- 6-5 -Spark和Hadoop重要概念區分
- 6-6 -Spark緩存的作用
- 6-7 -Spark緩存概述
- 6-8 -Spark緩存策略詳解
- 6-9 -Spark緩存策略選擇依據
- 6-10 -Spark Lineage機制
- 6-11 -Spark窄依賴和寬依賴
- 6-12 -Spark Shuffle概述
- 6-13 -圖解RDD的shuffle以及依賴關係
-
第7章 Spark Core調優
本章將從Spark作業性能指標、序列化、記憶體管理、廣播變數及數據本地化這幾個方面來介紹Spark作業的調優
- 7-1 -課程目錄
- 7-2 -優化之HistoryServer配置及使用
- 7-3 -優化之序列化
- 7-4 -優化之記憶體管理
- 7-5 -優化之廣播變數
- 7-6 -優化之數據本地性
-
第8章 Spark SQL
本章將講解Spark SQL的架構、DataFrame&Dataset、以及如何使用Python API來對DataFrame進行編程
- 8-1 -課程目錄
- 8-2 -Spark SQL前世今生
- 8-3 -Spark SQL概述&錯誤認識糾正
- 8-4 -Spark SQL架構
- 8-5 -DataFrame&Dataset詳解
- 8-6 -DataFrame API編程
- 8-7 -RDD與DataFrame互操作方法一
- 8-8 -RDD與DataFrame互操作方法二
- 8-9 -Spark SQL其他
-
第9章 Spark Streaming
本章將講解Spark Streaming的核心概念、執行原理、以及如何Python API來對Spark Streaming進行編程
- 9-1 -課程目錄
- 9-2 -Spark Streaming概述
- 9-3 -實時流處理框架對比
- 9-4 -Spark Streaming執行原理
- 9-5 -從詞頻統計案例來瞭解SparkStreaming
- 9-6 -核心概念之StreamingContext
- 9-7 -核心概念之DStream及常用操作
- 9-8 -SparkStreaming操作文件系統數據實戰
-
第10章 Azkaban基礎篇
本章將講解Azkaban的特性、架構、運行模式、源碼編譯及部署、快速入門
- 10-1 Azkaban基礎篇課程目錄
- 10-2 -工作流概述
- 10-3 -工作流在大數據處理中的重要性
- 10-4 -常用調度框架介紹
- 10-5 -Azkaban概述及特性
- 10-6 -Azkaban架構
- 10-7 -Azkaban運行模式詳解
- 10-8 -Azkaban源碼編譯
- 10-9 -Azkaban solo server環境部署
- 10-10 -Azkaban快速入門案例
-
第11章 Azkaban實戰篇
本章將講解如何使用Azkaban來完成HDFS、MapReduce、Hive作業的調度、定時作業調度以及郵件告警
- 11-1 -Azkaban實戰篇課程目錄
- 11-2 -依賴作業在Azkaban中的使用
- 11-3 -HDFS作業在Azkaban中的使用
- 11-4 -MapReduce作業在Azkaban中的使用
- 11-5 -Hive作業在Azkaban中的使用
- 11-6 -定時調度作業在Azkaban中的使用
- 11-7 -郵件告警及SLA在Azkaban中的使用
-
第12章 Azkaban進階篇
本章將講解Azkaban在生產上的部署、許可權管理、Ajax API、Plugin、以及簡訊和調度框架的二次開發
- 12-1 -Azkaban進階篇課程目錄
- 12-2 -Two Server Mode之資料庫準備工作
- 12-3 -Two Server Mode之AzkabanWebServer搭建
- 12-4 -Two Server Mode之AzkabanExecServer搭建
- 12-5 -Two Server Mode之使用實戰
- 12-6 -Azkaban許可權管理
- 12-7 -Azkaban中AJAX API使用
- 12-8 -Azkaban Plugin的使用
- 12-9 -Azkaban中簡訊告警改造思路
- 12-10 Azbakan在生產上使用的改造思路
-
第13章 項目實戰
本章將講解在構建大數據平臺的技術選型、集群升級資源評估,並使用Spark對氣象數據進行分析,講分析結果寫入ES,並通過Kibana進行統計結果的可視化展示
- 13-1 -課程目錄
- 13-2 -大數據項目開發流程
- 13-3 -大數據企業級應用
- 13-4 -企業級大數據分析平臺
- 13-5 -集群數據量預估
- 13-6 -集群機器規模&資源&作業規劃
- 13-7 -項目需求
- 13-8 -數據載入成DataFrame並選出需要的列
- 13-9 -SparkSQL UDF函數開發
- 13-10 -每年Grade出現的次數統計
- 13-11 -Grade在每年中的占比統計
- 13-12 -ES部署及使用
- 13-13 -Kibana部署及使用
- 13-14 -將作業運行到YARN上
- 13-15 -統計分析結果寫入ES測試
- 13-16 -統計分析結果入ES並通過Kibana圖形化展示
- 13-17 -作業
- 13-18 -通過Azkaban調度整個流程
- 13-19 -課程總結及展望(重點關註)