第1章 初探大數據 本章將介紹為什麼要學習大數據、如何學好大數據、如何快速轉型大數據崗位、本項目實戰課程的內容安排、本項目實戰課程的前置內容介紹、開發環境介紹。同時為大家介紹項目中涉及的Hadoop、Hive相關的知識 第2章 Spark及其生態圈概述 Spark作為近幾年最火爆的大數據處理技術,是 ...
- 第1章 初探大數據
本章將介紹為什麼要學習大數據、如何學好大數據、如何快速轉型大數據崗位、本項目實戰課程的內容安排、本項目實戰課程的前置內容介紹、開發環境介紹。同時為大家介紹項目中涉及的Hadoop、Hive相關的知識
- 第2章 Spark及其生態圈概述
Spark作為近幾年最火爆的大數據處理技術,是成為大數據工程師必備的技能之一。本章將從如下幾個方面對Spark進行一個巨集觀上的介紹:Spark產生背景、特點、發展史、Databricks官方調查結果、Spark與Hadoop的對比、Spark開發語言及運行模式介紹 ...
- 如果你想瞭解大數據的學習路線,想學習大數據知識以及需要免費的學習資料可以加群:784789432.歡迎你的加入。
- 第3章 實戰環境搭建
工欲善其事必先利其器,本章講述Spark源碼編譯、Spark Local模式運行、Spark Standalone模式運行
- 第4章 Spark SQL概述
Spark SQL面世已來,它不僅接過了Shark的接力棒,繼續為Spark用戶提供高性能SQL on Hadoop解決方案,還為Spark帶來了通用、高效、多元一體的結構化數據處理能力。本章將從Spark SQL前世今生、SQL on Hadoop框架、Spark SQL概述、願景、架構,這幾個角度進行展開講解...
- 第5章 從Hive平滑過渡到Spark SQL
Hive是SQL-on-Hadoop的解決方案和預設的標準,如何將數據處理從Hive過渡到Spark SQL上來是我們必須要掌握的。本章我們將講解在Spark中操作Hive中的數據幾種方式
- 第6章 DateFrame&Dataset
DataFrame&Dataset是Spark2.x中最核心的編程對象,Spark2.x中的子框架能夠使用DataFrame或Dataset來進行數據的交互操作。本章將從DataFrame的產生背景、DataFrame對比RDD、DataFrame API操作等方面對DataFrame做詳細的編程開發講解
- 第7章 External Data Source
Spark SQL中的核心功能,可以使用外部數據源非常方便的對存儲在不同系統上的不同格式的數據進行操作。本章將講解如何使用外部數據源來操作Hive、Parquet、MySQL中的數據以及綜合使用
- 第8章 SparkSQL願景
本章將講解Spark的願景:寫更少的代碼、讀更少的數據、讓優化器自動優化程式
- 第9章 慕課網日誌實戰
本章使用Spark SQL對慕課網主站的訪問日誌進行各個維度的統計分析操作,涉及到的過程有:數據清洗、數據統計、統計結果入庫、數據的可視化、調優及Spark on YARN。通過本實戰項目將Spark SQL中的知識點融會貫通,達到舉一反三的效果 ...
- 第10章 Spark SQL擴展和總結
本章將列舉Spark SQL在工作中經常用到的方方方面的總結