第一講:大數據基礎入門 第一節:為什麼要學習大數據 1、目的:很好工作 2、對比:Java開發和大數據開發 第二節:什麼是大數據? 舉例: 1、商品推薦: 問題:(1)大量的訂單如何存儲? (2)大量的訂單如何計算? 2、天氣預報: 問題:(1)大量的天氣數據如何存儲?(2)大量的天氣數據如何計算? ...
第一講:大數據基礎入門
第一節:為什麼要學習大數據
1、目的:很好工作
2、對比:Java開發和大數據開發
第二節:什麼是大數據?
舉例:
1、商品推薦: 問題:(1)大量的訂單如何存儲? (2)大量的訂單如何計算?
2、天氣預報: 問題:(1)大量的天氣數據如何存儲?(2)大量的天氣數據如何計算?
什麼是大數據,本質?
(1)數據的存儲:分散式文件系統(分散式存儲)
(2)數據的計算:分散式計算
第三節:Java和大數據是什麼關係?
1、Hadoop:基於Java語言開發
2、Spark: 基於Scala語言,Scala基於Java語言
第四節:學習大數據需要的基礎和路線
1、學習大數據需要的基礎:Java基礎(JavaSE)---> 類、繼承、I/O、反射、泛型*****
Linux基礎(Linux的操作) ---> 創建文件、目錄、vi編輯器***
2、學習路線:
(1)Java基礎和Linux基礎
(2)Hadoop的學習:體繫結構、原理、編程
(*)第一階段:HDFS、MapReduce、HBase(NoSQL資料庫)
(*)第二階段:數據分析引擎 ---> Hive、Pig
數據採集引擎 ---> Sqoop、Flume
(*)第三階段:HUE:Web管理工具
ZooKeeper:實現Hadoop的HA
Oozie: 工作流引擎
(3)Spark的學習
(*)第一個階段:Scala編程語言
(*)第二個階段:Spark Core-----> 基於記憶體,數據的計算
(*)第三個階段:Spark SQL -----> 類似Oracle中的SQL語句
(*)第四個階段:Spark Streaming ---> 進行實時計算(流式計算):比如:自來水廠
(4)Apache Storm:類似Spark Streaming ---> 進行實時計算(流式計算):比如:自來水廠
(*)NoSQL:Redis基於記憶體的資料庫