一、大數據存儲和計算的各種框架即工具 1.存儲:HDFS:分散式文件系統 Hbase:分散式資料庫系統 Kafka:分散式消息緩存系統 2.計算:Mapreduce:離線計算框架 storm:實時流式計算 spark:離線批處理/實時流處理計算框架(MR的二次封裝) 3.輔助類工具:hive:數據倉 ...
一、大數據存儲和計算的各種框架即工具
1.存儲:HDFS:分散式文件系統
Hbase:分散式資料庫系統
Kafka:分散式消息緩存系統
2.計算:Mapreduce:離線計算框架
storm:實時流式計算
spark:離線批處理/實時流處理計算框架(MR的二次封裝)
3.輔助類工具:hive:數據倉庫工具
flume:數據採集工具
sqoop:數據遷移工具
二、大數據應用場景:
典型應用:公司運營情況 =>典型網站:CNZZ、數據專家、友盟
電商廣告推薦系統:淘寶、京東、蘇寧
大量基於演算法模型的運算,得出各種推薦結論
天氣預報等。。。
三、Hadoop的概述
Hadoop軟體庫是一個框架,允許使用簡單的編程模型跨電腦集群分散式處理大型數據集。它旨在從單個伺服器擴展到數千台電腦,每台電腦都提供本地計算和存儲。該庫本身不是依靠硬體來提供高可用性,而是設計用於檢測和處理應用層的故障,從而在電腦集群之上提供高可用性服務,每個電腦都可能容易出現故障。
Hadoop中單個核心組件:
分散式文件系統:HDFS =>實現存儲在多台伺服器之上
分散式運行編程框架:Mapreduce=>實現在很多太機器的分散式並行計算框架
分散式資源調度平臺:Yarn=>幫助我們調度大量MR任務,併合理分配運算資源