大數據大數據,身邊很多朋友都在談大數據,Big Data!!! 到底是什麼,用來幹嘛的,也很少有人說得出一二,那今天開始就簡單說說這一二事吧 hadoop 的來源:是作者女兒的一個玩具 - 一隻黃色的大象 發音 /hadu:p/ 在Apache旗下作為一個開源項目 它不是雲計算,卻是雲計算中的一部分 ...
大數據大數據,身邊很多朋友都在談大數據,Big Data!!!
到底是什麼,用來幹嘛的,也很少有人說得出一二,那今天開始就簡單說說這一二事吧
hadoop 的來源:是作者女兒的一個玩具 - 一隻黃色的大象
發音 /hadu:p/ 在Apache旗下作為一個開源項目 它不是雲計算,卻是雲計算中的一部分,屬於大數據這塊 hadoop是一個開源的分散式計算系統 hadoop所解決的問題: 海量數據存儲 - HDFS (分散式文件系統,分佈在多臺電腦上進行存儲)可以理解為一個大型的網盤,例如百度網盤,115網盤,可以進行上傳下載 海量數據分析 - MapReduce (分散式的計算模型)有多台機子進行數據的分析,例如原來工地有一個人搬磚,一次性搬100塊磚頭,後來分為100個人,每個人搬10塊,同時會有老大工頭監控這些小弟 hadoop擅長日誌分析 現在的淘寶使用Stome來進行實時推薦 凌晨分析後的產生有用的數據,分為冷數據和熱數據,冷數據存放在MyFox中(Mysql集群),熱數據存放在Prom中(HBase集群) 實時流數據處理使用Storm,可以用於購買商品時實時推送推薦商品 Hive可以用於附近認識的人,朋友圈你可能認識的人,校內網(從網,或者說人人網)中的推薦認識的好友 現在hadoop已經出到了2,但是很多公司還是會基於1.0版本,因為穩定,也省去了遷移的風險 生態圈,各種掉渣天高大上(非常喜歡zookeeper) hadoop的安裝有2種 本地模式:使用eclipse進行調試,只有一個map,只有一個reduce 偽分散式:模擬多台機子,進行調試 集群模式:生產環境