首先要認識大數據 什麼是大數據?可能有人會說寫字樓的所有人的資料信息就是個大數據。NO!這裡的數據只能說比較大,但卻不能稱之為大數據。百度百科上給出了很明確的解釋“大數據(big data),指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞 ...
首先要認識大數據
什麼是大數據?可能有人會說寫字樓的所有人的資料信息就是個大數據。NO!這裡的數據只能說比較大,但卻不能稱之為大數據。百度百科上給出了很明確的解釋“大數據(big data),指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。”
在這裡還是要推薦下我自己建的大數據學習交流群:142974151,群里都是學大數據開發的,如果你正在學習大數據 ,小編歡迎你加入,大家都是軟體開發黨,不定期分享乾貨(只有大數據軟體開發相關的),包括我自己整理的一份最新的大數據進階資料和高級開發教程,歡迎進階中和進想深入大數據的小伙伴加入。
大數據有五個特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。其中Volume就是普遍認為的數據足夠大,因此數據大並不能說就是大數據,話句話說數據大隻是大數據其中的一個特點。
大數據技術的戰略意義不在於掌握龐大的數據信息,而在於對這些含有意義的數據進行專業化處理。換而言之,如果把大數據比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對數據的“加工能力”,通過“加工”實現數據的“增值”。
現在我們“從相認到相識”,清楚的認識什麼是大數據,如果區分大數據和數據大,是我們學習大數據走的第一步。
怎麼開始學
擁有了“第一磚”後就是你即將選擇師門的時候了,敲開山門的“第二磚”則是學習大數據的基礎,就如同在門派中修煉內功,有助你行走江湖,話不多說我們來看看會涉及到哪些基礎吧!
1、 javaSE,EE(SSM)
90%的大數據框架都是java寫的。
如:MongoDB--最受歡迎的,跨平臺的,面向文檔的資料庫。 Hadoop--用Java編寫的開源軟體框架,用於分散式存儲,並對非常大的數據集進行分散式處理。
Spark --Apache Software Foundation中最活躍的項目,是一個開源集群計算框架。
Hbase--開放源代碼,非關係型,分散式資料庫,採用Google的BigTable建模,用Java編寫,併在HDFS上運行。
2、就是大數據裡面的基礎和工具
要想建一座穩固的高樓大廈基礎是必須打好的,掌握好Linux必備知識,熟悉python的使用與爬蟲的編寫搭建Hadoop(CHD)基礎,為學習大數據技術打好基礎
進階技術
1、大數據離線分析
掌握大數據核心基礎組件:HDFS,MapReduce及yarn。掌握MapReduce編程思想及通用大數據計算平臺:“spark”
可以通過實戰項目熟悉用戶行為分析業務的背景,掌握離線數據處理的流程(用戶分析項目是離線處理經典的項目)、架構及相關技術的運用。
2、、大數據實時計算
掌握實時處理主流技術組件:kafka,spark streaming,flink,storm,hbase
再通過實時交易監控項目來融合自己學習的
總結:希望能對大數據有興趣的朋友一種啟髮式作用,方法的學習還需要在有興趣的基礎上刻苦專研、融會貫通。