“第一磚”從相認到相識 什麼是大數據?可能有人會說寫字樓的所有人的資料信息就是個大數據。NO!這裡的數據只能說比較大,但卻不能稱之為大數據。百度百科上給出了很明確的解釋“大數據(big data),指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策 ...
“第一磚”從相認到相識
什麼是大數據?可能有人會說寫字樓的所有人的資料信息就是個大數據。NO!這裡的數據只能說比較大,但卻不能稱之為大數據。百度百科上給出了很明確的解釋“大數據(big data),指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。”
大數據學習資料分享群119599574
大數據有五個特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。其中Volume就是普遍認為的數據足夠大,因此數據大並不能說就是大數據,話句話說數據大隻是大數據其中的一個特點。
大數據技術的戰略意義不在於掌握龐大的數據信息,而在於對這些含有意義的數據進行專業化處理。換而言之,如果把大數據比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對數據的“加工能力”,通過“加工”實現數據的“增值”。
現在我們“從相認到相識”,清楚的認識什麼是大數據,如果區分大數據和數據大,是我們學習大數據走的第一步。
“第二磚”拜師學藝,融匯百家
擁有了“第一磚”後就是你即將選擇師門的時候了,敲開山門的“第二磚”則是學習大數據的基礎,就如同在門派中修煉內功,有助你行走江湖,話不多說我們來看看會涉及到哪些基礎吧!
1、 javaSE,EE(SSM)
90%的大數據框架都是java寫的。
如:MongoDB--最受歡迎的,跨平臺的,面向文檔的資料庫。 Hadoop--用Java編寫的開源軟體框架,用於分散式存儲,並對非常大的數據集進行分散式處理。
Spark --Apache Software Foundation中最活躍的項目,是一個開源集群計算框架。
Hbase--開放源代碼,非關係型,分散式資料庫,採用Google的BigTable建模,用Java編寫,併在HDFS上運行。
2、 MySQL(必須需要掌握的)
SQLon Hadoop又分:
batch SQL(Hive):一般用於複雜的 ETL 處理,數據挖掘,高級分析;
interactive SQL:互動式 SQL 查詢,通常在同一個表上反覆的執行不同的查詢;
operation SQL:通常是單點查詢,延時要求小於 1 秒,該類系統主要是HBase。
3、Linux
Linux(一種操作系統,程式員必須掌握的,我的博客里有我對Linux的介紹)大數據的框架安裝在Linux操作系統上
“第三磚”進階提高,力輓狂瀾
學習了大數據基礎後,我們要做到就是在實際的數據分析上,如何去解決問題,所以如何分析數據就是我們的重點了,在數據中分析出有利於我們的數據則是我們的目標,小編我總結了以下幾種方法,供大家參考,但方法是死的,人是活的,如何融會貫通就靠我們自己不斷是嘗試學習哦!
1、大數據離線分析
一般處理T+1數據(T是指日、周、月、年),處理歷史數據
模塊1:Hadoop
包括四大塊(common、yarn、MapReduce、HDFS)
主要掌握環境搭建、處理數據的思想
模塊2:Hive
大數據數據倉庫
通過寫SQL對數據進行操作,類似於mysql資料庫中的sql
模塊3:HBase
基於HDFS的NOSQL資料庫 面向列的存儲
2、大數據機器學習
spark MLlib:機器學習庫
pyspark編程:Python和spark的結合
推薦系統
python數據分析
Python機器學習
總結:學習大數據的三個“敲門磚”,希望能對大數據有興趣的朋友一種啟髮式作用,方法的學習還需要在有興趣的基礎上刻苦專研、融會貫通。大數據學習資料分享群119599574