現階段大數據如火如荼,很多人想要學習大數據,但是卻不瞭解大數據,也不知道該從哪開始學起的同學,希望這篇文章能夠幫到你們。 1. Linux基礎和JavaSE基礎【包含mysql】 這些是基本功,剛開始也不可能學的很精通,最起碼要對linux中的一些基本的命令混個臉熟,後面學習各種框架的時候都會用到, ...
現階段大數據如火如荼,很多人想要學習大數據,但是卻不瞭解大數據,也不知道該從哪開始學起的同學,希望這篇文章能夠幫到你們。
1. Linux基礎和JavaSE基礎【包含mysql】
這些是基本功,剛開始也不可能學的很精通,最起碼要對linux中的一些基本的命令混個臉熟,後面學習各種框架的時候都會用到,用多了就熟悉了。javase的話建議主要看面向對象,集合,io,多線程,以及jdbc操作即可。mysql的話要熟悉最基礎的增刪改查。
2. Zookeeper
zookeeper是一個分散式應用程式協服務,一般為分散式應用提供一致性服務,提供的功能包括:配置維護、功能變數名稱服務、分散式同步、組服務等。中文名稱是動物園的意思,因為目前的大數據框架的圖標很多都是動物的形狀,所以zookeeper其實就是可以管理很多大數據框架的。針對這個框架,主要掌握如何搭建單節點和集群,以及掌握如何在zkcli客戶端下對zookeeper的節點進行增刪改查操作即可。想要深入的話可以研究一下zookeeper的Paxos演算法。
3. Hadoop
目前企業中一般都是用hadoop2.x的版本了,所以就沒有必要再去學hadoop1.x版本了,hadoop2.x主要包含三大塊:
hdfs 先學hdfs的架構,如何實現高可用等,接著主要學習hdfs的一些命令即可,上傳,下載,刪除,移動,查看等命令…
mapreduce 這個需要重點學習下,要理解mr的原理以及代碼實現,雖然現在工作中真正寫mr的代碼次數很少了(大部分用hive),但是原理還是要理解的。
yarn 前期瞭解即可,只需要知道yarn是一個資源調度平臺,主要負責給任務分配資源即可,yarn不僅可以給mapreduce任務調度資源,還可以為spark任務調度資源…yarn是一個公共的資源調度平臺,所有滿足條件的框架都可以使用yarn來進行資源調度。
4. Hive
hive是一個數據倉庫,所有的數據都是存儲在hdfs上的,具體【數據倉庫和資料庫】的區別大家可以去網上搜索一下,有很多介紹。其實如果對mysql的使用比較熟悉的話,使用hive也就簡單很多了,使用hive主要是寫hql,hql是hive的sql語言,非常類似於mysql資料庫的sql,後續學習hive的時候主要理解一些hive的語法特性即可。其實hive在執行hql,底層在執行的時候還是執行的mapredce程式。
註意:其實hive本身是很強大的,數據倉庫的設計在工作中也是很重要的,但是前期學習的時候,主要先學會如何使用就好了。後期可以好好研究一下hive。
5. Hbase
hbase是一個在國內很火的nosql 資料庫,是一個key-value類型的資料庫,底層的數據存儲在hdfs上。在學習hbase的時候主要掌握 row-key的設計,以及列簇的設計。要註意一個特點就是,hbase基於rowkey查詢效率很快,可以達到秒級查詢,但是基於列簇中的列進行查詢,特別是組合查詢的時候,如果數據量很大的話,查詢性能會很差。
離線項目練手
通常學到這裡就可以找一兩個離線項目練練手了,把上面學習的知識都串一下,加深理解,讓自己對於各個組件之間的配合使用有一個總體的瞭解(這點非常重要)。關於這種項目網上、淘寶上有很多資源。
6. Redis
redis也是一個nosql 資料庫和key-value類型的資料庫,但是這個資料庫是純基於記憶體的,也就是redis資料庫中的數據都是存儲在記憶體中的,所以它的一個特點就是適用於快速讀寫的應用場景,讀寫可以達到10W次/秒,但是不適合存儲海量數據,畢竟機器的記憶體是有限的,當然,redis也支持集群,也可以存儲大量數據。在學習redis的時候主要掌握string,list,set,sortedset,hashmap這幾種數據類型的區別以及使用,還有pipeline管道,這個在批量入庫數據的時候是非常有用的,以及transaction事務功能。
7. Flume
flume是一個日誌採集工具,這個還是比較常用的,最常見的就是採集應用產生的日誌文件中的數據。一般有兩個流程,一個是flume採集數據存儲到kafka中,為了後面使用storm或者sparkstreaming進行實時處理。另一個流程是flume採集的數據落盤到hdfs上,為了後期使用hadoop或者spark進行離線處理。在學習flume的時候其實主要就是學會看flume官網的文檔,學習各種組建的配置參數,因為使用flume就是寫各種的配置。
8. Kafka
kafka 是一個非常優秀的消息隊列,幾乎所有做大數據的公司都會使用到Kafka,在工作中常用於作為一個中間緩衝層,例如,flume->kafka->storm/sparkstreaming。學習kafka主要掌握topic,partition,replicate等的概念和原理。如果有時間的話可以好好研究Kafka的源碼,相當重要!
9. Scala
Scala是一門基於JVM的編程語言,不僅支持面向對象編程,而且還支持面向過程,具備了Java的所有特性,同時自己還支持強大的函數式編程,Spark和Kafka都是使用Scala編寫,這也是我們需要學習它的一大原因,因為想要深入理解Spark和Kafka,必須要剖析其源碼。可以預見未來Scala語言將在大數據領域大放光彩。
10. Spark
Spark 經過前幾年的迅速發展,如今已經成了很多企業的首選大數據計算框架,也發展成了一個生態圈,spark裡面包含很多技術,spark core,spark steaming,spark mlib,spark graphx。
spark生態圈裡麵包含的有離線處理spark core,和實時處理spark streaming,在這裡需要註意一下,storm和spark streaming ,兩個都是實時處理框架,但是主要區別是:storm是真正的一條一條的處理,而spark streaming 是一批一批的處理。
spark中包含很多框架,在剛開始學習的時候主要學習spark core和spark streaming即可。這個一般搞大數據的都會用到。有時間的話可以好好讀讀Spark的源碼,提升自己的理解深度。spark mlib和spark graphx 可以等後期工作需要或者有時間了在研究即可。
Spark項目練手
Spark學習完後一定要找幾個項目練手,最好是一個離線項目一個實時項目,好讓你對於整個開發流程有了一定的認識。
至此你應該具備了作為初級大數據開發工程師的水平,開始找工作去吧!
註意:對於上面的各項技術而言,要挑一到兩個深入剖析其核心原理,研讀其源碼,這樣在面試中會更有競爭力。
其他技能推薦
Git & GitHub
Git對於程式員來說絕對是一門利器,不僅可以方便管理自己的代碼,而且還可以進行多人協助開發,早學早受用!
GitHub也是個好東西啊,這上面有很多很多優秀的開源項目,還有很多你意想不到的實用軟體和資料,是程式員的大寶藏啊,你可以為上面的開源項目貢獻自己的代碼,也可以創建上傳自己的項目代碼,這都是以後面試中的加分項。把刷朋友圈的時間用來刷GitHub吧,相信你會發現另一個世界。
我還是要推薦下我自己創建的大數據資料分享群142973723,這是大數據學習交流的地方,不管你是小白還是大牛,小編都歡迎,不定期分享乾貨,包括我整理的一份適合零基礎學習大數據資料和入門教程。
Markdown
Markdown是一種可以使用普通文本編輯器編寫的標記語言,通過簡單的標記語法,它可以使普通文本內容具有一定的格式。使用了Markdown後你再不需要為文章的樣式而耗費時間了,專註於內容的創作,不得不說Markdown讓我愛上了寫作。
手機免打擾
咋一看你估計有點蒙,但確實這是一項非常有用的技能,在學習的時候把手機開啟免打擾,什麼微信、簡訊、電話(列個白名單)統統屏蔽,一個不容易受打擾的環境,瞬間學習效率提升了好幾倍,你最寶貴的東西就是你的註意力,不要讓他輕易的被他人收割!