新手如何進入大數據領域,學習路線是什麼

来源:https://www.cnblogs.com/baijindashuju666/archive/2019/10/11/11654746.html
-Advertisement-
Play Games

大數據不是某個專業或一門編程語言,實際上它是一系列技術的組合運用。 有人通過下方的等式給出了大數據的定義。 大數據 = 編程技巧 + 數據結構和演算法 + 分析能力 + 資料庫技能 + 數學 + 機器學習 + NLP + OS + 密碼學 + 並行編程 雖然這個等式看起來很長,需要學習的東西很多,但付 ...




大數據不是某個專業或一門編程語言,實際上它是一系列技術的組合運用。

有人通過下方的等式給出了大數據的定義。

大數據 = 編程技巧 + 數據結構和演算法 + 分析能力 + 資料庫技能 + 數學 + 機器學習 + NLP + OS + 密碼學 + 並行編程

雖然這個等式看起來很長,需要學習的東西很多,但付出和彙報是成正比的,至少和薪資是成正比的。

既然要學的知識很多,那麼一個正確的學習順序就非常關鍵了。

小編為「大數據」制定了一條專業的學習路徑,希望幫助大家少走彎路。主要分為 7 個階段:入門知識 → Java 基礎 → Scala 基礎 → Hadoop 技術模塊 → Hadoop 項目實戰 → Spark 技術模塊 → 大數據項目實戰。

其中,階段一到階段五均為免費課程,具體說來:



階段一:學習入門知識

這一部分主要針對的是新手,在學習之前需要先掌握基本的資料庫知識。MySQL 是一個 DBMS(資料庫管理系統),是最流行的

關係型資料庫管理系統(關係資料庫,是建立在關係資料庫模型基礎上的資料庫,藉助於集合代數等概念和方法來處理資料庫中的

數據)。MongoDB 是 IT 行業非常流行的一種非關係型資料庫(NoSQL),其靈活的數據存儲方式備受當前 IT 從業人員的青睞。

而 Redis 是一個開源、支持網路、基於記憶體、鍵值對存儲資料庫。兩者都非常有必要瞭解。

1.Linux 基礎入門(新版)

2.Vim編輯器

3.Git 實戰教程

4.MySQL 基礎課程

5.MongoDB 基礎教程

6.Redis基礎教程

 

階段二:Java基礎

Java 是目前使用最為廣泛的編程語言,它具有的眾多特性,特別適合作為大數據應用的開發語言。

Java 語言具有功能強大和簡單易用兩個特征,跨平臺應用能力比 C、C++ 更易用,更容易上手。同時還具有簡單性、面向對象、分散式、健壯性、安全性、平臺獨立與可移植性、多線程、動態性等特點。最重要的一點是 Hadoop 是用 Java 編寫的。

1.Java編程語言(新版)

2.Java進階之設計模式

3.J2SE核心開發實戰

4.JDK 核心 API

5.JDBC 入門教程

6.Java 8 新特性指南

 

階段三:Scala基礎

Scala 是一種多範式的編程語言,其設計的初衷是要集成面向對象編程和函數式編程的各種特性。由於 Scala 運行於 Java 平臺(Java 虛擬機),並相容現有的Java 程式,所以 Scala 可以和大數據相關的基於 JVM 的系統很好的集成。

1.Scala 開發教程

2.Scala 專題教程 - Case Class和模式匹配

3.Scala 專題教程 - 隱式變換和隱式參數

4.Scala 專題教程 - 抽象成員

5.Scala 專題教程 - Extractor

6.Scala 開發二十四點游戲

階段四:Hadoop技術模塊

Hadoop 是一款支持數據密集型分散式應用並以 Apache 2.0 許可協議發佈的開源軟體框架,它能搭建大型數據倉庫,PB 級別數據的存儲、處理、分析、統計等業務。編程語言你可以選,但 Hadoop 一定是大數據必學內容。

 

1.Hadoop入門進階課程

2.Hadoop部署及管理

3.HBASE 教程

4.Hadoop 分散式文件系統--導入和導出數據

5.使用 Flume 收集數據

 

階段五:Hadoop項目實戰

當然,學完理論就要進行動手實戰了,Hadoop 項目實戰可以幫助加深對內容的理解,並鍛煉動手能力。

 

1.Hadoop 圖處理--《hadoop應用框架》

 

階段六:Spark技術模塊

Spark 和 Hadoop 都是大數據框架。Hadoop 提供了 Spark 所沒有的功能特性,比如分散式文件系統,而 Spark 為需要它的那些數據集提供了實時記憶體處理。所以學習 Spark 也非常必要。

1.Spark

2.x 快速入門教程

2.Spark 大數據動手實驗

3.Spark 基礎之 GraphX 圖計算框架學習

4.Spark 基礎之 DataFrame 基本概念學習

5.Spark 基礎之 DataFrame 高階應用技巧

6.Spark 基礎之 Streaming 快速上手

7.Spark 基礎之 SQL 快速上手

8.Spark 基礎之使用機器學習庫 MLlib

9.Spark 基礎之 SparkR 快速上手

10.流式實時日誌分析系統--《Spark 最佳實踐》

11.使用 Spark 和 D3.js 分析航班大數據

階段七:大數據項目實戰

最後階段提供了大數據實戰項目,這是對常用技能的系統運用,例如使用常用的機器學習進行建模、分析和運算,這是成為大數據工程師過程中的重要一步。

1.Ebay 線上拍賣數據分析 

2.流式實時日誌分析系統--《Spark 最佳實踐》

3.大數據帶你挖掘打車的秘籍

4.Twitter數據情感分析

5.使用 Spark 進行流量日誌分析

6.Spark流式計算電商商品關註度

7.Spark的模式挖掘-FPGrowth演算法

 


本人對於大數據學習創建了一個小小的學習圈子,為各位提供了一個平臺,大家一起來討論學習大數據。歡迎各位到來大數據學習qun :1.4.2.9++7.4.1.5.1 一起討論視頻分享學習。大數據是未來的發展方向,正在挑戰我們的分析能力及對世界的認知方式,因此,我們與時俱進,迎接變化,並不斷的成長,掌握大數據核心技術,才是掌握真正的價值所在。
 

希望以上內容對大家有用,也祝小伙伴們成為一名優秀的大數據工程師。
————————————————
版權聲明:本文為CSDN博主「鐵拳虎」的原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/juan189/article/details/84321549


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Samba服務: 本內容為samba服務學習者提供參考 案例描述: 某公司的管理員需要搭建SAMBA伺服器,IP地址及允許的訪問網段自定義。SAMBA伺服器的安全級別為user級,所在工作組為WORKGROUP,使添加的用戶可以訪問其個人目錄及共用目錄/smb_share,並可以對目錄讀、寫、執行。 ...
  • 背景分析 消息隊列這個類型的組件一直是非常重要的組件,當經過兩家企業後我就很堅信這個結論了。隊列這種東西,最廣泛的作用還是在於解耦,寬泛一點的說,它可以將不同部門的工作內容進行有效的整合,基於一個約定好的格式,就可以兩頭互相不幹擾的進行開發。可以說這個生產消費的思想不僅僅適用於程式也適用於非常多的地 ...
  • [20191011]拆分rowid 2.txt--//有了鏈接http://blog.itpub.net/267265/viewspace-2659612/=>[20191011]bash任意進位編碼表.txt --//轉化拆分rowid在bash變得非常容易,自己寫一個腳本看看.--//Rowid ...
  • 使用 Windows 身份驗證方式登錄 出現錯誤 無法連接到 本地伺服器 解決問題: SQL server配置管理器:服務遠程過程調用失敗 https://blog.csdn.net/gfjjggg/article/details/83721445 修改TCP/IP屬性:https://www.cn ...
  • 創建一個只讀用戶user2,只能查詢管理員用戶user1下的表,不能增刪改。 ...
  • mongodb中的全部數據: 查詢結果: 通過嵌入文檔中查詢指定title的數據,然後根據price排序,註意需要排序時將查詢的title也一併作為排序欄位,否則順序會錯亂。 查詢結果: ...
  • 建立索引常用的規則 表的主鍵、外鍵必須有索引; 數據量超過300的表應該有索引; 經常與其他表進行連接的表,在連接欄位上應該建立索引; 經常出現在Where子句中的欄位,特別是大表的欄位,應該建立索引; 索引應該建在選擇性高的欄位上; 索引應該建在小欄位上,對於大的文本欄位甚至超長欄位,不要建索引; ...
  • 1.這個異常是指,用戶向資料庫執行插入數據操作時,某條數據的某個欄位值過長,如果是varchar2類型的,當長度超過2000,--4000(最大值)之間的時候,oracle會自動將該欄位值轉為long型的(-_-||有點坑~),然後插入操作失敗。 2.改完數據類型之後還是報這個錯,原因是:當從dua ...
一周排行
    -Advertisement-
    Play Games
  • 基於.NET Framework 4.8 開發的深度學習模型部署測試平臺,提供了YOLO框架的主流系列模型,包括YOLOv8~v9,以及其系列下的Det、Seg、Pose、Obb、Cls等應用場景,同時支持圖像與視頻檢測。模型部署引擎使用的是OpenVINO™、TensorRT、ONNX runti... ...
  • 十年沉澱,重啟開發之路 十年前,我沉浸在開發的海洋中,每日與代碼為伍,與演算法共舞。那時的我,滿懷激情,對技術的追求近乎狂熱。然而,隨著歲月的流逝,生活的忙碌逐漸占據了我的大部分時間,讓我無暇顧及技術的沉澱與積累。 十年間,我經歷了職業生涯的起伏和變遷。從初出茅廬的菜鳥到逐漸嶄露頭角的開發者,我見證了 ...
  • C# 是一種簡單、現代、面向對象和類型安全的編程語言。.NET 是由 Microsoft 創建的開發平臺,平臺包含了語言規範、工具、運行,支持開發各種應用,如Web、移動、桌面等。.NET框架有多個實現,如.NET Framework、.NET Core(及後續的.NET 5+版本),以及社區版本M... ...
  • 前言 本文介紹瞭如何使用三菱提供的MX Component插件實現對三菱PLC軟元件數據的讀寫,記錄了使用電腦模擬,模擬PLC,直至完成測試的詳細流程,並重點介紹了在這個過程中的易錯點,供參考。 用到的軟體: 1. PLC開發編程環境GX Works2,GX Works2下載鏈接 https:// ...
  • 前言 整理這個官方翻譯的系列,原因是網上大部分的 tomcat 版本比較舊,此版本為 v11 最新的版本。 開源項目 從零手寫實現 tomcat minicat 別稱【嗅虎】心有猛虎,輕嗅薔薇。 系列文章 web server apache tomcat11-01-官方文檔入門介紹 web serv ...
  • 1、jQuery介紹 jQuery是什麼 jQuery是一個快速、簡潔的JavaScript框架,是繼Prototype之後又一個優秀的JavaScript代碼庫(或JavaScript框架)。jQuery設計的宗旨是“write Less,Do More”,即倡導寫更少的代碼,做更多的事情。它封裝 ...
  • 前言 之前的文章把js引擎(aardio封裝庫) 微軟開源的js引擎(ChakraCore))寫好了,這篇文章整點js代碼來測一下bug。測試網站:https://fanyi.youdao.com/index.html#/ 逆向思路 逆向思路可以看有道翻譯js逆向(MD5加密,AES加密)附完整源碼 ...
  • 引言 現代的操作系統(Windows,Linux,Mac OS)等都可以同時打開多個軟體(任務),這些軟體在我們的感知上是同時運行的,例如我們可以一邊瀏覽網頁,一邊聽音樂。而CPU執行代碼同一時間只能執行一條,但即使我們的電腦是單核CPU也可以同時運行多個任務,如下圖所示,這是因為我們的 CPU 的 ...
  • 掌握使用Python進行文本英文統計的基本方法,並瞭解如何進一步優化和擴展這些方法,以應對更複雜的文本分析任務。 ...
  • 背景 Redis多數據源常見的場景: 分區數據處理:當數據量增長時,單個Redis實例可能無法處理所有的數據。通過使用多個Redis數據源,可以將數據分區存儲在不同的實例中,使得數據處理更加高效。 多租戶應用程式:對於多租戶應用程式,每個租戶可以擁有自己的Redis數據源,以確保數據隔離和安全性。 ...