大數據學習計劃、是時候開始學習了

来源:https://www.cnblogs.com/dashujudaka/archive/2018/07/06/9272791.html
-Advertisement-
Play Games

背景 近年來大數據BigData、人工智慧AI、物聯網Iot等行業發展迅猛,很多人都想要從事大數據技術開發工作,但是,請問要怎麼做,路線是什麼?從哪裡開始學?學哪些?這是一個大問題。對於我自己來說,最近也在學一些大數據開發相關的技術,所以之前整理了一份《大數據技術學習路線》,希望對你有所幫助。 推薦 ...


背景

近年來大數據BigData、人工智慧AI、物聯網Iot等行業發展迅猛,很多人都想要從事大數據技術開發工作,但是,請問要怎麼做路線是什麼?從哪裡開始學?學哪些?這是一個大問題。對於我自己來說,最近也在學一些大數據開發相關的技術,所以之前整理了一份《大數據技術學習路線》,希望對你有所幫助。

推薦一個大數據學習群 119599574晚上20:10都有一節【免費的】大數據直播課程,專註大數據分析方法,大數據編程,大數據倉庫,大數據案例,人工智慧,數據挖掘都是純乾貨分享,

學習規劃

總共分為五大部分,分別是:

  • 大數據技術基礎
  • 離線計算Hadoop
  • 流式計算Storm
  • 記憶體計算Spark
  • 機器學習演算法

目前我學完了約60%的內容,但還有很多需要多實踐、和深研的地方,我也在繼續學習,和摸索當中。希望你早日能成為大數據技術開發中的一員,然後大家一起學習,和技術交流。

技術說明

這裡我只列舉了技術點,給你提供了一個學習方向,具體實現內容可以藉助網路去學習了,相信這方面你應該懂得瞭如何藉助網路力量,然後進行自我學習了。

大數據技術基礎

linux操作基礎

  • linux系統簡介與安裝
  • linux常用命令–文件操作
  • linux常用命令–用戶管理與許可權
  • linux常用命令–系統管理
  • linux常用命令–免密登陸配置與網路管理
  • linux上常用軟體安裝
  • linux本地yum源配置及yum軟體安裝
  • linux防火牆配置
  • linux高級文本處理命令cut、sed、awk
  • linux定時任務crontab

shell編程

  • shell編程–基本語法
  • shell編程–流程式控制制
  • shell編程–函數
  • shell編程–綜合案例–自動化部署腳本

記憶體資料庫redis

  • redis和nosql簡介
  • redis客戶端連接
  • redis的string類型數據結構操作及應用-對象緩存
  • redis的list類型數據結構操作及應用案例-任務調度隊列
  • redis的hash及set數據結構操作及應用案例-購物車
  • redis的sortedset數據結構操作及應用案例-排行榜

布式協調服務zookeeper

  • zookeeper簡介及應用場景
  • zookeeper集群安裝部署
  • zookeeper的數據節點與命令行操作
  • zookeeper的java客戶端基本操作及事件監聽
  • zookeeper核心機制及數據節點
  • zookeeper應用案例–分散式共用資源鎖
  • zookeeper應用案例–伺服器上下線動態感知
  • zookeeper的數據一致性原理及leader選舉機制

java高級特性增強

  • Java多線程基本知識
  • Java同步關鍵詞詳解
  • java併發包線程池及在開源軟體中的應用
  • Java併發包消息隊里及在開源軟體中的應用
  • Java JMS技術
  • Java動態代理反射

輕量級RPC框架開發

  • RPC原理學習
  • Nio原理學習
  • Netty常用API學習
  • 輕量級RPC框架需求分析及原理分析
  • 輕量級RPC框架開發

離線計算Hadoop

hadoop快速入門

  • hadoop背景介紹
  • 分散式系統概述
  • 離線數據分析流程介紹
  • 集群搭建
  • 集群使用初步

HDFS增強

  • HDFS的概念和特性
  • HDFS的shell(命令行客戶端)操作
  • HDFS的工作機制
  • NAMENODE的工作機制
  • java的api操作
  • 案例1:開發shell採集腳本

MAPREDUCE詳解

  • 自定義hadoop的RPC框架
  • Mapreduce編程規範及示例編寫
  • Mapreduce程式運行模式及debug方法
  • mapreduce程式運行模式的內在機理
  • mapreduce運算框架的主體工作流程
  • 自定義對象的序列化方法
  • MapReduce編程案例

MAPREDUCE增強

  • Mapreduce排序
  • 自定義partitioner
  • Mapreduce的combiner
  • mapreduce工作機制詳解

MAPREDUCE實戰

  • maptask並行度機制-文件切片
  • maptask並行度設置
  • 倒排索引
  • 共同好友

federation介紹和hive使用

  • Hadoop的HA機制
  • HA集群的安裝部署
  • 集群運維測試之Datanode動態上下線
  • 集群運維測試之Namenode狀態切換管理
  • 集群運維測試之數據塊的balance
  • HA下HDFS-API變化
  • hive簡介
  • hive架構
  • hive安裝部署
  • hvie初使用

hive增強和flume介紹

  • HQL-DDL基本語法
  • HQL-DML基本語法
  • HIVE的join
  • HIVE 參數配置
  • HIVE 自定義函數和Transform
  • HIVE 執行HQL的實例分析
  • HIVE最佳實踐註意點
  • HIVE優化策略
  • HIVE實戰案例
  • Flume介紹
  • Flume的安裝部署
  • 案例:採集目錄到HDFS
  • 案例:採集文件到HDFS

流式計算Storm

Storm從入門到精通

  • Storm是什麼
  • Storm架構分析
  • Storm架構分析
  • Storm編程模型、Tuple源碼、併發度分析
  • Storm WordCount案例及常用Api分析
  • Storm集群部署實戰
  • Storm+Kafka+Redis業務指標計算
  • Storm源碼下載編譯
  • Strom集群啟動及源碼分析
  • Storm任務提交及源碼分析
  • Storm數據發送流程分析
  • Storm通信機制分析
  • Storm消息容錯機制及源碼分析
  • Storm多stream項目分析
  • 編寫自己的流式任務執行框架

Storm上下游及架構集成

  • 消息隊列是什麼
  • Kakfa核心組件
  • Kafka集群部署實戰及常用命令
  • Kafka配置文件梳理
  • Kakfa JavaApi學習
  • Kafka文件存儲機制分析
  • Redis基礎及單機環境部署
  • Redis數據結構及典型案例
  • Flume快速入門
  • Flume+Kafka+Storm+Redis整合

記憶體計算Spark

scala編程

  • scala編程介紹
  • scala相關軟體安裝
  • scala基礎語法
  • scala方法和函數
  • scala函數式編程特點
  • scala數組和集合
  • scala編程練習(單機版WordCount)
  • scala面向對象
    • scala模式匹配
    • actor編程介紹
    • option和偏函數
    • 實戰:actor的併發WordCount
    • 柯里化
    • 隱式轉換

    AKKA與RPC

    • Akka併發編程框架
    • 實戰:RPC編程實戰

    Spark快速入門

    • spark介紹
    • spark環境搭建
    • RDD簡介
    • RDD的轉換和動作
    • 實戰:RDD綜合練習
    • RDD高級運算元
    • 自定義Partitioner
    • 實戰:網站訪問次數
    • 廣播變數
    • 實戰:根據IP計算歸屬地
    • 自定義排序
    • 利用JDBC RDD實現數據導入導出
    • WorldCount執行流程詳解

    RDD詳解

    • RDD依賴關係
    • RDD緩存機制
    • RDD的Checkpoint檢查點機制
    • Spark任務執行過程分析
    • RDD的Stage劃分

    Spark-Sql應用

    • Spark-SQL
    • Spark結合Hive
    • DataFrame
    • 實戰:Spark-SQL和DataFrame案例

    SparkStreaming應用實戰

    • Spark-Streaming簡介
    • Spark-Streaming編程
    • 實戰:StageFulWordCount
    • Flume結合Spark Streaming
    • Kafka結合Spark Streaming
    • 視窗函數
    • ELK技術棧介紹
    • ElasticSearch安裝和使用
    • Storm架構分析
    • Storm編程模型、Tuple源碼、併發度分析
    • Storm WordCount案例及常用Api分析

    Spark核心源碼解析

    • Spark源碼編譯
    • Spark遠程debug
    • Spark任務提交行流程源碼分析
    • Spark通信流程源碼分析
    • SparkContext創建過程源碼分析
    • DriverActor和ClientActor通信過程源碼分析
    • Worker啟動Executor過程源碼分析
    • Executor向DriverActor註冊過程源碼分析
    • Executor向Driver註冊過程源碼分析
    • DAGScheduler和TaskScheduler源碼分析
    • Shuffle過程源碼分析
    • Task執行過程源碼分析

    機器學習演算法

    python及numpy庫

    • 機器學習簡介
    • 機器學習與python
    • python語言–快速入門
    • python語言–數據類型詳解
    • python語言–流程式控制制語句
    • python語言–函數使用
    • python語言–模塊和包
    • phthon語言–面向對象
    • python機器學習演算法庫–numpy
    • 機器學習必備數學知識–概率論

    常用演算法實現

    • knn分類演算法–演算法原理
    • knn分類演算法–代碼實現
    • knn分類演算法–手寫字識別案例
    • lineage回歸分類演算法–演算法原理
    • lineage回歸分類演算法–演算法實現及demo
    • 朴素貝葉斯分類演算法–演算法原理
    • 朴素貝葉斯分類演算法–演算法實現
    • 朴素貝葉斯分類演算法–垃圾郵件識別應用案例
    • kmeans聚類演算法–演算法原理
    • kmeans聚類演算法–演算法實現
    • kmeans聚類演算法–地理位置聚類應用
    • 決策樹分類演算法–演算法原理
    • 決策樹分類演算法–演算法實現

    尾記

    看完有信心能堅持學習嗎?如果你的答案是肯定的,那就當下開始行動吧!Fighting~

         

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 占用 ...
  • 單表查詢: 1.or 和 and 混合使用 需求:查詢業主名稱包含'劉'或門牌號包含'5'的,並且地址編號為3的記錄 and 的許可權優先於 or 所以需要在or的兩邊添加() 2. 範圍查詢 除了傳統的 where usenum >=100 and usenum <=200,還可以用between ...
  • 1.修改參數 master: gtid_mode = ON --開啟gtid這個必須打開 enforce-gtid-consistency = ON --開啟gtid這個必須打開 slave_parallel_workers=4 --開啟基於庫的多線程複製預設0不開啟 5.6只能支持一個資料庫開啟一 ...
  • 一. 概述 上次在介紹性能調優中講到了I/O的開銷查看及維護,這次介紹CPU的開銷及維護, 在調優方面是可以從多個維度去發現問題如I/O,CPU, 記憶體,鎖等,不管從哪個維度去解決,都能達到調優的效果,因為sql server系統作為一個整體性,它都是緊密相連的,例如:解決了sql語句中I/O開銷較 ...
  • 字元集是一套文字元號及其編碼,比較規則的集合。第一個字元集是ascll(american standard code for information interchange)。 1. 選擇合適的字元集 對於資料庫來說,字元集很重要,因為資料庫存儲的數據大部分是各種文字,字元集對資料庫的存儲,處理性能 ...
  • koa項目用mongoose與mongodb交互,始終報錯FormModel is not defined,就是自己定義的model實例始終不能找到,但是明明定義了,這時候就要看大小寫了,當創建一個model實例的時候,往往會起和model實例一樣的名稱,這時一定要區分大小寫,或者乾脆起一個別的名稱 ...
  • Logminer依賴於2個包:DBMS_LOGMNR和DBMS_LOGMNR_D,Oracle 11g預設已安裝 Logminer 基本使用步驟 <1>. Specify a LogMiner dictionary. 指定Logminer字典 <2>. Specify a list of redo ...
  • 本文是說明如何獲取死鎖日誌記錄的,不是說明如何解決死鎖問題的。 MySQL的死鎖可以通過show engine innodb status;來查看,但是show engine innodb status;只能顯示最新的一條死鎖,該方式無法完全捕獲到系統發生的死鎖信息。如果想要記錄所有的死鎖日誌,打開 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...