3000字長文教你大數據該怎麼學!

来源:https://www.cnblogs.com/uncledata/archive/2020/05/14/12886978.html
-Advertisement-
Play Games

大概兩年前寫過同樣標題的一篇文章,對於這個問題感興趣的人不少,後臺收到不少同學的提問,所以準備細緻地解答一下這些問題,希望能解決掉大家90%的疑問。下次再看到相關的提問我會理直氣壯地把這篇文章的鏈接甩你臉上。但是可能又會有同學有疑問了,那剩下10%的疑問怎麼辦?可以關註我的公眾號【老蒙大數據】。 開 ...


大概兩年前寫過同樣標題的一篇文章,對於這個問題感興趣的人不少,後臺收到不少同學的提問,所以準備細緻地解答一下這些問題,希望能解決掉大家90%的疑問。下次再看到相關的提問我會理直氣壯地把這篇文章的鏈接甩你臉上。但是可能又會有同學有疑問了,那剩下10%的疑問怎麼辦?可以關註我的公眾號【老蒙大數據】。

開發語言

言歸正傳,對於新手來說,老是會有類似這樣的問題,“做大數據需要學Java嗎?”“不會Java可以嗎”“需要學到什麼程度”...我的回答是“需要!”,“不可以”,“精通”。當然對於一個新手來說讓你精通Java是不可能的,寫Java沒個十年半載真的不敢說精通,但是你得走在通往“精通”的這條路上,精通程度和你拿到的錢是成正比的。

其實我想表達的是,不要有僥幸心理,不要覺得大數據就是搭搭環境,用用組件,大數據是正兒八經需要寫代碼做開發的,而且對代碼能力的要求是比較高的,為什麼這麼說,因為大數據生態圈有很多優秀的開源組件,如果你的 Java 是半吊子的水平那我可以很明確地說,你能看得懂的代碼可能都不超過100行。不信的話可以找個開源項目看看。

Java 可以說是大數據開發的第一語言,至少當前還是的,雖然垃圾回收的問題經常被大家詬病,但是有龐大的生態圈在呢,一時半會都還會是 Java 的天下。“Java 要學到什麼程度?”JavaSE 必須掌握,JVM,多線程之類的都是基礎,面試必問系列;JavaEE 必須熟悉,丟個Java web項目給你,不求你把底層瞭解地多麼透徹,但是必須得會寫,因為大數據開發實際工作中少不了寫介面。

SQL。如果說有一門語言可能會撼動 Java 一哥的位置的話,那絕對是 SQL,雖然 SQL 和 Java 都算不上是一個層面上的語言,但是它太重要了,太多人的 SQL 寫得太渣了,太多人寫 SQL 的時候不考慮底層優化了,要重視呀兄弟們,不是增刪查改就完事了的。有小伙伴問過要怎麼提升寫 SQL 的能力?孰能生巧,多寫,多瞭解底層原理,多思考優化的方案。

Scala 要學到什麼程度?語法得懂,除了基本的,還有什麼隱式轉換,什麼柯里化,什麼閉包等等。學Scala 最大的目的就是寫 Spark,Spark 在大數據生態圈的存在感太強了,學習一門語言最好的方式就是實踐,多寫寫 Spark 相關的項目,或者去看看 Spark 的源碼。

shell 也是必不可少的,大數據開發其實一般都會承擔起大數據集群的運維工作,說到運維,shell的重要性應該不用我多說了吧。

語言是程式員的兵器,兵器肯定是越鋒利越好,種類越多越好,弓箭,刀,劍,盾,都有它們各自使用的場景。程式員不要有僥幸心理,不要得過且過,對於技術來說要知其然且知其所以然,如果你還達不到這個地步,那一定要走在這個方向上。

大數據技術組件

上面這張讓人犯密集恐懼症的東西是什麼?是2019年據不完全統計的大數據產品。

是的,人人都知道,大數據技術實在是太多了,變化也太快了,新技術層出不窮,作為一個新人在面對這些技術的時候,常有的一個狀態就是懵,所以新人加我微信最常見的問題就是怎麼學?這個要不要學?那個需要學到什麼程度?等等。

哪些要學?

hadoop基礎全家桶,hdfs,yarn,hbase,hive,zookeeper等,再加個 spark 全家桶,以及流式計算全家桶kafka,flink,redis。

如果真的是認認真真吃透了上面的那些技能的話,那我能保證你已經基本上能解決90%的大數據問題,那剩下的10%怎麼辦?這個問題好像有點熟悉,當然還是繼續學,但是你有了這解決90%問題的能力,剩下的10%的問題其實也不是什麼大問題了。

怎麼學?

從局部到整體。說得通俗一點就是要腳踏實地,不要老是飄在天上,因為在天上看到的是一整個生態,你當然會看到有很多很多東西,但是如果你不走近看的話你是不會知道,其實有很多東西都是類似的,經典的理論就那麼幾個,大家的系統很多都是照著這些理論去實現的,只是實現的方式會有些不一樣,所以同類型的產品可能場景會稍有不同,但是架構是非常類似的,熟悉了之後你會發現,分散式系統萬變不離其宗。

簡單地說,從一個入手,比如存儲,舉個例子可以從HBase入手,因為它算是一個比較經典的分散式存儲引擎,《Big Table》也是非常經典的一篇paper,HBase裡面存在的 LSM-Tree,Bloom Filter,壓縮,分區等等原理和概念在很多分散式存儲中也是適用的。

再比如,計算,mr很經典,但是我還是建議直接從Spark入手,它的很多設計是基於mr又超過了mr的,而且 spark 生態系統非常的全能,能幹的事情非常多,先學Spark Core,搞懂編程模型,瞭解大概原理,接著學SparkSQL,瞭解catalyst等,再接著就是SparkStreaming,以及後面的StructedStreaming,學到到這裡,如果學得足夠有深度,Flink也是可以輕鬆拿下的了,二者都大量借鑒了《DataFlow》這篇paper的理論,還是那句話,萬變不離其宗。

還有很多的其他的例子,比如調度系統 AirFlow,Azkaban 以及最近挺火的 DolphinScheduler,本質上的實現都是類似的,只是在各自都增加了不同的功能來滿足用戶的需求。

還有數據可視化等等很多的例子就部一一列舉了。

說這麼多目的只有一個,腳踏實地一步一步走,程式猿這個工種還是很依賴經驗的,孰能生巧是沒有錯的。

要學到什麼程度?

我再強調一遍大數據平臺的開發人員不是簡簡單單會個搭建和使用就可以的了,這是最基礎和淺顯的內容,所以平時有些小伙伴貼一大堆報錯信息給我,問我安裝怎麼報錯了,怎麼這個功能用不了了,這些問題基本上我都不會回答,除非我那天真的我心情非常好。因為如果你連這些在google一搜一大把的問題都沒法解決的話,你覺得你是不是應該重新思考一下自己的職業選擇。

回到正題,要學到什麼程度,取決於你現在什麼水平,如果你剛入門,你要學會理解場景,搭建,使用;熟練了之後就要理解原理,懂得調優;再接下來,需要你主動去發現應用中的問題,以及找解決方案來解決問題,這個時候就不僅限於眼前的某一種技術了,需要有一個大局觀,如何培養你的這種大局觀呢,多混社區多和優秀的同行交流,多看源碼多學習優秀的開源項目。

當然最好是能夠成為優秀開源項目的 contributor 甚至 committer,這無論是在跳槽的面試中還是在晉升的述職中都是非常亮眼的加分項。

擁抱開源

學好語言的目的是為了寫代碼,寫優秀的代碼,那麼如何能寫出優秀的代碼呢,人類最初學習的過程是從模仿開始的。

上面都提到了源碼,為什麼我要反覆提這個問題呢,大數據的技術逐漸成熟,大數據的下半場絕對不會像前幾年一樣會搭個Hadoop,會寫個Spark就能拿比較高的薪資,高薪大數據平臺方向的程式員未來的趨勢一定能夠是搗鼓各種源碼進行二次開發的。

都說一入開源深似海,那為什麼還是有那麼多人往坑裡跳呢,坑裡有好處呀。

首先開源的目的就是能給更多的人使用這個產品,同時能讓開發者參與開發,讓使用者提出需求,這對產品而言是有積極推進作用的,但是,開發者核心團隊會篩選使用者的需求,因為開源的東西考慮的是大多數人通用的需求,不可能為個人定製,所以它是不能適應所有的場景,而業務是千變萬化的,需求方是神通廣大的,他們總是能夠發掘一些刁鑽的需求,總是會“想方設法”地為難你,如果你經常被難倒的話,N+1會在不遠處向你招手。而如果你能夠改動一下源碼,讓這個東西滿足你的需求,不是很美好嗎?

參與開源項目的建設是提升程式員個人水平的一個很好的方式,通過一些頭部的開源項目,你可以看到業界優秀的程式員是怎麼合理設計架構的,是怎麼寫出高質量代碼的,是怎麼實現刁鑽需求的。人總是在模仿中不斷成長的,你的水平怎麼樣很大一部分取決於你接觸的人水平怎麼樣,這也是大廠經歷可以給簡歷加分的原因,沒有大廠經歷怎麼辦呢,送你四個字,“入開源坑”。

大部分人工作說到底都是為了錢,不晉升哪來的錢。造輪子,二次開發都是晉升很好的資本,不然阿裡在github也不會有那麼多KPI產物了。你可以看不慣,但是沒辦法,這就是競爭力,別人都沒有做出來,而你做出來了。

那麼如何入坑呢,先從簡單的開始,最好是能結合公司現在在使用東西,或者潛在需要使用的東西來下手。國外apache的項目一般都是比較高質量的,也要參照一下github上的star個數和活躍度來看,另外沒進入apache的一些項目,比如cloudera,facebook,linkin等這些公司開源的也有很多高質量的大數據項目。

國內的話,阿裡也有不少應用非常廣泛的Java項目,比如druid,fastjson,datax,canal等等,可以先從這些下手,先讀懂,然後可以看看 Github 上的 Issues,有沒有和自己遇到的問題類似的,或者有沒有問題是你可以解決的,提個PR,至此,你已經邁出了第一步,一隻腳已經踩進坑裡了。

總而言之,要多讀優秀源碼,模仿人家寫代碼的思想。源碼閱讀相關的內容可能會枯燥乏味,但是一點點堅持下來的話,各方面都會有蛻變的。

還沒有看夠?掃下麵的二維碼關註下公眾號吧!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 學習筆記 目錄 前言 運維人員的核心職責:... 1 第一章伺服器硬體與組成原理... 1 伺服器... 1 1.伺服器的分類:... 1 2.伺服器的組成:... 2 1)電源:... 2 2)cpu. 2 3)記憶體... 2 4)磁碟... 3 5)RAID卡(陣列卡).. 3 6)遠程管理卡: ...
  • 一 K3S概述 1.1 K3S介紹 K3S是一個輕量級Kubernetes發行版。易於安裝,記憶體消耗低,所有二進位文件不到40mb。 適用於: 邊緣計算-Edge 物聯網-IoT CI ARM 1.2 K3S特點 k3s是完全相容的Kubernetes發行版,有以下更改: 移除過時的功能、Alpha ...
  • Zabbix監控TCP連接狀態(命令實現)適用centos7 1.添加自定義key配置文件 cat /etc/zabbix/zabbix_agentd.d/tcp_status.conf UserParameter=tcp_status[*],ss -ant |grep -c $1 ss直接讀/pr ...
  • 一 Helm概述 1.1 Helm介紹 Helm 是 Kubernetes 的軟體包管理工具。包管理器類似 Ubuntu 中使用的apt、Centos中使用的yum 或者Python中的 pip 一樣,能快速查找、下載和安裝軟體包。通常每個包稱為一個Chart,一個Chart是一個目錄(一般情況下會 ...
  • 前面我們看了Redis用到的主要數據結構,如簡單動態字元串(SDS)、雙向鏈表、字典、壓縮列表、整數集合等。 但是Redis並沒有直接使用這些數據結構來實現鍵值對,而是基於這些數據結構創建了一個對象系統,這個系統包括字元串對象、列表對象、哈希對象、集合對象、有序集合對象,除此之外,redis的對象系 ...
  • 1146 Table 'performance_schema.session_variables' doesn't exist 一 問題出現場景 1 在Flask使用SQLAlchemy操作mysql的時候會出現 2 使用Navicat連接資料庫會出現 附:連接Navicat成功的要點 (1) 需要 ...
  • 記憶體的讀寫速度遠大於磁碟的讀寫速度,減少磁碟讀寫,可以作為重點優化方向。 資料庫內部最重要的就是存儲結構,存儲結構必然涉及到數據結構知識。比如用到了常用的哈希圖、樹。 MYSQL資料庫常用兩種引擎,InnoDB、MyISAM,可以直接對錶指定資料庫引擎。 MYSQL索引是一種數據結構,幫助更快的查詢 ...
  • MySQL面試題-基礎 1、SQL中文全稱 結構化查詢語言2、SQL語句分類 (1)數據查詢語言DQL包括select欄位名from表名where條件 (2)數據操縱語言DML包括Insertupdatedelete (3)數據定義語言DDL包括createalterdroptruncate (4) ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...