3000字長文教你大數據該怎麼學!

来源:https://www.cnblogs.com/uncledata/archive/2020/05/14/12886978.html
-Advertisement-
Play Games

大概兩年前寫過同樣標題的一篇文章,對於這個問題感興趣的人不少,後臺收到不少同學的提問,所以準備細緻地解答一下這些問題,希望能解決掉大家90%的疑問。下次再看到相關的提問我會理直氣壯地把這篇文章的鏈接甩你臉上。但是可能又會有同學有疑問了,那剩下10%的疑問怎麼辦?可以關註我的公眾號【老蒙大數據】。 開 ...


大概兩年前寫過同樣標題的一篇文章,對於這個問題感興趣的人不少,後臺收到不少同學的提問,所以準備細緻地解答一下這些問題,希望能解決掉大家90%的疑問。下次再看到相關的提問我會理直氣壯地把這篇文章的鏈接甩你臉上。但是可能又會有同學有疑問了,那剩下10%的疑問怎麼辦?可以關註我的公眾號【老蒙大數據】。

開發語言

言歸正傳,對於新手來說,老是會有類似這樣的問題,“做大數據需要學Java嗎?”“不會Java可以嗎”“需要學到什麼程度”...我的回答是“需要!”,“不可以”,“精通”。當然對於一個新手來說讓你精通Java是不可能的,寫Java沒個十年半載真的不敢說精通,但是你得走在通往“精通”的這條路上,精通程度和你拿到的錢是成正比的。

其實我想表達的是,不要有僥幸心理,不要覺得大數據就是搭搭環境,用用組件,大數據是正兒八經需要寫代碼做開發的,而且對代碼能力的要求是比較高的,為什麼這麼說,因為大數據生態圈有很多優秀的開源組件,如果你的 Java 是半吊子的水平那我可以很明確地說,你能看得懂的代碼可能都不超過100行。不信的話可以找個開源項目看看。

Java 可以說是大數據開發的第一語言,至少當前還是的,雖然垃圾回收的問題經常被大家詬病,但是有龐大的生態圈在呢,一時半會都還會是 Java 的天下。“Java 要學到什麼程度?”JavaSE 必須掌握,JVM,多線程之類的都是基礎,面試必問系列;JavaEE 必須熟悉,丟個Java web項目給你,不求你把底層瞭解地多麼透徹,但是必須得會寫,因為大數據開發實際工作中少不了寫介面。

SQL。如果說有一門語言可能會撼動 Java 一哥的位置的話,那絕對是 SQL,雖然 SQL 和 Java 都算不上是一個層面上的語言,但是它太重要了,太多人的 SQL 寫得太渣了,太多人寫 SQL 的時候不考慮底層優化了,要重視呀兄弟們,不是增刪查改就完事了的。有小伙伴問過要怎麼提升寫 SQL 的能力?孰能生巧,多寫,多瞭解底層原理,多思考優化的方案。

Scala 要學到什麼程度?語法得懂,除了基本的,還有什麼隱式轉換,什麼柯里化,什麼閉包等等。學Scala 最大的目的就是寫 Spark,Spark 在大數據生態圈的存在感太強了,學習一門語言最好的方式就是實踐,多寫寫 Spark 相關的項目,或者去看看 Spark 的源碼。

shell 也是必不可少的,大數據開發其實一般都會承擔起大數據集群的運維工作,說到運維,shell的重要性應該不用我多說了吧。

語言是程式員的兵器,兵器肯定是越鋒利越好,種類越多越好,弓箭,刀,劍,盾,都有它們各自使用的場景。程式員不要有僥幸心理,不要得過且過,對於技術來說要知其然且知其所以然,如果你還達不到這個地步,那一定要走在這個方向上。

大數據技術組件

上面這張讓人犯密集恐懼症的東西是什麼?是2019年據不完全統計的大數據產品。

是的,人人都知道,大數據技術實在是太多了,變化也太快了,新技術層出不窮,作為一個新人在面對這些技術的時候,常有的一個狀態就是懵,所以新人加我微信最常見的問題就是怎麼學?這個要不要學?那個需要學到什麼程度?等等。

哪些要學?

hadoop基礎全家桶,hdfs,yarn,hbase,hive,zookeeper等,再加個 spark 全家桶,以及流式計算全家桶kafka,flink,redis。

如果真的是認認真真吃透了上面的那些技能的話,那我能保證你已經基本上能解決90%的大數據問題,那剩下的10%怎麼辦?這個問題好像有點熟悉,當然還是繼續學,但是你有了這解決90%問題的能力,剩下的10%的問題其實也不是什麼大問題了。

怎麼學?

從局部到整體。說得通俗一點就是要腳踏實地,不要老是飄在天上,因為在天上看到的是一整個生態,你當然會看到有很多很多東西,但是如果你不走近看的話你是不會知道,其實有很多東西都是類似的,經典的理論就那麼幾個,大家的系統很多都是照著這些理論去實現的,只是實現的方式會有些不一樣,所以同類型的產品可能場景會稍有不同,但是架構是非常類似的,熟悉了之後你會發現,分散式系統萬變不離其宗。

簡單地說,從一個入手,比如存儲,舉個例子可以從HBase入手,因為它算是一個比較經典的分散式存儲引擎,《Big Table》也是非常經典的一篇paper,HBase裡面存在的 LSM-Tree,Bloom Filter,壓縮,分區等等原理和概念在很多分散式存儲中也是適用的。

再比如,計算,mr很經典,但是我還是建議直接從Spark入手,它的很多設計是基於mr又超過了mr的,而且 spark 生態系統非常的全能,能幹的事情非常多,先學Spark Core,搞懂編程模型,瞭解大概原理,接著學SparkSQL,瞭解catalyst等,再接著就是SparkStreaming,以及後面的StructedStreaming,學到到這裡,如果學得足夠有深度,Flink也是可以輕鬆拿下的了,二者都大量借鑒了《DataFlow》這篇paper的理論,還是那句話,萬變不離其宗。

還有很多的其他的例子,比如調度系統 AirFlow,Azkaban 以及最近挺火的 DolphinScheduler,本質上的實現都是類似的,只是在各自都增加了不同的功能來滿足用戶的需求。

還有數據可視化等等很多的例子就部一一列舉了。

說這麼多目的只有一個,腳踏實地一步一步走,程式猿這個工種還是很依賴經驗的,孰能生巧是沒有錯的。

要學到什麼程度?

我再強調一遍大數據平臺的開發人員不是簡簡單單會個搭建和使用就可以的了,這是最基礎和淺顯的內容,所以平時有些小伙伴貼一大堆報錯信息給我,問我安裝怎麼報錯了,怎麼這個功能用不了了,這些問題基本上我都不會回答,除非我那天真的我心情非常好。因為如果你連這些在google一搜一大把的問題都沒法解決的話,你覺得你是不是應該重新思考一下自己的職業選擇。

回到正題,要學到什麼程度,取決於你現在什麼水平,如果你剛入門,你要學會理解場景,搭建,使用;熟練了之後就要理解原理,懂得調優;再接下來,需要你主動去發現應用中的問題,以及找解決方案來解決問題,這個時候就不僅限於眼前的某一種技術了,需要有一個大局觀,如何培養你的這種大局觀呢,多混社區多和優秀的同行交流,多看源碼多學習優秀的開源項目。

當然最好是能夠成為優秀開源項目的 contributor 甚至 committer,這無論是在跳槽的面試中還是在晉升的述職中都是非常亮眼的加分項。

擁抱開源

學好語言的目的是為了寫代碼,寫優秀的代碼,那麼如何能寫出優秀的代碼呢,人類最初學習的過程是從模仿開始的。

上面都提到了源碼,為什麼我要反覆提這個問題呢,大數據的技術逐漸成熟,大數據的下半場絕對不會像前幾年一樣會搭個Hadoop,會寫個Spark就能拿比較高的薪資,高薪大數據平臺方向的程式員未來的趨勢一定能夠是搗鼓各種源碼進行二次開發的。

都說一入開源深似海,那為什麼還是有那麼多人往坑裡跳呢,坑裡有好處呀。

首先開源的目的就是能給更多的人使用這個產品,同時能讓開發者參與開發,讓使用者提出需求,這對產品而言是有積極推進作用的,但是,開發者核心團隊會篩選使用者的需求,因為開源的東西考慮的是大多數人通用的需求,不可能為個人定製,所以它是不能適應所有的場景,而業務是千變萬化的,需求方是神通廣大的,他們總是能夠發掘一些刁鑽的需求,總是會“想方設法”地為難你,如果你經常被難倒的話,N+1會在不遠處向你招手。而如果你能夠改動一下源碼,讓這個東西滿足你的需求,不是很美好嗎?

參與開源項目的建設是提升程式員個人水平的一個很好的方式,通過一些頭部的開源項目,你可以看到業界優秀的程式員是怎麼合理設計架構的,是怎麼寫出高質量代碼的,是怎麼實現刁鑽需求的。人總是在模仿中不斷成長的,你的水平怎麼樣很大一部分取決於你接觸的人水平怎麼樣,這也是大廠經歷可以給簡歷加分的原因,沒有大廠經歷怎麼辦呢,送你四個字,“入開源坑”。

大部分人工作說到底都是為了錢,不晉升哪來的錢。造輪子,二次開發都是晉升很好的資本,不然阿裡在github也不會有那麼多KPI產物了。你可以看不慣,但是沒辦法,這就是競爭力,別人都沒有做出來,而你做出來了。

那麼如何入坑呢,先從簡單的開始,最好是能結合公司現在在使用東西,或者潛在需要使用的東西來下手。國外apache的項目一般都是比較高質量的,也要參照一下github上的star個數和活躍度來看,另外沒進入apache的一些項目,比如cloudera,facebook,linkin等這些公司開源的也有很多高質量的大數據項目。

國內的話,阿裡也有不少應用非常廣泛的Java項目,比如druid,fastjson,datax,canal等等,可以先從這些下手,先讀懂,然後可以看看 Github 上的 Issues,有沒有和自己遇到的問題類似的,或者有沒有問題是你可以解決的,提個PR,至此,你已經邁出了第一步,一隻腳已經踩進坑裡了。

總而言之,要多讀優秀源碼,模仿人家寫代碼的思想。源碼閱讀相關的內容可能會枯燥乏味,但是一點點堅持下來的話,各方面都會有蛻變的。

還沒有看夠?掃下麵的二維碼關註下公眾號吧!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 學習筆記 目錄 前言 運維人員的核心職責:... 1 第一章伺服器硬體與組成原理... 1 伺服器... 1 1.伺服器的分類:... 1 2.伺服器的組成:... 2 1)電源:... 2 2)cpu. 2 3)記憶體... 2 4)磁碟... 3 5)RAID卡(陣列卡).. 3 6)遠程管理卡: ...
  • 一 K3S概述 1.1 K3S介紹 K3S是一個輕量級Kubernetes發行版。易於安裝,記憶體消耗低,所有二進位文件不到40mb。 適用於: 邊緣計算-Edge 物聯網-IoT CI ARM 1.2 K3S特點 k3s是完全相容的Kubernetes發行版,有以下更改: 移除過時的功能、Alpha ...
  • Zabbix監控TCP連接狀態(命令實現)適用centos7 1.添加自定義key配置文件 cat /etc/zabbix/zabbix_agentd.d/tcp_status.conf UserParameter=tcp_status[*],ss -ant |grep -c $1 ss直接讀/pr ...
  • 一 Helm概述 1.1 Helm介紹 Helm 是 Kubernetes 的軟體包管理工具。包管理器類似 Ubuntu 中使用的apt、Centos中使用的yum 或者Python中的 pip 一樣,能快速查找、下載和安裝軟體包。通常每個包稱為一個Chart,一個Chart是一個目錄(一般情況下會 ...
  • 前面我們看了Redis用到的主要數據結構,如簡單動態字元串(SDS)、雙向鏈表、字典、壓縮列表、整數集合等。 但是Redis並沒有直接使用這些數據結構來實現鍵值對,而是基於這些數據結構創建了一個對象系統,這個系統包括字元串對象、列表對象、哈希對象、集合對象、有序集合對象,除此之外,redis的對象系 ...
  • 1146 Table 'performance_schema.session_variables' doesn't exist 一 問題出現場景 1 在Flask使用SQLAlchemy操作mysql的時候會出現 2 使用Navicat連接資料庫會出現 附:連接Navicat成功的要點 (1) 需要 ...
  • 記憶體的讀寫速度遠大於磁碟的讀寫速度,減少磁碟讀寫,可以作為重點優化方向。 資料庫內部最重要的就是存儲結構,存儲結構必然涉及到數據結構知識。比如用到了常用的哈希圖、樹。 MYSQL資料庫常用兩種引擎,InnoDB、MyISAM,可以直接對錶指定資料庫引擎。 MYSQL索引是一種數據結構,幫助更快的查詢 ...
  • MySQL面試題-基礎 1、SQL中文全稱 結構化查詢語言2、SQL語句分類 (1)數據查詢語言DQL包括select欄位名from表名where條件 (2)數據操縱語言DML包括Insertupdatedelete (3)數據定義語言DDL包括createalterdroptruncate (4) ...
一周排行
    -Advertisement-
    Play Games
  • Dapr Outbox 是1.12中的功能。 本文只介紹Dapr Outbox 執行流程,Dapr Outbox基本用法請閱讀官方文檔 。本文中appID=order-processor,topic=orders 本文前提知識:熟悉Dapr狀態管理、Dapr發佈訂閱和Outbox 模式。 Outbo ...
  • 引言 在前幾章我們深度講解了單元測試和集成測試的基礎知識,這一章我們來講解一下代碼覆蓋率,代碼覆蓋率是單元測試運行的度量值,覆蓋率通常以百分比表示,用於衡量代碼被測試覆蓋的程度,幫助開發人員評估測試用例的質量和代碼的健壯性。常見的覆蓋率包括語句覆蓋率(Line Coverage)、分支覆蓋率(Bra ...
  • 前言 本文介紹瞭如何使用S7.NET庫實現對西門子PLC DB塊數據的讀寫,記錄了使用電腦模擬,模擬PLC,自至完成測試的詳細流程,並重點介紹了在這個過程中的易錯點,供參考。 用到的軟體: 1.Windows環境下鏈路層網路訪問的行業標準工具(WinPcap_4_1_3.exe)下載鏈接:http ...
  • 從依賴倒置原則(Dependency Inversion Principle, DIP)到控制反轉(Inversion of Control, IoC)再到依賴註入(Dependency Injection, DI)的演進過程,我們可以理解為一種逐步抽象和解耦的設計思想。這種思想在C#等面向對象的編 ...
  • 關於Python中的私有屬性和私有方法 Python對於類的成員沒有嚴格的訪問控制限制,這與其他面相對對象語言有區別。關於私有屬性和私有方法,有如下要點: 1、通常我們約定,兩個下劃線開頭的屬性是私有的(private)。其他為公共的(public); 2、類內部可以訪問私有屬性(方法); 3、類外 ...
  • C++ 訪問說明符 訪問說明符是 C++ 中控制類成員(屬性和方法)可訪問性的關鍵字。它們用於封裝類數據並保護其免受意外修改或濫用。 三種訪問說明符: public:允許從類外部的任何地方訪問成員。 private:僅允許在類內部訪問成員。 protected:允許在類內部及其派生類中訪問成員。 示 ...
  • 寫這個隨筆說一下C++的static_cast和dynamic_cast用在子類與父類的指針轉換時的一些事宜。首先,【static_cast,dynamic_cast】【父類指針,子類指針】,兩兩一組,共有4種組合:用 static_cast 父類轉子類、用 static_cast 子類轉父類、使用 ...
  • /******************************************************************************************************** * * * 設計雙向鏈表的介面 * * * * Copyright (c) 2023-2 ...
  • 相信接觸過spring做開發的小伙伴們一定使用過@ComponentScan註解 @ComponentScan("com.wangm.lifecycle") public class AppConfig { } @ComponentScan指定basePackage,將包下的類按照一定規則註冊成Be ...
  • 操作系統 :CentOS 7.6_x64 opensips版本: 2.4.9 python版本:2.7.5 python作為腳本語言,使用起來很方便,查了下opensips的文檔,支持使用python腳本寫邏輯代碼。今天整理下CentOS7環境下opensips2.4.9的python模塊筆記及使用 ...