小編將此文獻給對數據有熱情,想長期從事此行業的年輕人,希望對你們有所啟發,並快速調整思路和方向,讓自己的職業生涯有更好的發展。 根據數據應用的不同階段,本文將從數據底層到最後應用,來談談那些數據人的必備技能。 1、大數據平臺 目前很火,數據源頭,各種炫酷新技術,搭建Hadoop、Hive、Spark ...
小編將此文獻給對數據有熱情,想長期從事此行業的年輕人,希望對你們有所啟發,並快速調整思路和方向,讓自己的職業生涯有更好的發展。
根據數據應用的不同階段,本文將從數據底層到最後應用,來談談那些數據人的必備技能。
1、大數據平臺
目前很火,數據源頭,各種炫酷新技術,搭建Hadoop、Hive、Spark、Kylin、Druid、Beam~,前提是你要懂Java,很多平臺都是用Java開發的。
目前很多企業都把數據採集下來了,對於傳統的業務數據,用傳統的數據是完全夠用的,可是對於用戶行為和點擊行為這些數據或者很多非結構化的數據,文本、圖像和文本類的,由於數據量太大,很多公司都不知道怎麼進行存儲。
這裡面要解決的是實時、近實時和離線的大數據框架如何搭建,各數據流之間如何耦合和解耦,如何進行容災、平臺穩定、可用是需要重點考慮的。
我的感覺是:最近兩三年中,這塊人才還是很稀缺的,因為大數據概念炒作的這麼厲害,很多企業都被忽悠說,我們也來開始進入大數據行業吧。進入的前提之一就是需要把數據存儲下來,特別是很多用戶行為方面的數據,對於業務的提升比較明顯的,如果你能很好的刻畫用戶,那麼對你的產品設計、市場營銷、開發市場都是有幫助的。現階段,很多公司都要做第一步:存儲更多的數據。這也是這塊人員流動性比較高的原因,都被高薪挖走了。
這塊工作最被吐槽的一點就是:Hive速度好慢,SQL查詢好慢,集群怎麼又掛掉了,hadoop版本升級後,怎麼數據跑出來不對了等等。
如果想在這塊做的很好,還需要有整個系統架構的設計能力、比較的強的抗壓能力和解決問題的能力、資源收集的能力,可以打入開源社區,這樣就可以隨時follow最新的潮流和技術。
2、數據可視化
這是個很炫的工作,最好是能懂點前端,比如js。數據可視化人員需要有很好的分析思維,不能為了炫技而忽視對業務的幫助程度。因為我對這個崗位客串的不多,所以沒有特別深入的感悟,不過我覺得這個崗位需要有分析的能力,才能把可視化做好。
另外一方面來說,做數據應用的人都應該懂點數據可視化,要知道觀點表達的素材順序是:圖片>表格>文字,一個能夠用圖片來闡述的機會千萬別用文字來描述,因為這樣更易於讓別人理解。要知道,給大領導講解事情的時候,需要把大領導設想成是個“數據白痴”,這樣才能把一件事情說的比較生動。
3、數據分析師
對於數據分析師的定位:個人認為,成為優秀的數據分析師是非常難的,現在市面上也沒有多少優秀的分析師。數據分析師的技能要求,除了會數據分析、提煉結論、洞察數據背後的原因之外,還需要瞭解業務,懂演算法。
只有這樣,當面對一個業務問題時,數據分析師們才可以針對問題抽絲剝繭,層層遞進去解決問題,再根據定位的問題進行策略的應對,比如是先做上策略進行測試還是應用演算法進行優化,用演算法用在哪個場景上,能不能用演算法來解決問題。
一個優秀的數據分析師,是個精通業務和演算法的全能數據科學家,不是那個只會聽從業務的需求而進行拉數據、做報表、只做分析的閑雜人等。我們都說分析要給出結論,優秀分析師的結論就是一個能解決問題的一攬子策略和應對措施,同時很多需求是分析師去主動發現並通過數據來挖掘出來的。
從上述描述中,可以看到對數據分析師的要求是:會寫sql拉數據,精通業務、會數據洞察、精通演算法,主動性強,要求還是很高的。
4、數據挖掘/演算法
對於這個崗位的技能要求來說,沒有要求你一定要從零開始實現所有的演算法,現在有很多現成的演算法包進行調用。最基本的要求是,你要知道每個場景會用到哪個演算法,比如分類場景,常用的分類演算法就有LR/RF/Xgboost/ET等等,此外,你還要知道每個演算法的有效優化參數是什麼、模型效果不好的時候怎麼優化。還需要有演算法的實現能力,語言方面可以用Scala/python/R/Java等。我們常說:工具不重要,重要的是你玩工具,不是工具玩你。
另外針對有監督式學習演算法,演算法工程師最好有很好的業務sense,這樣在feature設計的時候才能更有針對性,設計的feature才有可能有很好的先驗性。大數據學習群142973723
以上說了這麼多,嘮叨了這麼多,其實核心就是:如何用數據創造價值,如果你沒有用數據創造價值的能力,那麼就只能等著被數據淹沒,被數據拍死在職場上,早早到達職業的天花板。