這是國外數據科學學習平臺DataCamp成員寫的一篇圖文《8步成為數據科學家》。我們具體來看下有哪些學習內容和學習資源。 ...
文章發佈於公號【數智物語】 (ID:decision_engine),關註公號不錯過每一篇乾貨。
轉自 | 猴子聊人物(公眾號ID:houziliaorenwu)
作者 | 猴子
這是國外數據科學學習平臺DataCamp成員寫的一篇圖文《8步成為數據科學家》。我們具體來看下有哪些學習內容和學習資源。
這裡說的8步,不是你用8周就可以完成,而是一種學習的方法。這些步驟雖然沒有那麼簡單,但是都是可操作,可實踐的。只要你投入時間去學習,相信時間的積累力量,就可以掌握這些知識。
首先,什麼是大數據科學家?
數據科學家是一個跨學科人才,是比軟體工程師更擅長統計學,比統計學家更擅長軟體工程的人。需要掌握的知識有數學統計,編程能力,機器學習,研究能力等。
目前,數據科學家大部分是本科或者碩士學歷(本科37%,碩士31%)。但是不要擔心,從調查數據來看,有5%高中畢業的人也成為了數據科學家。這足以證明,只要你努力去提供自己,英雄是不問出處的。
01第1步:學好統計、數學和機器學習
下麵給出了學習這些知識的資源。如果感覺這些資源學起來太難,可以從《赤裸裸的統計學》、《深入淺出統計學》這兩本書入門。
02第2步:學會編程
掌握電腦科學的基礎知識,學會系統開發的整個過程(end-to-end development),因為你做的東西會成為其他系統的一部分。
選擇一種數據分析的編程語言,例如開源軟體的R , Python語言等,或者商業軟體的SAS, SPSS等。
在學習過程中可以用DataCamp, tryR, Codecademy或Google Class進行互動式學習。
03第3步:理解資料庫
在大部分的實際數據分析項目中,數據大部分是存儲在資料庫中的,所以你得學會資料庫的操作,如關係資料庫MySQL,非關係型資料庫MongoDB等。
04第4步:學會數據預處理、可視化和報表製作
1. 數據預處理:在數據分析師的工作中,有多達60%的時間都花在了實際分析前數據的準備上。數據預處理的目標是為了把數據改變成我們喜歡的樣子,以便於後期的分析處理。這就好比,現在很多女孩照相喜歡用美圖秀秀,眼睛不大,那我就用美圖秀秀把眼睛變大。變成自己喜歡的樣子。
數據預處理可自學Coursera中《Getting and Cleaning Data》的 課程(作者:John Hopkins)。也可以用工具DataWrangler、R語言的data.table和dply包。
2. 數據可視化:數據可視化是將數據分析的結果顯示出來,便於展示。實用工具有ggvis, D3, vega。
3. 數據報表:作為數據分析的最後一步,是將數據分析和結果製作成易於理解的報告。實用工具有Tableau, Spotfire和R Markdown。
05第5步:提升到大數據級別
當你開始處理海量規模的數據時,絕大多數的數據科學家要解決的問題,都無法在單機上完成,需要用分散式處理大數據集,使用的工具有Hadoop,Apache Spark。
06第6步:多實踐,與數據科學家大牛多交流
幸好是互聯網時代,我們可以通過網路認識大牛,並從他們分享的知識內容中學到更多經驗知識。當然,你也可以通過參加比賽,做小項目獲得更多的實踐經驗。
07第7步:實習、實戰、或找份工作
判別自己是不是一個真正的數據科學家的最佳途徑,就是用你新學的知識迎難而上,進入數據分析的工作領域。
08第8步:通過專業社區學到更多
數據分析的網站有:DataTau, Kdnuggets, fivethirtyeight, datascience101, r-bloggers。
可以看這些數據科學大牛的博客:Hilary Mason, David Smith, Nate Silver, dj patil。
可以從quandl上獲取數據。
以上就是成為數據科學家的8步,你在哪一步呢?