隨著數據分析相關領域變得火爆,最近越來越多的被問到:數據分析如何從頭學起?其中很多提問者都是商科背景,之前沒有相關經驗和基礎。 我在讀Buisness Analytics碩士之前是商科背景,由於個人興趣愛好,從大三開始到現在即將碩士畢業,始終沒有停下自學的腳步。Coursera和EDX等平臺上大概上 ...
隨著數據分析相關領域變得火爆,最近越來越多的被問到:數據分析如何從頭學起?其中很多提問者都是商科背景,之前沒有相關經驗和基礎。
我在讀Buisness Analytics碩士之前是商科背景,由於個人興趣愛好,從大三開始到現在即將碩士畢業,始終沒有停下自學的腳步。Coursera和EDX等平臺上大概上過20多門網課,Datacamp上100多門課里,刷過70多門。這篇文章是想談一談個人的數據分析學習經驗,希望對想要入門這個領域的各位有幫助。
1. 基本工具
學習數據分析的第一步,是瞭解相關工具
Excel
excel至是最基礎的數據分析工具,至今還是非常有效的,原因是它便於使用,受眾範圍極廣,且分析結果清晰可見。
相信大多數人都有使用excel的基本經驗,不需要根據教材去學習了。重點掌握:基本操作的快捷鍵;函數:計算函數、if類、字元串函數、查找類(vlookup和match),一定要熟悉函數功能的絕對和相對引用; 數據透視表功能等。另外,excel可以導入一些模塊來使用,典型的包括數據分析模塊,作假設檢驗常用;規劃求解,作線性規劃和決策等問題非常有效。利用這些模塊可以獲得很不錯的分析報告,簡單且高效。
SQL
數據分析的絕對核心!大部分數據分析工作都是對數據框進行的,在這個過程中,需要不斷的根據已有變數生成新變數、過濾掉一些樣本還有轉換level。SQL的設計就是為瞭解決這些問題。其他常用的數據操作工具,包括R語言的數據框、Python里的pandas,基本都是借鑒了SQL的思想,一通百通。
SQL入門容易,它的語法極其簡單,基本可以說上過一門相關的課或看過一本相關的書就可以瞭解大概,但融會貫通並能夠進行各種邏輯複雜的操作,就需要長時間的錘煉了。
SQL的學習建議,隨便找一本書或者網課就好,因為主流的課程基本都是一個思路:先講SELECT、WHERE、GROUP BY(配合簡單的聚合函數)、ORDER BY這類單表操作,之後講JOIN進行多表連接。除此之外,必會的基本技能還應該包括WINDOW FUNCTION和CASE WHEN等等。學了基本的內容之後,就是找項目多練,不斷提升。
R/Python
熟練SQL之後,對數據操作方面的內容就得心應手了。接下來更複雜的問題,如搜索和建模,則需要使用編程語言。
R vs Python
目前最主流的數據分析編程語言就是R和Python,網上遍是關於這兩者的爭論,有興趣的可以簡單看一下,但不用陷入過度的糾結。我個人的經驗來看,熟練兩者其中的任何一個都可以勝任數據分析中的大部分工作,不存在某一個語言有明顯缺陷的情況。
這裡不想大篇幅的比較兩者,但是想簡單的說一下兩者的側重點:
R語言是為瞭解決統計問題而設計的,因此它有一個很人性化的地方:最大程度的簡化語言,從而讓分析人員忽略編程內容,直面數據分析。也因為是統計語言,很多基本的統計分析內容在R里都是內置函數,調用十分便捷。此外,R的報告能力很強,大部分模型庫在訓練模型後都會提供很多細節,也比較容易通過rmd轉換成優美的doc/pdf/html。
Python先是一門general的編程語言,之後才是數據分析工具。初學python,語法肯定是不如R容易理解的。但使用到後來,當越來越多的需要自己定義時,Python的優勢就顯現出來了。另外,Python在數據量大時速度會比較快。
至於先學哪一個,需要結合自己的規劃來看:如果最終兩個都要學,那我毫不猶豫的建議從R開始;如果兩個選一個學的話,我目前傾向於Python,不過如果你確定自己以後只做業務方面的內容,那R可能更好一些。另外,如果有專註的領域的話,那麼要結合自己的領域來定,比如搞投資分析的可以看一看R語言的PortfolioAnalytics庫,大概就明白,說R語言把編程簡化專註結果所言非虛。
R語言學習
當然無論入門哪種語言,學習路徑都很重要。R語言的學習建議從基礎數據結構開始,瞭解R中的vector、dataframe和list等結構,對語法有基本的理解。之後建議學習dplyr和ggplot2這兩個庫,兩者分別是數據操縱和可視化庫,學過之後可以做一些基本的數據項目了。學習平臺首推datacamp,是付費的但絕對物有所值,沒有比邊學邊練更好的學習方式了。此外推薦一本R語言實戰(R in Action),可以當作學習手冊。
Python學習
包括我在內的很多同學都把Coursera上的Python for everyone當作啟蒙教材,這是一門很好的課程,但對於專註數據分析的Python使用者而言,課程沒有提供最完美的學習路徑。學習Python也應該從數據結構開始,list、dictionary、tuple這些數據結構要瞭解。之後建議學習numpy、pandas和matplotlib,分別是矩陣庫、數據框庫和可視化庫,基本就算是入門了。學習Python,Datacamp依然是個很不錯的平臺,但是資源不如R豐富。首推一本叫《利用python進行數據分析》(Python for data analysis)的教材,直接傳授數據分析最需要的編程技能,熟悉書中的知識基本就可以說學會Python數據分析的基本操作了。
2. 描述性分析和統計基礎
瞭解基本工具之後,還要擁有相關的知識才能正式開始數據分析。分析的基礎是統計知識,相信大部分人都學過概率和統計相關的課程,自己基礎是否夠扎實,可以考一考自己:均值/標準差/相關性等指標,各種探索性分析場景用哪種可視化方法比較好,抽樣分佈/置信區間/假設檢驗,貝葉斯理論等。在這些相關內容沒有徹底熟練之前,建議不要認為自己基礎已經足夠扎實了,這些內容都是值得反覆學習的。另外,可以結合數據分析工具來學習,比如用R或Python進行雙均值假設檢驗(當然這裡是手寫而不是調用函數),對理解編程和理解統計都有幫助。
這裡推薦《深入淺出統計學》和《深入淺出數據分析》兩本書,可以作為入門,也可以作為複習,當然如果統計背景比較深,沒必要看了,太基礎了。也推薦Coursera杜克大學的Statistics with R,前三門課質量都比較高,需要有R的基本知識,可以邊學統計邊練R。
描述性分析真的很重要,這裡需要再強調一下。如果真的想做數據分析,尤其是業務導向的數據分析,建議一定要重視這部分。平時做項目也是一樣的,拿到數據後先徹底的理解數據,不要急著往模型里放。
3. 機器學習
終於到了機器學習,我猜對於很多數據分析學習者,機器學習是本質目的。機器學習是有不同種學法的:對於業務數據分析者,瞭解各類模型的使用場景、優劣勢,基本就足夠了;對於偏數據科學和挖掘的人員來說,要深入理解每一種模型,至少得寫出推導步驟;更深入的演算法導向人員,還要有從頭實現演算法的能力。這篇文章的目標讀者主要是第一類和第二類。
學習機器學習模型可以從理解模型和實現兩個方向入手,目前主流的實現工具還是R和Python。Datacamp上有很多用R和Python進行機器學習的課程,看了之後基本可以瞭解機器學習模型在做什麼,平時的應用場景大概怎樣。流行的模型一定要理解,像邏輯回、支持向量機(核函數)、k鄰近、朴素貝葉斯、集成學習模型(隨機森林和各類boosting)都是很常用的模型;bias-variance tradeoff、標準化、正則化、交叉檢驗、重採樣,這些概念也要瞭解。
如果想進一步深入的去理解模型細節,那麼微積分和線性代數是必要的先修課,否則無法繼續進行了。當然如果決定進一步學習細節,需要看更多的教材,上一些相關課程。
網上的相關課有很多,目前最火爆的肯定是Coursera Andrew Ng的機器學習。這門課也是我的入門課,確切的說我第一次學這門課的時候,甚至還不會調包,也不太會編程,就跟著一步一步做,很艱難的完成了作業。做到神經網路那部分,當時實在寫不出來,去網上找答案看。到現在,這門課我應該看過有五遍了,基本上每隔幾個月重新看一下都有新的收穫。
Coursera還有另一系列的機器學習課來自華盛頓大學,質量也很高,課程用Python(缺陷是使用的庫不是pandas和sklearn,而是授課者自己開發的庫),很大一部分內容是手寫模型,很有助於打好基礎。此外,因為這是一系列課,所以覆蓋範圍要比Andrew Ng的課廣一些,回歸問題、分類問題、非監督問題,都單獨成為一門課程。
很多機器學習的教材寫的也不錯,比如An Introduction to Statistical Learning(ISL)和Machine Learning with R,兩者都是講模型的數學推導,並用R語言實現。
機器學習確實是很深奧的東西,如果時間允許建議經典的課程和教材都看一看,有的課甚至可以多看幾遍。
4. 更進一步
如果以上內容都比較扎實的完成,可以說能夠進行大部分項目了,也對數據分析有著很成體系的理解。之後可以結合自己的需求,深入學習更多的內容,或者結合實際項目練習。嘗試著找一些完整的項目去做,比如說kaggle就是很不錯的平臺,會提供數據集進行使用。kaggle的入門賽也做的很好,簡單易懂,讓新人不會太迷茫。
如果有額外興趣的話,還是有很多更深奧的東西值得學習的,比如深度學習範圍的內容或者大數據的相關技術等。
5. 結尾的話
很多人在入門數據分析時候都會問:我從零開始,多久能學會機器學習?其實取決於你怎麼理解會,如果從頭學python,到能使用sklearn調出機器學習模型,大概一個月就完成了。但深入的去理解以上內容,確實不是一年半載能完成的。
我見過很多人追求速成,也確實速成了。遇到項目基本就是把數據導進來,不做特征處理,然後調出各種模型(其中不乏像神經網路和boosting這種比較高級的模型),每個用預設參數試一次,看看效果。然而數據分析沒那麼簡單,也沒那麼fancy。做一個項目,80%的時間都在準備,涉及到許多數據清理和操作,其中的一些東西是任何教材和課程都無法傳授的。
還是更建議一步一個腳印的去學習,邊學邊做、邊學邊想,記好學習筆記,並定期總結學習心得。打好基礎不可急於求成,才是學習的最好途徑。
如果覺得這篇文章對你有幫助,請把文章推薦給你身邊的朋友!我還是要推薦下我自己創建的大數據資料分享群142973723,這是大數據學習交流的地方,不管你是小白還是大牛,小編都歡迎,不定期分享乾貨,包括我整理的一份適合零基礎學習大數據資料和入門教程。