【知識學習】如何零基礎入門數據分析

来源:https://www.cnblogs.com/AD321/archive/2018/11/28/10031419.html
-Advertisement-
Play Games

隨著數據分析相關領域變得火爆,最近越來越多的被問到:數據分析如何從頭學起?其中很多提問者都是商科背景,之前沒有相關經驗和基礎。 我在讀Buisness Analytics碩士之前是商科背景,由於個人興趣愛好,從大三開始到現在即將碩士畢業,始終沒有停下自學的腳步。Coursera和EDX等平臺上大概上 ...


隨著數據分析相關領域變得火爆,最近越來越多的被問到:數據分析如何從頭學起?其中很多提問者都是商科背景,之前沒有相關經驗和基礎。

我在讀Buisness Analytics碩士之前是商科背景,由於個人興趣愛好,從大三開始到現在即將碩士畢業,始終沒有停下自學的腳步。Coursera和EDX等平臺上大概上過20多門網課,Datacamp上100多門課里,刷過70多門。這篇文章是想談一談個人的數據分析學習經驗,希望對想要入門這個領域的各位有幫助。

1. 基本工具

學習數據分析的第一步,是瞭解相關工具

Excel

excel至是最基礎的數據分析工具,至今還是非常有效的,原因是它便於使用,受眾範圍極廣,且分析結果清晰可見。

相信大多數人都有使用excel的基本經驗,不需要根據教材去學習了。重點掌握:基本操作的快捷鍵;函數:計算函數、if類、字元串函數、查找類(vlookup和match),一定要熟悉函數功能的絕對和相對引用; 數據透視表功能等。另外,excel可以導入一些模塊來使用,典型的包括數據分析模塊,作假設檢驗常用;規劃求解,作線性規劃和決策等問題非常有效。利用這些模塊可以獲得很不錯的分析報告,簡單且高效。

SQL

數據分析的絕對核心!大部分數據分析工作都是對數據框進行的,在這個過程中,需要不斷的根據已有變數生成新變數、過濾掉一些樣本還有轉換level。SQL的設計就是為瞭解決這些問題。其他常用的數據操作工具,包括R語言的數據框、Python里的pandas,基本都是借鑒了SQL的思想,一通百通。

SQL入門容易,它的語法極其簡單,基本可以說上過一門相關的課或看過一本相關的書就可以瞭解大概,但融會貫通並能夠進行各種邏輯複雜的操作,就需要長時間的錘煉了。

SQL的學習建議,隨便找一本書或者網課就好,因為主流的課程基本都是一個思路:先講SELECT、WHERE、GROUP BY(配合簡單的聚合函數)、ORDER BY這類單表操作,之後講JOIN進行多表連接。除此之外,必會的基本技能還應該包括WINDOW FUNCTION和CASE WHEN等等。學了基本的內容之後,就是找項目多練,不斷提升。

R/Python

熟練SQL之後,對數據操作方面的內容就得心應手了。接下來更複雜的問題,如搜索和建模,則需要使用編程語言。

R vs Python

目前最主流的數據分析編程語言就是R和Python,網上遍是關於這兩者的爭論,有興趣的可以簡單看一下,但不用陷入過度的糾結。我個人的經驗來看,熟練兩者其中的任何一個都可以勝任數據分析中的大部分工作,不存在某一個語言有明顯缺陷的情況。

這裡不想大篇幅的比較兩者,但是想簡單的說一下兩者的側重點:

R語言是為瞭解決統計問題而設計的,因此它有一個很人性化的地方:最大程度的簡化語言,從而讓分析人員忽略編程內容,直面數據分析。也因為是統計語言,很多基本的統計分析內容在R里都是內置函數,調用十分便捷。此外,R的報告能力很強,大部分模型庫在訓練模型後都會提供很多細節,也比較容易通過rmd轉換成優美的doc/pdf/html。

Python先是一門general的編程語言,之後才是數據分析工具。初學python,語法肯定是不如R容易理解的。但使用到後來,當越來越多的需要自己定義時,Python的優勢就顯現出來了。另外,Python在數據量大時速度會比較快。

至於先學哪一個,需要結合自己的規劃來看:如果最終兩個都要學,那我毫不猶豫的建議從R開始;如果兩個選一個學的話,我目前傾向於Python,不過如果你確定自己以後只做業務方面的內容,那R可能更好一些。另外,如果有專註的領域的話,那麼要結合自己的領域來定,比如搞投資分析的可以看一看R語言的PortfolioAnalytics庫,大概就明白,說R語言把編程簡化專註結果所言非虛。

R語言學習

當然無論入門哪種語言,學習路徑都很重要。R語言的學習建議從基礎數據結構開始,瞭解R中的vector、dataframe和list等結構,對語法有基本的理解。之後建議學習dplyr和ggplot2這兩個庫,兩者分別是數據操縱和可視化庫,學過之後可以做一些基本的數據項目了。學習平臺首推datacamp,是付費的但絕對物有所值,沒有比邊學邊練更好的學習方式了。此外推薦一本R語言實戰(R in Action),可以當作學習手冊。

Python學習

包括我在內的很多同學都把Coursera上的Python for everyone當作啟蒙教材,這是一門很好的課程,但對於專註數據分析的Python使用者而言,課程沒有提供最完美的學習路徑。學習Python也應該從數據結構開始,list、dictionary、tuple這些數據結構要瞭解。之後建議學習numpy、pandas和matplotlib,分別是矩陣庫、數據框庫和可視化庫,基本就算是入門了。學習Python,Datacamp依然是個很不錯的平臺,但是資源不如R豐富。首推一本叫《利用python進行數據分析》(Python for data analysis)的教材,直接傳授數據分析最需要的編程技能,熟悉書中的知識基本就可以說學會Python數據分析的基本操作了。

 

2. 描述性分析和統計基礎

瞭解基本工具之後,還要擁有相關的知識才能正式開始數據分析。分析的基礎是統計知識,相信大部分人都學過概率和統計相關的課程,自己基礎是否夠扎實,可以考一考自己:均值/標準差/相關性等指標,各種探索性分析場景用哪種可視化方法比較好,抽樣分佈/置信區間/假設檢驗,貝葉斯理論等。在這些相關內容沒有徹底熟練之前,建議不要認為自己基礎已經足夠扎實了,這些內容都是值得反覆學習的。另外,可以結合數據分析工具來學習,比如用R或Python進行雙均值假設檢驗(當然這裡是手寫而不是調用函數),對理解編程和理解統計都有幫助。

這裡推薦《深入淺出統計學》和《深入淺出數據分析》兩本書,可以作為入門,也可以作為複習,當然如果統計背景比較深,沒必要看了,太基礎了。也推薦Coursera杜克大學的Statistics with R,前三門課質量都比較高,需要有R的基本知識,可以邊學統計邊練R。

描述性分析真的很重要,這裡需要再強調一下。如果真的想做數據分析,尤其是業務導向的數據分析,建議一定要重視這部分。平時做項目也是一樣的,拿到數據後先徹底的理解數據,不要急著往模型里放。

 

3. 機器學習

終於到了機器學習,我猜對於很多數據分析學習者,機器學習是本質目的。機器學習是有不同種學法的:對於業務數據分析者,瞭解各類模型的使用場景、優劣勢,基本就足夠了;對於偏數據科學和挖掘的人員來說,要深入理解每一種模型,至少得寫出推導步驟;更深入的演算法導向人員,還要有從頭實現演算法的能力。這篇文章的目標讀者主要是第一類和第二類。

學習機器學習模型可以從理解模型和實現兩個方向入手,目前主流的實現工具還是R和Python。Datacamp上有很多用R和Python進行機器學習的課程,看了之後基本可以瞭解機器學習模型在做什麼,平時的應用場景大概怎樣。流行的模型一定要理解,像邏輯回、支持向量機(核函數)、k鄰近、朴素貝葉斯、集成學習模型(隨機森林和各類boosting)都是很常用的模型;bias-variance tradeoff、標準化、正則化、交叉檢驗、重採樣,這些概念也要瞭解。

如果想進一步深入的去理解模型細節,那麼微積分和線性代數是必要的先修課,否則無法繼續進行了。當然如果決定進一步學習細節,需要看更多的教材,上一些相關課程。

網上的相關課有很多,目前最火爆的肯定是Coursera Andrew Ng的機器學習。這門課也是我的入門課,確切的說我第一次學這門課的時候,甚至還不會調包,也不太會編程,就跟著一步一步做,很艱難的完成了作業。做到神經網路那部分,當時實在寫不出來,去網上找答案看。到現在,這門課我應該看過有五遍了,基本上每隔幾個月重新看一下都有新的收穫。

Coursera還有另一系列的機器學習課來自華盛頓大學,質量也很高,課程用Python(缺陷是使用的庫不是pandas和sklearn,而是授課者自己開發的庫),很大一部分內容是手寫模型,很有助於打好基礎。此外,因為這是一系列課,所以覆蓋範圍要比Andrew Ng的課廣一些,回歸問題、分類問題、非監督問題,都單獨成為一門課程。

很多機器學習的教材寫的也不錯,比如An Introduction to Statistical Learning(ISL)和Machine Learning with R,兩者都是講模型的數學推導,並用R語言實現。

機器學習確實是很深奧的東西,如果時間允許建議經典的課程和教材都看一看,有的課甚至可以多看幾遍。

4. 更進一步

如果以上內容都比較扎實的完成,可以說能夠進行大部分項目了,也對數據分析有著很成體系的理解。之後可以結合自己的需求,深入學習更多的內容,或者結合實際項目練習。嘗試著找一些完整的項目去做,比如說kaggle就是很不錯的平臺,會提供數據集進行使用。kaggle的入門賽也做的很好,簡單易懂,讓新人不會太迷茫。

如果有額外興趣的話,還是有很多更深奧的東西值得學習的,比如深度學習範圍的內容或者大數據的相關技術等。

5. 結尾的話

很多人在入門數據分析時候都會問:我從零開始,多久能學會機器學習?其實取決於你怎麼理解會,如果從頭學python,到能使用sklearn調出機器學習模型,大概一個月就完成了。但深入的去理解以上內容,確實不是一年半載能完成的。

我見過很多人追求速成,也確實速成了。遇到項目基本就是把數據導進來,不做特征處理,然後調出各種模型(其中不乏像神經網路和boosting這種比較高級的模型),每個用預設參數試一次,看看效果。然而數據分析沒那麼簡單,也沒那麼fancy。做一個項目,80%的時間都在準備,涉及到許多數據清理和操作,其中的一些東西是任何教材和課程都無法傳授的。

還是更建議一步一個腳印的去學習,邊學邊做、邊學邊想,記好學習筆記,並定期總結學習心得。打好基礎不可急於求成,才是學習的最好途徑。

 

如果覺得這篇文章對你有幫助,請把文章推薦給你身邊的朋友!我還是要推薦下我自己創建的大數據資料分享群142973723,這是大數據學習交流的地方,不管你是小白還是大牛,小編都歡迎,不定期分享乾貨,包括我整理的一份適合零基礎學習大數據資料和入門教程。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 性能指標是什麼? 學習性能優化的第一步,一定是瞭解“性能指標”這個概念。 性能領域的大師布倫丹·格雷格,他所描繪的 Linux 性能工具圖譜: 學習思維導圖,記錄學習位置: ...
  • chown將指定文件的擁有者改為指定的用戶或組,用戶可以是用戶名或者用戶ID;組可以是組名或者組ID;文件是以空格分開的要改變許可權的文件列表,支持通配符。系統管理員經常使用chown命令,在將文件拷貝到另一個用戶的名錄下之後,讓用戶擁有使用該文件的許可權。 一.命令格式: chown [選項]... ...
  • 使用nginx有一段時間了,還是有很多東西不懂的,在這裡做一下自己學習過程中的一些整理,能使自己得到提升。 1、環境:centos7 1511 最小化安裝 2、下載nginx,可以在系統中下載,也可以提前下載好,直接上傳到伺服器,都是可以的。 3、安裝nginx的依賴環境 這裡要重點說明一下,因為我 ...
  • 安裝python3 一、安裝需要編譯的關聯庫 二、下載python3的安裝包 三、解壓、編譯、安裝 四、創建Python3的軟鏈接 五、創建pip3的軟鏈接 創建python3的虛擬環境 一、下載virtualenv 二、創建virtualenv的軟鏈接 三、創建虛擬環境 四、進入虛擬環境 此時的p ...
  • 安裝時我是借鑒 https://blog.csdn.net/xiaohua0877/article/details/78507631 期間遇到幾個問題 鍵盤不好使,解決辦法是重新運行wmware workstation 的安裝程式,選擇更改選項,安裝增強程式。同時修改 虛擬機 -》設置-》選項-》增 ...
  • 新建用戶 創建帶主機名用戶 在MySql中使用CREATE USER語句新建用戶 用戶的格式如下: ‘ 用戶名 ’ @ ‘ 主機名 ’ @後面的’localhost’即為本地的埠。 創建普通用戶 使用舉例: 創建2個新用戶student1和student2,密碼分別是123和456,並且查看新用戶 ...
  • 系統已上線,給客戶修改bug的時候,使用delete語句刪表數據,沒想到庫沒切換成測試庫。誤刪了正式庫的數據,而且一次備份都沒有做過,玩大了 不扯了,進入主題 網上很多方法,都是針對至少有一次備份的情況下進行數據恢復的,沒有備份就基本上只能找數據恢復公司了。本章將通過日誌來恢復誤刪的數據,若是日誌文 ...
  • 本文由horstxu發表 在mysql中執行 指令,可以看到一張表的建表語句,example如下: js CREATE TABLE ( bigint(20) unsigned NOT NULL AUTO_INCREMENT, text COLLATE utf8_unicode_ci NOT NULL ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...