數據分析/數據挖掘 入門級選手建議

来源:http://www.cnblogs.com/charlotte77/archive/2016/03/31/5340336.html
-Advertisement-
Play Games

<!--?xml version="1.0" encoding="UTF-8" standalone="no"?--> 1.數據分析和數據挖掘聯繫和區別 聯繫:都是搞數據的 區別:數據分析偏統計,可視化,出報表和報告,需要較強的表達能力。數據挖掘偏演算法,重模型,需要很深的代碼功底,要碼代碼,很多= ...


1.數據分析和數據挖掘聯繫和區別 聯繫:都是搞數據的 區別:數據分析偏統計,可視化,出報表和報告,需要較強的表達能力。數據挖掘偏演算法,重模型,需要很深的代碼功底,要碼代碼,很多= =。   2.怎麼入門 請百度“如何成為一名數據分析師”或者“如何成為一名數據挖掘工程師”。英文好上Quora,不行上知乎,看看入門資料。   3.選哪些書 看入門資料給你提供的書,有電子版下電子版,沒電子版買紙質書,花不了多少錢。   4.用什麼語言 數據分析:excel是必須,R是基本,python是進階。SAS和Matlab給土豪去玩吧。 數據挖掘:python是必須,java/c/c++是基礎,hadoop/mapreduce/spark先掌握一點,因為並不是所有公司都有這麼大的數據量。   5.需要學數學嗎 都需要 數據分析:統計學,概率論, 數據挖掘:高數/數學分析,數值分析,線性代數,凸優化,運籌學(這些是基本)數字信號處理,模式識別,矩陣論(進階)   6.要不要讀研究生 一般來說,只有應屆生去找工作會比較看重學歷,因為你沒有其他可以展示你能力的。但是隨著工作時間久了(兩年+),你的能力遠超於你所在的學校,學歷就不重要了。如果要讀,建議讀計算數學/概率論/模式識別/電腦 方面的研究生,爭取發論文(高質量),否則應聘的時候並沒有什麼影響,當然,有些公司可能會在初篩的時候根據學歷篩選人,正常,真想進就多工作幾年再社招進去唄,學歷不好也不能怪別人對不對。 工作幾年後,如果覺得到瓶頸了,可以再去讀書,沒什麼,這個時候可能你更清楚自己需要的是什麼。               7.選擇去哪個公司 大公司核心職位優先>>中型公司核心職位>大公司邊緣職位>優秀的創業小公司核心職位>中型公司邊緣職位>坑人的創業小公司邊緣職位 原因: 1.大公司數據量多,人才多。能接觸到核心項目核心職位是最佳選擇。(BAT,網易有道,微軟等) 2.中型公司發展快,機會多,壓力大,成長快。(美團滴滴58) 3.創業公司慎選,如果有創業公司的offer,一看他們差不差錢,而看他們項目贏不贏利,三看團隊技術氛圍濃不濃。不差錢+盈利但技術氛圍不濃,可以去,但不適合對技術追求高的人;不差錢+技術氛圍濃但暫時不盈利,可以考慮,但要搞清楚盈利模式。盈利+技術氛圍濃但現在差錢,可以考慮,爭取成為核心成員,一旦融資不得了。如果差錢又不盈利技術氛圍還差,算了吧,耗不起。 實在不知道怎麼選,就看兩點:1.數據量大小 2.技術氛圍。錢少可以以後賺,技術氛圍濃最重要。   8.怎麼面試 1.誠實 2.真誠 3.展現你的潛力   9.沒有項目經驗怎麼辦 應屆生要啥項目經驗,本科生就說說自己的畢業論文,數模/ACM/阿裡的參賽經歷或獲獎經歷,以及可能會有的實習經歷。研究生就說實驗室的項目,負責的工作,完成的成果和發表的論文。不要誇大,如實說。   10.要不要培訓 因人而異,但不建議。如果連搜索能力和自學能力都沒有,就算你入了行,也會過得很痛苦的。更何況高昂的學費和造假的簡歷了。   11.到底該選數據分析還是數據挖掘 代碼能力強直接搞演算法,弱就先做數據分析,慢慢來,不著急。想我畢業的時候只會Matlab,後來被領導逼著兩星期學了R,一個月學了python,自己在業餘學了java,hadoop和spark等,也是一步步來的,不要想一口吃成個大胖子。   12.前途怎麼樣 我從實習到現在年薪翻了5倍,你說怎樣。你要是只衝著錢去呢,去做銷售吧;要是喜歡純數呢,去做研究吧;要是喜歡從數據里發現一些有趣的事情並應用上去,那就來做數據分析/數據挖掘吧。   13.一天的工作大概是怎樣的 到公司,跑數據,看結果,調優,跑數據,看結果,看論文,改代碼,調優,跑數據,看結果。。。   14.有沒有推薦的網站 google(之前被牆了,某個晚上恢復了,馬上要回歸了,現在不能用的話買個vpn吧,mac本推薦shadowsocks軟體) stack overflow:改bug神器 github:開源大法好! Quaro:資料搜集地/經驗借鑒處 (以及各類招聘網站:我不想學習的時候就看這個,看和自己理想的工作還有多少差距,打雞血。。)   15.有沒有推薦的IDE sublime text+secureCRE/iterm夠用了(mac本,windows的話就下個notepad++和linux就可以了) 各種語言的IDE都可以下一個,調試用。沒有推薦,哪個順手用哪個。   16.用什麼電腦 有錢直接上伺服器,沒錢買個配置高的,實在沒錢買個能敲的就行。以後工作有錢了再整個好的。   17.怎麼投簡歷 校招有網申,我沒有搞過校招,不太清楚流程。如果錯過校招,最好去拉勾周伯通等垂直網站投。不太推薦58/趕集/智聯,這些招聘網站上的職位類型主流偏低端,碰到不靠譜的公司概率較大。   18.怎麼看崗位要求知道我的工作內容 一個簡單的方法:所有數據分析類的崗位要求里寫的要求會excel,PPT等的乾的都是統計員的活!所有數據分析類的崗位要求里寫的要求會GA,pu,uv分析的都是運營部門的!所有數據挖掘崗位里寫的要求只有hadoop,spark,ETL的乾的都是數據倉庫的活!其他的自己看吧,數據挖掘有好幾種職位:廣告ctr預估的,機器學習的,推薦系統,自然語言處理等等。自己選擇吧。反正入門都可以嘗試做做。   總之,入門容易深入難,數學不好可以學,但會制約你的發展,代碼不好也可以,但也會制約你的職業生涯,所以那些說“我覺得我數學不好代碼能力也不強覺得R好難英語也不好看不懂國外的網站學多了會不會掉頭髮會不會找不到男/女朋友blahblah”的,你開心就好,你的職業生涯掌握在自己手中。   最後,感謝當初把我帶入門的彭愛民老師,高芹老師和李海雄老師等等,好想回去看你們啊!!!!!!!   以上是工作半年以來想到的所有新入行的人可能會問的問題,以及我自己踩過的坑的一些總結,不全面,也沒什麼調理,大家將就看吧。除了以上問題有什麼的再問我吧,上班時間不要問哦~(雖然下班也沒什麼時間,逗玩貓看看書刷刷手機就睡覺了  =  =)。   不要覺得我厲害,我覺得我到現在都是入門級,周圍同事搞深度學習碼代碼碼的飛起快被虐慘了,我是渣渣 = =   拜拜~學弟學妹們加油~   
您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • --事務的原子性要求事務要麼全部完成,要麼全部不完成,不可能停滯在某個中間狀態。--然而,我的事務卻沒有“回滾”,為此還導致了異常數據的發生,為什麼? 這是一個發生在我工作中的真實的案例,在用戶問我的時候我當時也SB了,在我理解了這背後的原理後,我雖然接受了SQL Server在某些場景下不回滾的設 ...
  • 說明: 開發工具為: SQL Server Data Tools 開發環境為: SQL Server 2012 一. 餅圖數據外部顯示 首先我們來看3張效果圖: 內部顯示 、 外部顯示 、 3D效果-外部顯示 預設是內部顯示, 如何設置為外部顯示呢?如下圖: 設置好後數據是顯示在外部了,但並沒有出現 ...
  • ...
  • 情形: 情形: 之前我在電商遇到這麼一個情形:庫存記錄僅記錄出庫和入庫。 現:要每日庫存量的記錄。 即:要把沒有出庫入庫數據的天條充完整。 假設: 假設: 解:工廠生產骨牌,那麼我要記錄每一天的迄今為止生產了多少個骨牌(按:骨牌顏色和骨牌類型分別統計) 首先:生成具有累計個數(即:有異地生產的天數據 ...
  • PL/SQL是Oracle開發的主要工具,安裝很簡單,在官網 “https://www.allroundautomations.com/plsqldev.html” 選擇合適的版本,也有多國語言包,下載安裝即可,運行的時候輸入用戶名/密碼/資料庫,即可連接 ...
  • "應用程式開發"下的"SQL Developer"雙擊不可用,出現“Windows正在查找SQLDEVELOPER.BAT"的提示,如下圖: 搜索博客園之後,找到:http://www.cnblogs.com/OnlyCT/p/4665666.html 大概明白了原因,Oracle自帶的SQL De ...
  • 測試機上裝入數據 發現中文欄位全部變成???????,初步判斷為字元集問題 更改 UPDATE sys.props$ SET VALUE$='WE8ISO8859P1' where name like 'NLS%' and value$='ZHS16GBK'; commit; 後發現sqlldr採集 ...
  • 場景 前些天遇到一個問題,要往線上資料庫中數據量比較大的表格裡添加新的欄位,以及賦上預設值, 執行的時間比較長,如果直接在原表格的基礎上直接執行sql,害怕會將表格甚至是資料庫弄成死鎖。 和團隊兄弟聊了聊找到了一種辦法,不知道的也可以借鑒一下。 解決辦法 複製表結構到臨時表 CREATE TABLE ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...