進階指南:如何從數據分析師轉型為數據科學家?

来源:https://www.cnblogs.com/shsxt/archive/2019/02/28/10450733.html
-Advertisement-
Play Games

大數據文摘出品 來源:Medium 編譯:李雷、橡樹_Hiangsug 文章解釋了轉型為數據科學家的原因,整理了數據科學家應該掌握的技能,著重介紹了從數據分析師轉型為數據科學家的具體方法。 如何從數據分析師華麗轉型,成為一名數據科學家?好比“把大象裝進冰箱”,成為“數據科學家”僅需簡單三步: 1. ...


大數據文摘出品

來源:Medium

編譯:李雷、橡樹_Hiangsug

 

文章解釋了轉型為數據科學家的原因,整理了數據科學家應該掌握的技能,著重介紹了從數據分析師轉型為數據科學家的具體方法。

 

如何從數據分析師華麗轉型,成為一名數據科學家?好比“把大象裝進冰箱”,成為“數據科學家”僅需簡單三步:

1. 進入LinkedIn登錄你的賬號。

2. 點擊“編輯個人資料”。

3. 將 “數據分析師”這個詞替換為“數據科學家”。

 

搞定,就是這麼簡單!

 

理想很豐滿,現實很骨感。在現實生活中,我們必須承認:培養數據洞察能力絕非易事。

 

入門數據科學早已有許多優秀的博文可供參考,比如以下兩篇:《成為Jet.com數據分析師的自學之路》和《入門數據科學需掌握的基礎知識》,但是為數據分析師提供轉型為數據科學家的方法的文章卻少之又少。

 

《成為Jet.com數據分析師的自學之路》:

https://medium.freecodecamp.org/a-path-for-you-to-learn-analytics-and-data-skills-bd48ccde7325

《入門數據科學需掌握的基礎知識》:

https://medium.freecodecamp.org/aspiring-data-scientist-master-these-fundamentals-be7c54350868

 《尚學堂大數據課程》:

大數據學習視頻:https://www.shsxt.com/dashujushipin/

可以免費獲取優秀的大數據學習視頻,還有尚學堂培訓課程免費學習機會

 

在我開始介紹這條轉型之路前,我還是想先花些功夫詳細描述一下這兩種職業身份的具體職責。

 

 

數據分析師的主要工作是對數據進行收集和處理,並通過統計演算法分析已處理的結構化數據,從而為數據賦能,改良決策。

 

數據科學家也會進行類似的工作,但對其提出了更高的要求。除上述職責外,一個優秀的數據科學家需要同時具備處理大量非結構化數據的能力,甚至擁有對數據進行實時處理的能力。

 

他們不僅可以洞悉數據背後的價值,還會對數據進行更深度的清洗和處理,並且用各種各樣的高級演算法對數據進行更深層的分析。除此之外,他們還具有很強的敘事能力和數據可視化能力。

 

我經常會接觸到許多才華橫溢的分析師,他們急切地想要在數據科學界大展拳腳,卻總是找不合適的機會,甚至不知從何入手——而這正是我寫下這篇文章的主要原因。

 

為什麼要成為數據科學家?

 

影響力:成為一名數據科學家意味著你將有機會發現和創造巨大的商業價值,發表更高層的決策意見,甚至幫助企業尋找未來的發展方向。

 

成就感:數據科學是一個飛速發展的領域,其中有許多有趣的問題亟待解決。作為一名數據科學家,你可以建立圖像識別系統,開發文本分類器,識別社交媒體上的惡意評價,投身解決一系列尚未攻剋的難題。

 

前沿性:曾有人預言,人工智慧將最終取代人類工作。與其等著自己的工作被人工智慧取代,不如主動出擊,追上這一時代的浪潮。

 

薪酬待遇:也許數據科學家的薪酬還不足以讓你享受開游艇喝香檳的奢靡生活,但相較於其他工作已經相當可觀。業界對數據科學家的需求量依舊較大,優秀的數據科學家仍屬高薪稀缺人才。直白來講,為了更好的明天,努力成為一名優秀的數據科學家吧!

 數據分析

 

 

數據科學——學得多,做得多,但賺得也多!

 

友情提示:量力而行,切忌盲從,不要被金錢和誘惑矇蔽了雙眼,畢竟貪得無厭沒有好結果(“華爾街之狼”的下場很慘)。

 

我是否擁有成為數據科學家的資質?

 

儘管培養處理棘手的數據結構和(或)大型數據的能力需要數年的經驗積累,但別灰心,實際上大多數分析師在一定程度上已經打下了成為數據科學家的基礎。換句話說,只要肯下功夫,轉型為數據科學家沒有想象中那麼困難。

 

那麼,成為一名合格的數據科學家到底需要掌握哪些技能?

 

一個複雜的數據科學項目可能由眾多子項目構成,且項目流程又複雜多變,所以我們恐怕沒有辦法找到這個問題的標準答案。單就近幾年數據科學的發展來看,成為一名數據科學家至少需要瞭解以下幾個方面的技能分支:

 

  • 數據科學語言:Python / R。

  • 關係型資料庫 :MySQL,Postgress。

  • 非關係型資料庫:MongoDB。

  • 機器學習模型:回歸演算法(Regression)、提升決策樹(Boosted Trees)、支持向量機(SVM)、神經網路(NNs)等。

  • 圖像處理:Neo4J,GraphX

  • 分散式計算:Hadoop,Spark

  • 雲計算 :GCP / AWS / Azure

  • API 交互:OAuth,Rest

  • 數據可視化和Web應用:D3,RShiny

  • 專業領域:自然語言處理(NLP),光學字元識別(OCR)和電腦視覺(CV)

 

 

Boosted Trees模型在近幾年的數據科學競賽中大放異彩。

 

 

RShiny數據儀錶盤是一個優秀的交互工具,可供用戶更加直觀地對數據進行探索。

 

掌握這些技能需要很長時間(可能比完成學位課程的時間還要長),即使是為我們熟知的“牛人”們仍在不斷地學習。但是,我們大可不必擔心自己能力有限,學習知識需要一步步的積累,掌握技能需要一步步的打磨。每天進步一點,總有一天我們將擁有足夠豐富的知識儲備和高水平的技能迎接未來的挑戰。

 

智力水平的高低無法決定我們是否可以獲得成功,堅定的決心和頑強的意志才是通往成功的關鍵所在。

 

 

我具體應該怎麼做?

 

在開始行動前,我們需要掌握一些基本的技能:

 

樹立正確的信念。或許在十年前,找到一門合適的數據軟體課程可能需要花費數周之久,但時代已變,線上學習材料觸手可及,資源匱乏再也不是逃避學習的藉口。我們必須保持持續學習的能力,不斷為自己充電,磨練自己的技術。

 

學習一門編程語言並提升你的數學能力。大多數人都是從學習Python和(或)R開始數據科學之路的,而且Coursera和Udemy等網站上提供了大量相關的免費課程資源。Python用戶喜歡通過Anaconda和Jupyter編程,而R用戶則較多地使用R Studio。就數學計算能力而言,吳恩達(Andrew Ng)的機器學習課程和斯坦福大學的神經網路課都很適合於轉型人士學習。

 

動手解決問題。你可以嘗試在工作中找到所遇到的實際問題,與業務專家和數據工程師展開合作,親自動手解決這些問題——這是最好的端到端開發模式。

 

參加Kaggle比賽。還有什麼比與數千人同台競賽更能提升建模技巧呢?Kaggle上的比賽要求十分清晰,提供的數據都已經過清洗,非常值得一試。剛開始不要太在意比賽的排名,以嘗試的心態開始你的第一場比賽——每一次嘗試都是新的開始。

 

緊隨領軍人物的動態。有些人喜歡把為這一領域做出傑出貢獻的人比作“數據科學界的搖滾巨星”,他們的言行和工作非常值得你花時間去瞭解和學習——時常刷新Geoffrey Hinton,Andrew Ng,Yann LeCun,Rachel Thomas和Jeremy Howard等人的動態,你肯定會有所收穫。

 

高效地工作。在一定工作積累後,嘗試藉助工具提升你的工作效率——使用GitHub等版本控制工具維護和儲存你的代碼,用Docker對你的代碼進行封裝與發佈。

 

有效地溝通。學會“推銷”自己的工作。高管們總是喜歡“華麗”的項目展示,所以當你在做重要的工作報告時要努力“博眼球”,突出工作的亮點。

 

Twitter也是另一種獲取信息的媒介,Rachel Thomas等人的動態十分值得關註。

 

 

為自己鋪路

 

即使你掌握了世界上所有的技能,如果你的公司無法提供合適的開發工具,配置相應的開發環境,你也很難施展拳腳。

 

現實生活中總會有一些不可控的因素阻礙我們前進的腳步,與其浪費時間糾結於此,我們更加應該關註那些我們可以改變的因素並積極做出行動。

 

 

加入新的團隊,這是最簡單可行的轉型方法。大多數中到大型的公司都至少會有一個小型數據科學團隊——別猶豫,加入他們!

 

與專業人士合作,如果你無法“跳槽”,那麼就請想方設法找到在你認識範圍內知識最淵博的數據科學家並與之合作。

 

舉例來說,你可以在現有的工作中找到可自動化完成的業務流程,然後帶著這一問題找到這方面的專家。但這時千萬不要直接把任務“甩”給這些專家,嘗試與他們合作,加入到問題的解決過程中來。

 

搭建數據科學的內部環境,並不是所有的公司都確定它們是否需要數據科學的幫助,或者他們並不知道如何引入數據科學作為分析工具。

 

傳統的分析系統已經讓他們忙得不可開交,且開發新數據分析系統所帶來的安全和審計任務都相當耗時,因此他們只接受效益明顯的商業應用方案——這就是你大顯身手的機會,用你的知識儲備為公司搭建數據科學發展環境,引入合適的數據科學工具,培養內部人員的數據思維,為數據科學團隊儲備力量。

 

開發一個明確的業務用例,你可以重新審視業務流程,思考如何將數據科學應用到這些業務中,想辦法將數據科學與業務完美融合,藉助業務應用的成功案例為數據科學的後續發展鋪路。

 

與有更多技能的人合作,加入多元化的團隊不僅可以幫助你更容易獲得更大的成就,你還可以在合作過程中學習到其他成員掌握的知識和擁有的技能。

 

尾記

 

種一棵樹最好的時間是十年前,其次是現在。珍惜這次機會,馬上開始你的學習之路,從實際問題入手,步步攻剋一系列難關。開弓沒有回頭箭,你必須不斷努力,將全部的信心和熱情投入到工作中,你會驚訝地發現原來自己也可以獲得如此高的成就!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 在實際的資料庫Sqlserver的運維的過程中,很多時候我們需要做到數據的備份操作,可以做到定時備份,也可以進行手動資料庫備份。在實際的過程中,有時候因業務需要備份出完整資料庫,而有時候又因為實際業務只需要影響到一張表或者幾張表,備份整個資料庫未必是最優的方案,此時可採用生成腳本或者Select I ...
  • 一、介面回調+自定義分區 1.介面回調:在使用消費者的send方法時添加Callback回調 註意:在自定義分區後,你的消費者會收不到消息,因為消費者預設接收的分區為0。 二、攔截器 1)創建生產者類; 2)創建自定義攔截器類實現ProducerInterceptor介面,重寫抽象方法; 3)在業務 ...
  • 在一次考試中,筆者因考試的電腦上沒有安裝操作Mysql資料庫的可視化工具而不知如何操作資料庫,所以在這裡可以提醒各位掌握 命令行來操作資料庫也是非常重要的。 筆者以慘痛的教訓來警惕大家。 進入正題: 使用命令行來操作資料庫分為以下幾個步驟: 前提: windows +R 運行 cmd.exe 步驟一 ...
  • 一、Kafka概述 1.Kafka是一個分散式流媒體平臺,它有三個關鍵功能: (1)發佈和訂閱記錄流,類似於消息隊列或企業消息傳遞系統; (2)以容錯的持久方式存儲記錄流; (3)記錄發送時處理流。 2.Kafka通常應用的兩大類應用 (1)構建在系統或應用程式之間的可靠獲取數據的實時流數據管道; ...
  • 筆記記錄自林曉斌(丁奇)老師的《MySQL實戰45講》 5) --深入淺出索引(下) 這次的筆記從一個簡單的查詢開始: 建表語句是這樣的 如果要執行 select * from T where k between 3 and 5這條語句,需要執行幾次搜索操作呢,會掃描多少行呢?由上面的建表及初始化語 ...
  • 禁用 1* select LAST_DATE,NEXT_DATE from dba_jobs where job=45SQL> begin 2 dbms_job.broken(45,true); 3 end; 4 / PL/SQL procedure successfully completed. ...
  • eclipse中寫入sql插入語句時,navicat中顯示的出現亂碼(???)。 在修改eclipse工作空間編碼、navicate中的資料庫編碼、mysql中my.ini中的配置之後還是出現亂碼。 然後把mysql、navicate全部卸載,下載新版本。 再重新配置mysql中,因為新建data里 ...
  • [20190227]簡單探究tab$的bojb#欄位.txt--//上午做了刪除tab$表,其對應索引i_tab1的恢復,我一直以為這個索引會很大,沒有想到在我的測試環境僅僅139個鍵值.--//查看/u01/app/oracle/product/11.2.0.4/dbhome_1/rdbms/ad ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...