成為數據科學家! 事實上,你可以成為一名真正的數據科學家,且不需要掌握這些技能。NoSQL和MapReduce不是新概念————在這些關鍵詞被創建之前,就有很多人接觸到它們。但要成為一名數據科學家,你需要以下能力。 敏銳的商業頭腦。 真正的大數據專業知識(例如,可以在幾個小時內快速地處理一個5000 ...
成為數據科學家!
事實上,你可以成為一名真正的數據科學家,且不需要掌握這些技能。NoSQL和MapReduce不是新概念————在這些關鍵詞被創建之前,就有很多人接觸到它們。但要成為一名數據科學家,你需要以下能力。
- 敏銳的商業頭腦。
- 真正的大數據專業知識(例如,可以在幾個小時內快速地處理一個5000萬行的數據集)。
- 認知數據的能力。
- 對模型具有猜凝精神。
- 瞭解大數據"詛咒"。
- 有能力溝通並理解管理人員正在試圖解決哪些問題。
- 能正確評估付你工資所能帶來的回報(ROI)或效益提升(lift)。
- 能夠快速地識別一個簡單的、健壯的、可擴展性的解決方案。
- 能夠說服推動管理人員,即使不情願,也要為了公司、用戶和股東的利益,轉到正確的方向上。
- 真正熱愛數據分析。
- 成功案例的實際應用經驗。
- 數據架構知識。
- 數據收集和清理技能。
- 計算複雜度的基礎知識一如何開發健壯的、商效的、可擴展的、可移植的架構。
- 良好的演算法知識。
數據科學家在商業分析、統計學和電腦科學等領域也是通才,比如會掌握這些專業知識:健壯性、實驗設計、演算法複雜度、儀錶盤和數據可視化。一些數據科家也是數據策略師————他們可以開發數據收集策略,並使用數據來發現可操作的、能對商業產生影響的見解。這就要求數據科學傢具有創造性,能根據業務要求,分析、提出解決方案。
要理解數據科學,所需的基本數學知識包括:
- 代數,如果可能的話,包括基本矩陣理論。
- 微積分入門課程。要掌握的理論不多,只需要理解計算的複雜度和o標記法即可。瞭解特殊函數,包括對數、指數、暴蹈數。微分方程、積分和複數不是必要的。
- 統計與概覽的入門課程,要瞭解隨機變數、概率、均值、方差、百分位數、實驗設計、交叉驗證、擬合度和穩健統計的概念。
從技術的角度,要掌握的重要技能和知識有R、Python、Excel、SQL、圖形(可視化)、FTP基本的UNIX命令(sort、grep、head、tail、管道和重定向操作符、cat、cron定時等),以及對如何設計和訪問資料庫有基本瞭解。瞭解分散式系統如何工作和在哪裡能發現瓶頸(是在硬碟和記憶體之間的數據傳輸,還是在互聯網上),這也很重要。最後,要瞭解網路爬蟲基本知識,有助於獲取互聯網上能找到的非結構化數據。