大數據已然成為當前IT業界的紅人,然而在很多人想涉足這個領域時,卻對大數據的學習具有畏難情緒,望而卻步,知難而退。大數據的學習真的有那麼難嗎?據我學習大數據的經驗來說,大數據是挺難的,難在其系統龐大,很難系統地、全面地學習,但是也有方法啃下這塊硬骨頭。 第一步當然是搞清楚怎麼學習,這個問題的答案往往 ...
大數據已然成為當前IT業界的紅人,然而在很多人想涉足這個領域時,卻對大數據的學習具有畏難情緒,望而卻步,知難而退。
大數據的學習真的有那麼難嗎?據我學習大數據的經驗來說,大數據是挺難的,難在其系統龐大,很難系統地、全面地學習,但是也有方法啃下這塊硬骨頭。
第一步當然是搞清楚怎麼學習,這個問題的答案往往是一長串的課程和書籍閱讀,從線性代數到統計數據,這幾年我也是這樣學習過來的。我沒有編程背景,但我知道我喜歡處理數據。
推薦一個大數據學習群 142974151每天晚上20:10都有一節【免費的】大數據直播課程,專註大數據分析方法,大數據編程,大數據倉庫,大數據案例,人工智慧,數據挖掘都是純乾貨分享,
有些人可以通過書來很好的學習,但是我認為最好的學習方法是通過實踐,知道自己真的需要學習什麼,最重要的是,當你通過這種方式學習,你可以獲得立刻就可以用到的技能。這也是我和很多初學者分享的觀點。
這就是為什麼我不認為你的第一個目標應該是學習線性代數或是統計。如果你想學習大數據,你的第一個目標應該是學會愛數據。
一、學會愛數據
沒有人談論在學習動機。 數據科學是一個廣泛而模糊的領域,這使得它很難學習。 沒有動力,你最終會中途停止對自己失去信心。
你需要些東西來激勵你不斷學習,即使是在半夜公式已經開始變的模糊,你還是想探究關於神經網路的意義。你需要些動力來讓你發現統計、線性代數和神經網路之間的聯繫,當你在困惑“下一步我該學習什麼?”的時候。
我學習的入口是用數據來預測股市,儘管當時我完全不熟悉。我編碼的第一批項目用於預測股票幾乎沒有統計,但是我知道它們表現的並不好,所以我日以繼夜的工作讓它們變的更好。
對於小白學習大數據需要註意的點有很多,但無論如何,既然你選擇了進入大數據行業,那麼便只顧風雨兼程。正所謂不忘初心、方得始終,學習大數據你最需要的還是一顆持之以恆的心。
並不是每個人都會痴迷於股市預測,但重要的是要發現你想學習的東西。
關於全世界移動設備使用情況的地圖
數據可以計算出關於你的城市很多新鮮有趣的事情,比如所有設備在互聯網上的映射、找到真正的NBA球員的位置,今年又哪些地方有難民,或者是其他事情。數據科學的偉大之處是有無限有趣的東西可以發現——那就是問問題然後找到一個方法來得到答案。
二、在實踐中學習
學習神經網路、圖像識別和其他尖端技術是很重要的,但大多數數據科學工作不涉及這些:
90%的工作將是數據清理。
精通幾個演算法比知道一點許多演算法要好。
如果你知道線性回歸、k - means聚類和邏輯回歸,可以解釋和詮釋他們的研究結果,並可以用這些完成一個項目,你將比如果你知道每一個演演算法,但不使用它們更優秀。
大多數時候,當你使用一種演算法,它將是庫中的一個版本(你很少會自己編碼支持向量機實現——這需要太長時間)。
所有這些意味著最好的學習方法是在項目工作中學習,通過項目,你可以獲得有用的技能。
一種方法是在一個項目中先找到一個你喜歡的數據集,回答一個有趣的問題。
另一種方法是找到一個深層次的問題,例如預測股票市場,然後分解成小步驟。 我第一次連接到雅虎財經的API,並爬下每日價格數據。然後我創建了一些指標,比如在過去的幾天里的平均價格,並用它們來預測未來(這裡沒有真正的演算法,只是技術分析)。這個效果不太好,所以我學會了一些統計知識,然後用線性回歸。 然後連接到另一個API,清理每一分鐘的數據,並存儲在一個SQL資料庫。 等等,直到演算法效果很好。
這樣做的好處是我在一個學習環境中學習。我不僅僅學習了SQL語法,用它來儲存價格數據,還比僅僅學習語法多學習了十倍的東西。學習而不應用的知識很難被保留,當你做實際的工作的時候也不會準備好。
三、學會溝通
數據科學家需要不斷展示他們的分析結果。這個過程可以區別數據科學家的水平。
交流的一部分是對主題的理解和理論, 另一個是理解如何組織你的結果。最後一部分是能夠清楚地解釋您的分析。
我很難找到關於有效溝通的概念,但有些事情你該嘗試一下:
開始寫博客。 展示你的數據分析的結果。
試著教那些對數據科學技術知識並沒有什麼概念的人,比如你的朋友和家人這可以可以幫助您理解概念。
試著在聚會上演講。
使用github管理你所有的分析。
在一些社區中活躍,比如Quora , DataTau , machine learningsubreddit。
四、向同行學習
你根本想不到你會從同行身上學到多少東西,在數據工作中,團隊合作非常重要。
在聚會中找一些同伴。
開源軟體包。
給哪些寫有趣的數據分析博客發消息看有沒有合作的可能。
嘗試參加Kaggle 比賽看看可不可以找到隊友。
五、不斷增加學習的難度
你完全熟悉這個項目的工作了? 你最後一次使用一個新概念是在一周前? 那麼是時候做些更加困難的挑戰了。如果你停止攀登,那麼不進則退。
如果你發現自己太舒適,這裡有一些建議:
處理更大的數據集。 學習使用spark。
看看你能不能讓你的演算法更快。
你將如何將演算法擴展到多個處理器? 你能做到嗎?
理解更多的理論演算法並使用。這會改變你的假設嗎?
試圖教一個新手去做你現在正在做同樣的事情。
上面這些這至少是一個思路告訴你在開始學習數據科學的時候到底要做什麼。如果你完成了這些,你將發現你的能力自然而然就提升了。