學習大數據的正確方法

来源:https://www.cnblogs.com/baijindashuju/archive/2019/05/17/10881112.html
-Advertisement-
Play Games

大數據已然成為當前IT業界的紅人,然而在很多人想涉足這個領域時,卻對大數據的學習具有畏難情緒,望而卻步,知難而退。大數據的學習真的有那麼難嗎?據我學習大數據的經驗來說,大數據是挺難的,難在其系統龐大,很難系統地、全面地學習,但是也有方法啃下這塊硬骨頭。 第一步當然是搞清楚怎麼學習,這個問題的答案往往 ...


大數據已然成為當前IT業界的紅人,然而在很多人想涉足這個領域時,卻對大數據的學習具有畏難情緒,望而卻步,知難而退。
大數據的學習真的有那麼難嗎?據我學習大數據的經驗來說,大數據是挺難的,難在其系統龐大,很難系統地、全面地學習,但是也有方法啃下這塊硬骨頭。

第一步當然是搞清楚怎麼學習,這個問題的答案往往是一長串的課程和書籍閱讀,從線性代數到統計數據,這幾年我也是這樣學習過來的。我沒有編程背景,但我知道我喜歡處理數據。

 

推薦一個大數據學習群 142974151每天晚上20:10都有一節【免費的】大數據直播課程,專註大數據分析方法,大數據編程,大數據倉庫,大數據案例,人工智慧,數據挖掘都是純乾貨分享,


有些人可以通過書來很好的學習,但是我認為最好的學習方法是通過實踐,知道自己真的需要學習什麼,最重要的是,當你通過這種方式學習,你可以獲得立刻就可以用到的技能。這也是我和很多初學者分享的觀點。

 

這就是為什麼我不認為你的第一個目標應該是學習線性代數或是統計。如果你想學習大數據,你的第一個目標應該是學會愛數據。

 

 一、學會愛數據

沒有人談論在學習動機。 數據科學是一個廣泛而模糊的領域,這使得它很難學習。 沒有動力,你最終會中途停止對自己失去信心。

你需要些東西來激勵你不斷學習,即使是在半夜公式已經開始變的模糊,你還是想探究關於神經網路的意義。你需要些動力來讓你發現統計、線性代數和神經網路之間的聯繫,當你在困惑“下一步我該學習什麼?”的時候。

 

我學習的入口是用數據來預測股市,儘管當時我完全不熟悉。我編碼的第一批項目用於預測股票幾乎沒有統計,但是我知道它們表現的並不好,所以我日以繼夜的工作讓它們變的更好。

 

對於小白學習大數據需要註意的點有很多,但無論如何,既然你選擇了進入大數據行業,那麼便只顧風雨兼程。正所謂不忘初心、方得始終,學習大數據你最需要的還是一顆持之以恆的心。
 

並不是每個人都會痴迷於股市預測,但重要的是要發現你想學習的東西。

 

關於全世界移動設備使用情況的地圖

數據可以計算出關於你的城市很多新鮮有趣的事情,比如所有設備在互聯網上的映射、找到真正的NBA球員的位置,今年又哪些地方有難民,或者是其他事情。數據科學的偉大之處是有無限有趣的東西可以發現——那就是問問題然後找到一個方法來得到答案。

 

二、在實踐中學習

學習神經網路、圖像識別和其他尖端技術是很重要的,但大多數數據科學工作不涉及這些:

90%的工作將是數據清理。

精通幾個演算法比知道一點許多演算法要好。

如果你知道線性回歸、k - means聚類和邏輯回歸,可以解釋和詮釋他們的研究結果,並可以用這些完成一個項目,你將比如果你知道每一個演演算法,但不使用它們更優秀。

大多數時候,當你使用一種演算法,它將是庫中的一個版本(你很少會自己編碼支持向量機實現——這需要太長時間)。

所有這些意味著最好的學習方法是在項目工作中學習,通過項目,你可以獲得有用的技能。

一種方法是在一個項目中先找到一個你喜歡的數據集,回答一個有趣的問題。

 

另一種方法是找到一個深層次的問題,例如預測股票市場,然後分解成小步驟。 我第一次連接到雅虎財經的API,並爬下每日價格數據。然後我創建了一些指標,比如在過去的幾天里的平均價格,並用它們來預測未來(這裡沒有真正的演算法,只是技術分析)。這個效果不太好,所以我學會了一些統計知識,然後用線性回歸。 然後連接到另一個API,清理每一分鐘的數據,並存儲在一個SQL資料庫。 等等,直到演算法效果很好。

 

這樣做的好處是我在一個學習環境中學習。我不僅僅學習了SQL語法,用它來儲存價格數據,還比僅僅學習語法多學習了十倍的東西。學習而不應用的知識很難被保留,當你做實際的工作的時候也不會準備好。

 

三、學會溝通

數據科學家需要不斷展示他們的分析結果。這個過程可以區別數據科學家的水平。

交流的一部分是對主題的理解和理論, 另一個是理解如何組織你的結果。最後一部分是能夠清楚地解釋您的分析。

我很難找到關於有效溝通的概念,但有些事情你該嘗試一下:

開始寫博客。 展示你的數據分析的結果。

試著教那些對數據科學技術知識並沒有什麼概念的人,比如你的朋友和家人這可以可以幫助您理解概念。

試著在聚會上演講。

使用github管理你所有的分析。

在一些社區中活躍,比如Quora , DataTau , machine learningsubreddit。

 

四、向同行學習

你根本想不到你會從同行身上學到多少東西,在數據工作中,團隊合作非常重要。

在聚會中找一些同伴。

開源軟體包。

給哪些寫有趣的數據分析博客發消息看有沒有合作的可能。

嘗試參加Kaggle 比賽看看可不可以找到隊友。

五、不斷增加學習的難度

你完全熟悉這個項目的工作了? 你最後一次使用一個新概念是在一周前? 那麼是時候做些更加困難的挑戰了。如果你停止攀登,那麼不進則退。

如果你發現自己太舒適,這裡有一些建議:

處理更大的數據集。 學習使用spark。

看看你能不能讓你的演算法更快。

你將如何將演算法擴展到多個處理器? 你能做到嗎?

理解更多的理論演算法並使用。這會改變你的假設嗎?

試圖教一個新手去做你現在正在做同樣的事情。

上面這些這至少是一個思路告訴你在開始學習數據科學的時候到底要做什麼。如果你完成了這些,你將發現你的能力自然而然就提升了。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • SQL語言共分為四大類:數據查詢語言DQL,數據操縱語言DML,數據定義語言DDL,數據控制語言DCL。1. 數據查詢語言DQL數據查詢語言DQL基本結構是由SELECT子句,FROM子句,WHERE子句組成的查詢塊:SELECT <欄位名錶>FROM <表或視圖名>WHERE <查詢條件>2 .數 ...
  • 一、作用 slave會通過被覆制同步master上面的數據,形成數據副本 當master節點宕機時,slave可以升級為master節點承擔寫操作。 允許有一主多從,slave可以承擔讀操作,提高讀性能,master承擔寫操作。即達到讀寫分離 slave會通過被覆制同步master上面的數據,形成數 ...
  • RDB與AOF簡介 RDB 是什麼? RDB 是什麼? 是什麼? ...
  • sqlldr 用法詳見:https://www.cnblogs.com/rootq/archive/2009/03/01/1401061.html 測試內容: 1、創建資料庫表: create table test_sqlldr (test_id number,test_phone number,t ...
  • 做項目是遇到這樣一個問題,把查詢出的數據插入到一個新表裡面,第一次可以直接插入,但是第二次第三次的時候如果直接更新,但是會有些新的數據需要添加,但是如果先刪除再插入的話效率不高,如果對比兩端的數據,相同的更新,沒有的插入,這楊效率也不高,就是有些數據是更新,有些數據是新增,在網上找了找,mysql有 ...
  • 本篇文章主要介紹了PowerDesigner通過SQL語句生成PDM文件並將name和comment進行互相轉換 超詳細過程(圖文),具有一定的參考價值,感興趣的小伙伴們可以參考一下 1.軟體準備 軟體:Navicat 11.1,Powerdesigner 15 2.安裝步驟 第一步:將要生成的數據 ...
  • 從這個表sys.dm_db_index_usage_stats可以獲取到所有表或某一張表的用戶或系統異動時間: SELECT OBJECT_NAME(object_id) AS table_name, last_user_seek, last_user_scan, last_user_lookup, ...
  • 這是對自己學習燕十八老師mysql教程的總結,非常感謝燕十八老師。 依賴軟體:mysql 系統環境:win 註:本次所有命令都是在命令行上執行 基礎命令 : 啟動mysql:net start mysql(mysql為服務名) 關閉mysql服務:net stop mysql(mysql為服務名) ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...