如何學習大數據技術?大數據怎麼入門?怎麼做大數據分析?數據科學需要學習那些技術

来源:https://www.cnblogs.com/baijindashuju/archive/2019/05/18/10885196.html
-Advertisement-
Play Games

由於大數據技術涉及內容太龐雜,大數據應用領域廣泛,而且各領域和方向採用的關鍵技術差異性也會較大,難以三言兩語說清楚,本文來說說到底要怎麼學習它,以及怎麼避免大數據學習的誤區,以供參考。大數據要怎麼學:數據科學特點與大數據學習誤區。推薦一個大數據學習群 142974151每天晚上20:10都有一節【免 ...


由於大數據技術涉及內容太龐雜,大數據應用領域廣泛,而且各領域和方向採用的關鍵技術差異性也會較大,難以三言兩語說清楚,本文來說說到底要怎麼學習它,以及怎麼避免大數據學習的誤區,以供參考。
大數據要怎麼學:數據科學特點與大數據學習誤區。推薦一個大數據學習群 142974151每天晚上20:10都有一節【免費的】大數據直播課程,專註大數據分析方法,大數據編程,大數據倉庫,大數據案例,人工智慧,數據挖掘都是純乾貨分享,,歡迎進階中和進想深入大數據的小伙伴加入。


(1)大數據學習要業務驅動,不要技術驅動:數據科學的核心能力是解決問題。
大數據的核心目標是數據驅動的智能化,要解決具體的問題,不管是科學研究問題,還是商業決策問題,抑或是政府管理問題。
所以學習之前要明確問題,理解問題,所謂問題導向、目標導向,這個明確之後再研究和選擇合適的技術加以應用,這樣才有針對性,言必hadoop,spark的大數據分析是不嚴謹的。
不同的業務領域需要不同方向理論、技術和工具的支持。如文本、網頁要自然語言建模,隨時間變化數據流需要序列建模,圖像音頻和視頻多是時空混合建模;大數據處理如採集需要爬蟲、倒入導出和預處理等支持,存儲需要分散式雲存儲、雲計算資源管理等支持,計算需要分類、預測、描述等模型支持,應用需要可視化、知識庫、決策評價等支持。所以是業務決定技術,而不是根據技術來考慮業務,這是大數據學習要避免的第一個誤區。


(2)大數據學習要善用開源,不要重覆造輪子:數據科學的技術基因在於開源。IT前沿領域的開源化已成不可逆轉的趨勢,Android開源讓智能手機平民化,讓我們跨入了移動互聯網時代,智能硬體開源將帶領跨入物聯網時代,以Hadoop和Spark為代表的大數據開源生態加速了去IOE(IBM、ORACLE、EMC)進程,倒逼傳統IT巨頭擁抱開源,谷歌和OpenAI聯盟的深度學習開源(以Tensorflow,Torch,Caffe等為代表)正在加速人工智慧技術的發展。
數據科學的標配語言R和Python更是因開源而生,因開源而繁榮,諾基亞因沒把握開源大勢而衰落。為什麼要開源,這得益於IT發展的工業化和構件化,各大領域的基礎技術棧和工具庫已經很成熟,下一階段就是怎麼快速組合、快速搭積木、快速產出的問題,不管是linux,anroid還是tensorflow,其基礎構件庫基本就是利用已有開源庫,結合新的技術方法實現,組合構建而成,很少在重覆造輪子。


另外,開源這種眾包開發模式,是一種集體智慧編程的體現,一個公司無法積聚全球工程師的開發智力,而一個GitHub上的明星開源項目可以,所以要善用開源和集體智慧編程,而不要重覆造輪子,這是大數據學習要避免的第二個誤區。


(3)大數據學習要以點帶面,不貪大求全:數據科學要把握好碎片化與系統性。根據前文的大數據技術體系分析,我們可以看到大數據技術的深度和廣度都是傳統信息技術難以比擬的。
我們的精力很有限,短時間內很難掌握多個領域的大數據理論和技術,數據科學要把握好碎片化和系統性的關係。
何為碎片化,這個碎片化包括業務層面和技術層面,大數據不只是谷歌,亞馬遜,BAT等互聯網企業,每一個行業、企業裡面都有它去關註數據的痕跡:一條生產線上的實時感測器數據,車輛身上的感測數據,高鐵設備的運行狀態數據,交通部門的監控數據,醫療機構的病例數據,政府部門的海量數據等等,大數據的業務場景和分析目標是碎片化的,而且相互之間分析目標的差異很大;另外,技術層面來講,大數據技術就是萬金油,一切服務於數據分析和決策的技術都屬於這個範疇,其技術體系也是碎片化的。
那怎麼把握系統性呢,不同領域的大數據應用有其共性關鍵技術,其系統技術架構也有相通的地方,如系統的高度可擴展性,能進行橫向數據大規模擴張,縱向業務大規模擴展,高容錯性和多源異構環境的支持,對原有系統的相容和集成等等,每個大數據系統都應該考慮上述問題。如何把握大數據的碎片化學習和系統性設計,離不開前面提出的兩點誤區,建議從應用切入、以點帶面,先從一個實際的應用領域需求出發,搞定一個一個技術點,有一定功底之後,再舉一反三橫向擴展逐步理解其系統性技術。


(4)大數據學習要勇於實踐,不要紙上談兵:數據科學還是數據工程?
大數據只有和特定領域的應用結合起來才能產生價值,數據科學還是數據工程是大數據學習要明確的關鍵問題,搞學術發paper數據科學OK,但要大數據應用落地,如果把數據科學成果轉化為數據工程進行落地應用,難度很大,這也是很多企業質疑數據科學價值的原因。且不說這種轉化需要一個過程,從業人員自身也是需要審視思考的。


工業界包括政府管理機構如何引入研究智力,數據分析如何轉化和價值變現?數據科學研究人員和企業大數據系統開發工程人員都得想想這些關鍵問題。
目前數據工程要解決的關鍵問題主線是數據(Data)>知識(Knowledge)>服務(Service),數據採集和管理,挖掘分析獲取知識,知識規律進行決策支持和應用轉化為持續服務。解決好這三個問題,才算大數據應用落地,那麼從學習角度講,DWS就是大數據學習要解決問題的總目標,特別要註重數據科學的實踐應用能力,而且實踐要重於理論。從模型,特征,誤差,實驗,測試到應用,每一步都要考慮是否能解決現實問題,模型是否具備可解釋性,要勇於嘗試和迭代,模型和軟體包本身不是萬能的,大數據應用要註重魯棒性和實效性,溫室模型是沒有用的,訓練集和測試集就OK了嗎?


大數據如何走出實驗室和工程化落地,一是不能閉門造車,模型收斂了就想當然萬事大吉了;二是要走出實驗室充分與業界實際決策問題對接;三是關聯關係和因果關係都不能少,不能描述因果關係的模型無助於解決現實問題;四是註重模型的迭代和產品化,持續升級和優化,解決新數據增量學習和模型動態調整的問題。
所以,大數據學習一定要清楚我是在做數據科學還是數據工程,各需要哪些方面的技術能力,現在處於哪一個階段等,不然為了技術而技術,是難以學好和用好大數據的。

 





您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1、打開當前目錄 explorer . 2、打開上級目錄 explorer .. 3、打開任意目錄 explorer dirname ...
  • 在以往的資料庫設計中,我們通過會用到一些資料庫的設計工具,有針對Mysql的Mysql workbench, PowerDesign等等工具,可以通過這些工具創建資料庫的ER模型圖,但是這些都是客戶端應用程式需要下載完成,比較麻煩。 今天搜索到一個線上製圖網站,提供了對資料庫ER模型進行線上設計而且 ...
  • 出現這個錯誤的原因是時區有問題,可以在mysql中執行命令: set global time_zone='+8:00'; 如上是修改為北京時間(GMT+0800)。 查看修改: show variables like '%time_zone%'; ...
  • 轉自 https://www.cnblogs.com/ShaYeBlog/p/7729714.html1.Oracle11G 32BIT介質官方鏈接適用於Windows 32bit的Oracle Database 11G 第2版U4(11.2.0.4)Oracle11.2.0.4 Windows32 ...
  • 若一個資料庫同時涉及兩個以上的表,則稱之為連接查詢。連接查詢包括內連接查詢、自連接查詢、外連接查詢。 1.等值與非等值連接查詢 連接查詢的一般格式為:select 表名1.列名,表名2.列名 from 表名1,表名2 where 表名1.列名 <比較運算符> 表名2.列名,其中比較運算符包括=、>、 ...
  • 原文地址: "Flink本地安裝和創建Flink應用" ...
  • SQL 行轉列,列轉行 行列轉換在做報表分析時還是經常會遇到的,今天就說一下如何實現行列轉換吧。 行列轉換就是如下圖所示兩種展示形式的互相轉換 行轉列 假如我們有下表: 通過上面 SQL 語句即可得到下麵的結果 PIVOT 後跟一個聚合函數來拿到結果,FOR 後面跟的科目是我們要轉換的列,這樣的話科 ...
  • 文章大綱 一、資料庫簡介二、Mysql資料庫簡介三、Mysql安裝與服務啟動(Windows版本)四、Mysql圖形化工具五、Mysql存儲引擎精講六、Mysql數據類型介紹七、Mysql主要專業名稱介紹八、Mysql常見sql語句九、Mysql設計與語句優化十、事務介紹十一、Mysql資料庫備份與 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...