由於大數據技術涉及內容太龐雜,大數據應用領域廣泛,而且各領域和方向採用的關鍵技術差異性也會較大,難以三言兩語說清楚,本文來說說到底要怎麼學習它,以及怎麼避免大數據學習的誤區,以供參考。大數據要怎麼學:數據科學特點與大數據學習誤區。推薦一個大數據學習群 142974151每天晚上20:10都有一節【免 ...
由於大數據技術涉及內容太龐雜,大數據應用領域廣泛,而且各領域和方向採用的關鍵技術差異性也會較大,難以三言兩語說清楚,本文來說說到底要怎麼學習它,以及怎麼避免大數據學習的誤區,以供參考。
大數據要怎麼學:數據科學特點與大數據學習誤區。推薦一個大數據學習群 142974151每天晚上20:10都有一節【免費的】大數據直播課程,專註大數據分析方法,大數據編程,大數據倉庫,大數據案例,人工智慧,數據挖掘都是純乾貨分享,,歡迎進階中和進想深入大數據的小伙伴加入。
(1)大數據學習要業務驅動,不要技術驅動:數據科學的核心能力是解決問題。
大數據的核心目標是數據驅動的智能化,要解決具體的問題,不管是科學研究問題,還是商業決策問題,抑或是政府管理問題。
所以學習之前要明確問題,理解問題,所謂問題導向、目標導向,這個明確之後再研究和選擇合適的技術加以應用,這樣才有針對性,言必hadoop,spark的大數據分析是不嚴謹的。
不同的業務領域需要不同方向理論、技術和工具的支持。如文本、網頁要自然語言建模,隨時間變化數據流需要序列建模,圖像音頻和視頻多是時空混合建模;大數據處理如採集需要爬蟲、倒入導出和預處理等支持,存儲需要分散式雲存儲、雲計算資源管理等支持,計算需要分類、預測、描述等模型支持,應用需要可視化、知識庫、決策評價等支持。所以是業務決定技術,而不是根據技術來考慮業務,這是大數據學習要避免的第一個誤區。
(2)大數據學習要善用開源,不要重覆造輪子:數據科學的技術基因在於開源。IT前沿領域的開源化已成不可逆轉的趨勢,Android開源讓智能手機平民化,讓我們跨入了移動互聯網時代,智能硬體開源將帶領跨入物聯網時代,以Hadoop和Spark為代表的大數據開源生態加速了去IOE(IBM、ORACLE、EMC)進程,倒逼傳統IT巨頭擁抱開源,谷歌和OpenAI聯盟的深度學習開源(以Tensorflow,Torch,Caffe等為代表)正在加速人工智慧技術的發展。
數據科學的標配語言R和Python更是因開源而生,因開源而繁榮,諾基亞因沒把握開源大勢而衰落。為什麼要開源,這得益於IT發展的工業化和構件化,各大領域的基礎技術棧和工具庫已經很成熟,下一階段就是怎麼快速組合、快速搭積木、快速產出的問題,不管是linux,anroid還是tensorflow,其基礎構件庫基本就是利用已有開源庫,結合新的技術方法實現,組合構建而成,很少在重覆造輪子。
另外,開源這種眾包開發模式,是一種集體智慧編程的體現,一個公司無法積聚全球工程師的開發智力,而一個GitHub上的明星開源項目可以,所以要善用開源和集體智慧編程,而不要重覆造輪子,這是大數據學習要避免的第二個誤區。
(3)大數據學習要以點帶面,不貪大求全:數據科學要把握好碎片化與系統性。根據前文的大數據技術體系分析,我們可以看到大數據技術的深度和廣度都是傳統信息技術難以比擬的。
我們的精力很有限,短時間內很難掌握多個領域的大數據理論和技術,數據科學要把握好碎片化和系統性的關係。
何為碎片化,這個碎片化包括業務層面和技術層面,大數據不只是谷歌,亞馬遜,BAT等互聯網企業,每一個行業、企業裡面都有它去關註數據的痕跡:一條生產線上的實時感測器數據,車輛身上的感測數據,高鐵設備的運行狀態數據,交通部門的監控數據,醫療機構的病例數據,政府部門的海量數據等等,大數據的業務場景和分析目標是碎片化的,而且相互之間分析目標的差異很大;另外,技術層面來講,大數據技術就是萬金油,一切服務於數據分析和決策的技術都屬於這個範疇,其技術體系也是碎片化的。
那怎麼把握系統性呢,不同領域的大數據應用有其共性關鍵技術,其系統技術架構也有相通的地方,如系統的高度可擴展性,能進行橫向數據大規模擴張,縱向業務大規模擴展,高容錯性和多源異構環境的支持,對原有系統的相容和集成等等,每個大數據系統都應該考慮上述問題。如何把握大數據的碎片化學習和系統性設計,離不開前面提出的兩點誤區,建議從應用切入、以點帶面,先從一個實際的應用領域需求出發,搞定一個一個技術點,有一定功底之後,再舉一反三橫向擴展逐步理解其系統性技術。
(4)大數據學習要勇於實踐,不要紙上談兵:數據科學還是數據工程?
大數據只有和特定領域的應用結合起來才能產生價值,數據科學還是數據工程是大數據學習要明確的關鍵問題,搞學術發paper數據科學OK,但要大數據應用落地,如果把數據科學成果轉化為數據工程進行落地應用,難度很大,這也是很多企業質疑數據科學價值的原因。且不說這種轉化需要一個過程,從業人員自身也是需要審視思考的。
工業界包括政府管理機構如何引入研究智力,數據分析如何轉化和價值變現?數據科學研究人員和企業大數據系統開發工程人員都得想想這些關鍵問題。
目前數據工程要解決的關鍵問題主線是數據(Data)>知識(Knowledge)>服務(Service),數據採集和管理,挖掘分析獲取知識,知識規律進行決策支持和應用轉化為持續服務。解決好這三個問題,才算大數據應用落地,那麼從學習角度講,DWS就是大數據學習要解決問題的總目標,特別要註重數據科學的實踐應用能力,而且實踐要重於理論。從模型,特征,誤差,實驗,測試到應用,每一步都要考慮是否能解決現實問題,模型是否具備可解釋性,要勇於嘗試和迭代,模型和軟體包本身不是萬能的,大數據應用要註重魯棒性和實效性,溫室模型是沒有用的,訓練集和測試集就OK了嗎?
大數據如何走出實驗室和工程化落地,一是不能閉門造車,模型收斂了就想當然萬事大吉了;二是要走出實驗室充分與業界實際決策問題對接;三是關聯關係和因果關係都不能少,不能描述因果關係的模型無助於解決現實問題;四是註重模型的迭代和產品化,持續升級和優化,解決新數據增量學習和模型動態調整的問題。
所以,大數據學習一定要清楚我是在做數據科學還是數據工程,各需要哪些方面的技術能力,現在處於哪一個階段等,不然為了技術而技術,是難以學好和用好大數據的。