大數據,只看這個就夠了

来源:http://www.cnblogs.com/lilacseeking/archive/2017/05/20/6880832.html
-Advertisement-
Play Games

2016年5月25日上午,由貴州省政府舉辦的以"大數據開啟智能時代"為主題的中國大數據產業峰會在貴陽開幕,國務院總理李克強發表主旨演講。騰訊集團馬化騰,高通公司總裁Derek Aberle,百度公司李彥巨集,微軟全球陸奇,京東集團劉強東,阿裡巴巴王堅,滴滴出行程維,HTC王雪紅,戴爾Michael D ...


    2016年5月25日上午,由貴州省政府舉辦的以"大數據開啟智能時代"為主題的中國大數據產業峰會在貴陽開幕,國務院總理李克強發表主旨演講。騰訊集團馬化騰,高通公司總裁Derek Aberle,百度公司李彥巨集,微軟全球陸奇,京東集團劉強東,阿裡巴巴王堅,滴滴出行程維,HTC王雪紅,戴爾Michael Dell等重要嘉賓出席會議併發言。至此,大數據發展已經上升到國家戰略層次,其熱度可見一斑。如圖一為李克強總理髮表講話:

 

圖一

 

  自2016年起,大數據與人工智慧,虛擬現實相繼重新進入了我們的視線,不論是貴陽的大數據產業峰會,還是BAT巨頭對大數據作出的投資,可謂是屢放大招,頻頻吸引我們的眼球。那麼大數據究竟是什麼神奇的東西呢?讓我們揭開大數據面紗感受它的改變世界的神奇吧!

那麼究竟什麼是大數據呢?

  大數據是具有海量、高增長率和多樣化的信息資產,它需要全新的處理模式來增強決策力、洞察發現力和流程優化能力。其特點是數據量大,形式多樣,讀寫速度快,如圖二,三為大數據渲染圖:

                                                                                                        

圖二                                                                                      圖三

 

  在大數據里大概可以分為兩個體系,數據分析師和Hadoop工程師,在數據分析體系下業務數據分析師和數據挖掘工程師,在Hadoop里可分為開發工程師,架構工程師,運維工程師。另外大數據可以提供的工作有大數據分析工程師、大數據咨詢顧問、大數據統計工程師、大數據運營經理、大數據挖掘與處理專員、大數據存儲工程師。詳見圖四:

 

圖四

 

  現如今,大數據業界內部有非常多就業機會,尤其是北京,上海,深圳,杭州急需大數據相關專業型人才。現收集大數據在北京的相關職位相關薪資如表一所示:

 

職位 Hadoop開發工程師 數據挖掘工程師 數據分析工程師 數據運維師
工作地 北京 北京 北京 北京
平均薪資 1.9萬 2.1萬 1.1萬 1.0萬
3-5年工作經驗 1.5-3萬 1.5-3萬 0.5-3萬 1.3-5萬
 

表一:北京數據工程師薪資表

 

  從今年4月份北京市公佈的數據來看,北京2016平均工資8717元,智聯招聘統計了2016年下半年互聯網/電子商務、網路游戲、電腦軟體、電腦硬體、IT服務、電子技術/半導體/集成電路等6個細分行業的企業招聘職位信息。

在2016年6月前,大數據的平均薪水為6K,之後,行業薪資水平顯著提高,平均水平在15K,最低工資漲幅不大,在北京平均工資水平為8717元,行業內平均工資水平已達到甚至超越北京市人均工資水平。如圖五所示:

 

圖五

 

  1年內對498份Hadoop開發工程師進行樣本數據分析,月平均工資為19050元,月收入在1W~3W的員工占絕大比重,達到81.3%,其中在月收入在1W~1.5W之間占比19.5%,1.5W~2W之間占比29.7%,2W~3W占比32.1%。另外,工作經驗是決定薪資水平的一大因素,我們可以看出,擁有的工作經驗越豐富,往往可以得到比較高的薪酬。 如圖六,圖七,圖八所示:

 

 

                                                                                                                 

圖六 工資收入                                                                                 圖七 按工作經驗分

  

圖八 歷年平均薪資

 

  數據挖掘工程師在北京的薪資待遇如圖九,圖十,圖十一所示:

 

                                                                                                                   

圖九 工資收入                                                                                圖十 按工作經驗分

 

圖十一 歷年平均薪資

 

  數據分析工程師在北京的薪資待遇如圖十二,圖十三,圖十四所示:

 

                                                                                                              

圖十二 工資收入                                                                          圖十三 按工作經驗分

 

圖十四 歷年平均薪資

 

  數據運維師在北京的薪資待遇如圖十五,圖十六,圖十七所示:

 

                                                                                                               

圖十五 工資收入                                                                           圖十六 按工作經驗分

 

圖十七 歷年平均薪資

 

  大數據工資竟然這麼高,看得我蠢蠢欲動呢,那麼大數據里都包含哪些理論呢?大數據的知識體系暫時分為5個部分:

  第一部分:java語言基礎與Linux系統基礎,包括java語言的面向對象編程,網路編程,Linux系統的基本命令操作和系統下shell腳本的使用。Linux系統對於編程而言,擁有開源,免費,穩定,安全,高效的優點。Java Web 大數據同系連枝,這造成了java語言成為和大數據平臺交互的主流語言。

  第二部分:數據平臺(Hadoop),數據存儲,資源調度與監控集群資源。在Hadoop平臺下,分散式文件系統HDFS來存儲海量數據,分散式資源管理框架YARN管理集群資源和MapReduce、Spark應用的資源實現資源的調度監控。

  第三部分:數據處理,Spark框架。kafka(分散式高吞吐的輕量級消息系統,Storm(實時的、分散式以及具備高容錯的計算系統)實時數據處理,Redis(高性能key-value)資料庫,Spark(數據平臺)的應用,記憶體計算框架Spark以及Impala查詢。

  第四部分:數據挖掘、數據分析與機器學習。應用Python語言來實現常出庫,網路爬蟲,Solr集群,機器學習,Mahout技術學習

  第五部分:大數據運維,雲計算平臺管理。運維基礎zookeeper框架,Docker引擎以及OpenStack雲計算平臺。

  這麼多公司都在大量招收大數據專業人才,那麼都有哪些成功的案例值得參考呢? 

  電子商務:淘寶網平臺用戶/商戶行為分析。利用大數據技術,建立人群分佈,尤其是以性別,年齡,工作,地域為主的成交量數據分佈模型;建立類品分佈,尤其是以食品,服飾,書籍,藥品,數位,母嬰,家居為主的成交量數據分佈模型;通過海量數據進行分析計算資源整合,從而,及時有效調整公司戰略方針,有效調整商業結構,做到對在不同城市,年齡段,工作的客戶有針對性的區別對待,來進一步擴大平臺的利潤。如圖十八,圖十九所示:

 

                                                                                               

圖十八                                                                                 圖十九

  

  零售業:沃爾瑪連鎖百貨數據分析。在美國,沃爾瑪通過數據關聯規則發現一種類似草莓的水果在颱風發生前後銷售量相差7倍,通過數據挖掘確定了該水果在颱風的影響下的銷量關係,從而在之後的颱風發生前期將所有該水果全部簽出,有效的降低商場存貨,提高商場的經濟效益。如圖二十所示:

 

圖二十 消費變化數據示意圖

 

  航空:Farecast靠大數據預測機票價格。2003年,Oren Etzioni將要乘坐從西雅圖到洛杉磯的飛機,他認為機票越早買越便宜,在飛機上,他好奇地問鄰座的乘客花了多少錢購買機票。事實卻是那個人的機票比他買得更晚,但是票價卻比他便宜得多,於是,他又詢問了另外幾個乘客,結果發現大家買的票居然都比他的便宜,他非常氣憤,他想要開發一款可以預測機票價格走勢的軟體,最終由此成立公司運營該軟體。基於深度學習及數據挖掘技術,預測航班未來可能出現的低價,提前給出報價銷售給消費者。2008年微軟公司找上了他並以1.1億美元的價格收購了Farecast公司。而後,這個系統被併入必應搜索引擎。被稱為"一張機票成就了Farecast"。

  警務:利用大數據分析犯罪高發地點。洛杉磯警察局曾經藉助一套原本用於預測地震後餘震的大數據模型,把過去80年內的130萬個犯罪記錄數據輸入進去,結果發現其預測出的犯罪高發地點與現實驚人的吻合。後來該預測演算法經過改進,已經成為了當地警局重要的參考依據,大大降低了當地的犯罪率。如圖二十一所示:

 

圖二十一

  

  不禁有人就有疑問了,既然大數據這麼火爆,就像當年的O2O一樣,所有人都想到裡面分一杯羹,可是市場就這麼大,到底有多少是炒作,大數據又能火多久呢?

  最近凱捷咨詢和Informatica共同進行了一項和大數據相關的商業調查,調查人群包括在美國和歐洲的大型企業和其高管。分析結果發現:少於三分之一的大數據項目被認為是盈利的;剩下的45% 是持平12%是虧損,12%很難確定他們的大數據項目是盈利還是虧損(如圖二十二)

 

圖二十二

 

 

  其實這些數據並不是那麼讓人驚訝, 凱捷全球大數據副總史蒂夫說"許多的大數據項目是為瞭解決技術學習曲線的目標(比如如果建立大數據集群)而進行,這些項目甚至於並沒有考慮投資回報ROI"。也就是說一些大型企業目前在實施的大數據項目的目的是提高數據專家對大數據的理解,而不是提高投資回報ROI。

  雖說大數據上升到了國家戰略層次,但回想到同為國家戰略層次的互聯網+下的O2O商業模式,還是要擦亮雙眼慎重考慮。數據科學在多年前就被提上日程,早些年由於技術手段有限,面對龐大的數據,數據的價值不容易被挖掘出來,近些年技術和數據的雙重積累極大地促進了大數據領域的發展。

  由此看來,大數據雖然火爆,但也是風險與機遇並存,小伙伴們,你們懂大數據了嗎?


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 在String.xml中添加: ...
  • 一直以來,做 Java web 開發都是用 eclipse , 可是到 eclipse 官網一看,我的天 http://www.eclipse.org/downloads/eclipse-packages/ 那麼多應該下載哪一個?這是一個問題? 其實 eclipse 為每一種開發者,都提供了不同的版 ...
  • 1.MongoDB簡介 MongoDB介紹 MongoDB是面向文檔的非關係型資料庫,不是現在使用最普遍的關係型資料庫,其放棄關係模型的原因就是為了獲得更加方便的擴展、穩定容錯等特性。面向文檔的基本思路就是:將關係模型中的“行”的概念換成“文檔(document)”模型。面向文檔的模型可以將文檔和數 ...
  • 一般namenode只格式化一次,重新格式化不僅會導致之前的數據都不可用,而且datanode也會無法啟動。在datanode日誌中會有類似如下的報錯信息: java.io.IOException: Incompatible clusterIDs in /tmp/hadoop-root/dfs/da ...
  • 0x00 背景 這兩天處於轉牛角尖的狀態,非常不好。但是上一篇的中提到的問題總算是總結了些東西。 傳送門:疑問點0x02(4) 0x01 測試過程 (1)測試環境情況:創建瞭如下測試表test, mysql> select * from test;+ + + +| user_id | user | ...
  • 【1. 問題描述】 【2. 查找原因】 【3. 解決問題】 本文網址[tom-and-jerry發佈於2017-05-20 18:46] http://www.cnblogs.com/tom-and-jerry/p/6882857.html ...
  • 如何用VBA操作MySQL資料庫?如何直接使用Excel操作MySQL資料庫? ...
  • 本文介紹一個簡單的SQL腳本,實現收縮整個Microsoft SQL Server實例所有非系統DB文件大小的功能。 作為一個與SQL天天打交道的程式猿,經常會遇到DB文件太大,把空間占滿的情況: 而對於開發測試人員來說,如果DB數據不是特別重要的話,不會特意擴大磁碟空間,而是直接利用SQL的Shr ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...