大數據,只看這個就夠了

来源:http://www.cnblogs.com/lilacseeking/archive/2017/05/20/6880832.html
-Advertisement-
Play Games

2016年5月25日上午,由貴州省政府舉辦的以"大數據開啟智能時代"為主題的中國大數據產業峰會在貴陽開幕,國務院總理李克強發表主旨演講。騰訊集團馬化騰,高通公司總裁Derek Aberle,百度公司李彥巨集,微軟全球陸奇,京東集團劉強東,阿裡巴巴王堅,滴滴出行程維,HTC王雪紅,戴爾Michael D ...


    2016年5月25日上午,由貴州省政府舉辦的以"大數據開啟智能時代"為主題的中國大數據產業峰會在貴陽開幕,國務院總理李克強發表主旨演講。騰訊集團馬化騰,高通公司總裁Derek Aberle,百度公司李彥巨集,微軟全球陸奇,京東集團劉強東,阿裡巴巴王堅,滴滴出行程維,HTC王雪紅,戴爾Michael Dell等重要嘉賓出席會議併發言。至此,大數據發展已經上升到國家戰略層次,其熱度可見一斑。如圖一為李克強總理髮表講話:

 

圖一

 

  自2016年起,大數據與人工智慧,虛擬現實相繼重新進入了我們的視線,不論是貴陽的大數據產業峰會,還是BAT巨頭對大數據作出的投資,可謂是屢放大招,頻頻吸引我們的眼球。那麼大數據究竟是什麼神奇的東西呢?讓我們揭開大數據面紗感受它的改變世界的神奇吧!

那麼究竟什麼是大數據呢?

  大數據是具有海量、高增長率和多樣化的信息資產,它需要全新的處理模式來增強決策力、洞察發現力和流程優化能力。其特點是數據量大,形式多樣,讀寫速度快,如圖二,三為大數據渲染圖:

                                                                                                        

圖二                                                                                      圖三

 

  在大數據里大概可以分為兩個體系,數據分析師和Hadoop工程師,在數據分析體系下業務數據分析師和數據挖掘工程師,在Hadoop里可分為開發工程師,架構工程師,運維工程師。另外大數據可以提供的工作有大數據分析工程師、大數據咨詢顧問、大數據統計工程師、大數據運營經理、大數據挖掘與處理專員、大數據存儲工程師。詳見圖四:

 

圖四

 

  現如今,大數據業界內部有非常多就業機會,尤其是北京,上海,深圳,杭州急需大數據相關專業型人才。現收集大數據在北京的相關職位相關薪資如表一所示:

 

職位 Hadoop開發工程師 數據挖掘工程師 數據分析工程師 數據運維師
工作地 北京 北京 北京 北京
平均薪資 1.9萬 2.1萬 1.1萬 1.0萬
3-5年工作經驗 1.5-3萬 1.5-3萬 0.5-3萬 1.3-5萬
 

表一:北京數據工程師薪資表

 

  從今年4月份北京市公佈的數據來看,北京2016平均工資8717元,智聯招聘統計了2016年下半年互聯網/電子商務、網路游戲、電腦軟體、電腦硬體、IT服務、電子技術/半導體/集成電路等6個細分行業的企業招聘職位信息。

在2016年6月前,大數據的平均薪水為6K,之後,行業薪資水平顯著提高,平均水平在15K,最低工資漲幅不大,在北京平均工資水平為8717元,行業內平均工資水平已達到甚至超越北京市人均工資水平。如圖五所示:

 

圖五

 

  1年內對498份Hadoop開發工程師進行樣本數據分析,月平均工資為19050元,月收入在1W~3W的員工占絕大比重,達到81.3%,其中在月收入在1W~1.5W之間占比19.5%,1.5W~2W之間占比29.7%,2W~3W占比32.1%。另外,工作經驗是決定薪資水平的一大因素,我們可以看出,擁有的工作經驗越豐富,往往可以得到比較高的薪酬。 如圖六,圖七,圖八所示:

 

 

                                                                                                                 

圖六 工資收入                                                                                 圖七 按工作經驗分

  

圖八 歷年平均薪資

 

  數據挖掘工程師在北京的薪資待遇如圖九,圖十,圖十一所示:

 

                                                                                                                   

圖九 工資收入                                                                                圖十 按工作經驗分

 

圖十一 歷年平均薪資

 

  數據分析工程師在北京的薪資待遇如圖十二,圖十三,圖十四所示:

 

                                                                                                              

圖十二 工資收入                                                                          圖十三 按工作經驗分

 

圖十四 歷年平均薪資

 

  數據運維師在北京的薪資待遇如圖十五,圖十六,圖十七所示:

 

                                                                                                               

圖十五 工資收入                                                                           圖十六 按工作經驗分

 

圖十七 歷年平均薪資

 

  大數據工資竟然這麼高,看得我蠢蠢欲動呢,那麼大數據里都包含哪些理論呢?大數據的知識體系暫時分為5個部分:

  第一部分:java語言基礎與Linux系統基礎,包括java語言的面向對象編程,網路編程,Linux系統的基本命令操作和系統下shell腳本的使用。Linux系統對於編程而言,擁有開源,免費,穩定,安全,高效的優點。Java Web 大數據同系連枝,這造成了java語言成為和大數據平臺交互的主流語言。

  第二部分:數據平臺(Hadoop),數據存儲,資源調度與監控集群資源。在Hadoop平臺下,分散式文件系統HDFS來存儲海量數據,分散式資源管理框架YARN管理集群資源和MapReduce、Spark應用的資源實現資源的調度監控。

  第三部分:數據處理,Spark框架。kafka(分散式高吞吐的輕量級消息系統,Storm(實時的、分散式以及具備高容錯的計算系統)實時數據處理,Redis(高性能key-value)資料庫,Spark(數據平臺)的應用,記憶體計算框架Spark以及Impala查詢。

  第四部分:數據挖掘、數據分析與機器學習。應用Python語言來實現常出庫,網路爬蟲,Solr集群,機器學習,Mahout技術學習

  第五部分:大數據運維,雲計算平臺管理。運維基礎zookeeper框架,Docker引擎以及OpenStack雲計算平臺。

  這麼多公司都在大量招收大數據專業人才,那麼都有哪些成功的案例值得參考呢? 

  電子商務:淘寶網平臺用戶/商戶行為分析。利用大數據技術,建立人群分佈,尤其是以性別,年齡,工作,地域為主的成交量數據分佈模型;建立類品分佈,尤其是以食品,服飾,書籍,藥品,數位,母嬰,家居為主的成交量數據分佈模型;通過海量數據進行分析計算資源整合,從而,及時有效調整公司戰略方針,有效調整商業結構,做到對在不同城市,年齡段,工作的客戶有針對性的區別對待,來進一步擴大平臺的利潤。如圖十八,圖十九所示:

 

                                                                                               

圖十八                                                                                 圖十九

  

  零售業:沃爾瑪連鎖百貨數據分析。在美國,沃爾瑪通過數據關聯規則發現一種類似草莓的水果在颱風發生前後銷售量相差7倍,通過數據挖掘確定了該水果在颱風的影響下的銷量關係,從而在之後的颱風發生前期將所有該水果全部簽出,有效的降低商場存貨,提高商場的經濟效益。如圖二十所示:

 

圖二十 消費變化數據示意圖

 

  航空:Farecast靠大數據預測機票價格。2003年,Oren Etzioni將要乘坐從西雅圖到洛杉磯的飛機,他認為機票越早買越便宜,在飛機上,他好奇地問鄰座的乘客花了多少錢購買機票。事實卻是那個人的機票比他買得更晚,但是票價卻比他便宜得多,於是,他又詢問了另外幾個乘客,結果發現大家買的票居然都比他的便宜,他非常氣憤,他想要開發一款可以預測機票價格走勢的軟體,最終由此成立公司運營該軟體。基於深度學習及數據挖掘技術,預測航班未來可能出現的低價,提前給出報價銷售給消費者。2008年微軟公司找上了他並以1.1億美元的價格收購了Farecast公司。而後,這個系統被併入必應搜索引擎。被稱為"一張機票成就了Farecast"。

  警務:利用大數據分析犯罪高發地點。洛杉磯警察局曾經藉助一套原本用於預測地震後餘震的大數據模型,把過去80年內的130萬個犯罪記錄數據輸入進去,結果發現其預測出的犯罪高發地點與現實驚人的吻合。後來該預測演算法經過改進,已經成為了當地警局重要的參考依據,大大降低了當地的犯罪率。如圖二十一所示:

 

圖二十一

  

  不禁有人就有疑問了,既然大數據這麼火爆,就像當年的O2O一樣,所有人都想到裡面分一杯羹,可是市場就這麼大,到底有多少是炒作,大數據又能火多久呢?

  最近凱捷咨詢和Informatica共同進行了一項和大數據相關的商業調查,調查人群包括在美國和歐洲的大型企業和其高管。分析結果發現:少於三分之一的大數據項目被認為是盈利的;剩下的45% 是持平12%是虧損,12%很難確定他們的大數據項目是盈利還是虧損(如圖二十二)

 

圖二十二

 

 

  其實這些數據並不是那麼讓人驚訝, 凱捷全球大數據副總史蒂夫說"許多的大數據項目是為瞭解決技術學習曲線的目標(比如如果建立大數據集群)而進行,這些項目甚至於並沒有考慮投資回報ROI"。也就是說一些大型企業目前在實施的大數據項目的目的是提高數據專家對大數據的理解,而不是提高投資回報ROI。

  雖說大數據上升到了國家戰略層次,但回想到同為國家戰略層次的互聯網+下的O2O商業模式,還是要擦亮雙眼慎重考慮。數據科學在多年前就被提上日程,早些年由於技術手段有限,面對龐大的數據,數據的價值不容易被挖掘出來,近些年技術和數據的雙重積累極大地促進了大數據領域的發展。

  由此看來,大數據雖然火爆,但也是風險與機遇並存,小伙伴們,你們懂大數據了嗎?


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 在String.xml中添加: ...
  • 一直以來,做 Java web 開發都是用 eclipse , 可是到 eclipse 官網一看,我的天 http://www.eclipse.org/downloads/eclipse-packages/ 那麼多應該下載哪一個?這是一個問題? 其實 eclipse 為每一種開發者,都提供了不同的版 ...
  • 1.MongoDB簡介 MongoDB介紹 MongoDB是面向文檔的非關係型資料庫,不是現在使用最普遍的關係型資料庫,其放棄關係模型的原因就是為了獲得更加方便的擴展、穩定容錯等特性。面向文檔的基本思路就是:將關係模型中的“行”的概念換成“文檔(document)”模型。面向文檔的模型可以將文檔和數 ...
  • 一般namenode只格式化一次,重新格式化不僅會導致之前的數據都不可用,而且datanode也會無法啟動。在datanode日誌中會有類似如下的報錯信息: java.io.IOException: Incompatible clusterIDs in /tmp/hadoop-root/dfs/da ...
  • 0x00 背景 這兩天處於轉牛角尖的狀態,非常不好。但是上一篇的中提到的問題總算是總結了些東西。 傳送門:疑問點0x02(4) 0x01 測試過程 (1)測試環境情況:創建瞭如下測試表test, mysql> select * from test;+ + + +| user_id | user | ...
  • 【1. 問題描述】 【2. 查找原因】 【3. 解決問題】 本文網址[tom-and-jerry發佈於2017-05-20 18:46] http://www.cnblogs.com/tom-and-jerry/p/6882857.html ...
  • 如何用VBA操作MySQL資料庫?如何直接使用Excel操作MySQL資料庫? ...
  • 本文介紹一個簡單的SQL腳本,實現收縮整個Microsoft SQL Server實例所有非系統DB文件大小的功能。 作為一個與SQL天天打交道的程式猿,經常會遇到DB文件太大,把空間占滿的情況: 而對於開發測試人員來說,如果DB數據不是特別重要的話,不會特意擴大磁碟空間,而是直接利用SQL的Shr ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...