大數據入門學習,你要掌握這些技能

来源:https://www.cnblogs.com/Aa1234/archive/2018/10/30/9876234.html
-Advertisement-
Play Games

小編將此文獻給對數據有熱情,想長期從事此行業的年輕人,希望對你們有所啟發,並快速調整思路和方向,讓自己的職業生涯有更好的發展。 根據數據應用的不同階段,本文將從數據底層到最後應用,來談談那些數據人的必備技能。 1、大數據平臺 目前很火,數據源頭,各種炫酷新技術,搭建Hadoop、Hive、Spark ...


小編將此文獻給對數據有熱情,想長期從事此行業的年輕人,希望對你們有所啟發,並快速調整思路和方向,讓自己的職業生涯有更好的發展。

根據數據應用的不同階段,本文將從數據底層到最後應用,來談談那些數據人的必備技能。

1、大數據平臺

目前很火,數據源頭,各種炫酷新技術,搭建Hadoop、Hive、Spark、Kylin、Druid、Beam~,前提是你要懂Java,很多平臺都是用Java開發的。

目前很多企業都把數據採集下來了,對於傳統的業務數據,用傳統的數據是完全夠用的,可是對於用戶行為和點擊行為這些數據或者很多非結構化的數據,文本、圖像和文本類的,由於數據量太大,很多公司都不知道怎麼進行存儲。

這裡面要解決的是實時、近實時和離線的大數據框架如何搭建,各數據流之間如何耦合和解耦,如何進行容災、平臺穩定、可用是需要重點考慮的。

我的感覺是:最近兩三年中,這塊人才還是很稀缺的,因為大數據概念炒作的這麼厲害,很多企業都被忽悠說,我們也來開始進入大數據行業吧。進入的前提之一就是需要把數據存儲下來,特別是很多用戶行為方面的數據,對於業務的提升比較明顯的,如果你能很好的刻畫用戶,那麼對你的產品設計、市場營銷、開發市場都是有幫助的。現階段,很多公司都要做第一步:存儲更多的數據。這也是這塊人員流動性比較高的原因,都被高薪挖走了。

這塊工作最被吐槽的一點就是:Hive速度好慢,SQL查詢好慢,集群怎麼又掛掉了,hadoop版本升級後,怎麼數據跑出來不對了等等。

如果想在這塊做的很好,還需要有整個系統架構的設計能力、比較的強的抗壓能力和解決問題的能力、資源收集的能力,可以打入開源社區,這樣就可以隨時follow最新的潮流和技術。

2、數據可視化

這是個很炫的工作,最好是能懂點前端,比如js。數據可視化人員需要有很好的分析思維,不能為了炫技而忽視對業務的幫助程度。因為我對這個崗位客串的不多,所以沒有特別深入的感悟,不過我覺得這個崗位需要有分析的能力,才能把可視化做好。

另外一方面來說,做數據應用的人都應該懂點數據可視化,要知道觀點表達的素材順序是:圖片>表格>文字,一個能夠用圖片來闡述的機會千萬別用文字來描述,因為這樣更易於讓別人理解。要知道,給大領導講解事情的時候,需要把大領導設想成是個“數據白痴”,這樣才能把一件事情說的比較生動。

3、數據分析師

對於數據分析師的定位:個人認為,成為優秀的數據分析師是非常難的,現在市面上也沒有多少優秀的分析師。數據分析師的技能要求,除了會數據分析、提煉結論、洞察數據背後的原因之外,還需要瞭解業務,懂演算法。

只有這樣,當面對一個業務問題時,數據分析師們才可以針對問題抽絲剝繭,層層遞進去解決問題,再根據定位的問題進行策略的應對,比如是先做上策略進行測試還是應用演算法進行優化,用演算法用在哪個場景上,能不能用演算法來解決問題。

一個優秀的數據分析師,是個精通業務和演算法的全能數據科學家,不是那個只會聽從業務的需求而進行拉數據、做報表、只做分析的閑雜人等。我們都說分析要給出結論,優秀分析師的結論就是一個能解決問題的一攬子策略和應對措施,同時很多需求是分析師去主動發現並通過數據來挖掘出來的。

從上述描述中,可以看到對數據分析師的要求是:會寫sql拉數據,精通業務、會數據洞察、精通演算法,主動性強,要求還是很高的。

4、數據挖掘/演算法

對於這個崗位的技能要求來說,沒有要求你一定要從零開始實現所有的演算法,現在有很多現成的演算法包進行調用。最基本的要求是,你要知道每個場景會用到哪個演算法,比如分類場景,常用的分類演算法就有LR/RF/Xgboost/ET等等,此外,你還要知道每個演算法的有效優化參數是什麼、模型效果不好的時候怎麼優化。還需要有演算法的實現能力,語言方面可以用Scala/python/R/Java等。我們常說:工具不重要,重要的是你玩工具,不是工具玩你。

另外針對有監督式學習演算法,演算法工程師最好有很好的業務sense,這樣在feature設計的時候才能更有針對性,設計的feature才有可能有很好的先驗性。大數據學習群142973723

以上說了這麼多,嘮叨了這麼多,其實核心就是:如何用數據創造價值,如果你沒有用數據創造價值的能力,那麼就只能等著被數據淹沒,被數據拍死在職場上,早早到達職業的天花板。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Redis Watch 命令 作用: 用於監視一個(或多個) key ,如果在事務執行之前這個(或這些) key 被其他命令所改動,那麼事務將被打斷。 用法: Redis Unwatch 命令 作用: 用於取消 WATCH 命令對所有 key 的監視。 用法: Redis Multi 命令 作用: ...
  • [20181031]12c 線上移動數據文件.txt--//12c以前,移動或者改名數據文件是一項比較麻煩的事情,至少要停一下業務.而12c支持線上移動或者改名數據文件,並且有點不可思議--//的是這個操作可以在非歸檔模式下完成.鏈接有人問這個安全性的問題,鏈接http://www.itpub.ne ...
  • 基礎部分 1. select @@version; ##查詢當前mysql的版本. 2. show variables like 'port';##查看mysql實例的埠。 3. show variables like 'socket';##查看實例的socket數據。 4. show varia ...
  • 在安裝oracle11g時出現問題:INS-13001環境不滿足最低要求 解決方法:找到下載解壓後的文件,依次打開以下文件路徑:Oracle11g\database\stage\cvu, 在cvu文件下有個cvu_prereq.xml文件,可用記事本打開cvu_prereq.xml文件,在<CERT ...
  • 一.概述 Redis 是一個開源(BSD許可)的,記憶體中的數據結構存儲系統,它可以用作資料庫、緩存和消息中間件。 它支持多種類型的數據結構,如 字元串(strings), 散列(hashes), 列表(lists), 集合(sets), 有序集合(sorted sets) 與範圍查詢, bitmap ...
  • 1.對查詢進行優化,要儘量避免全表掃描,首先應考慮在 where 及 order by 涉及的列上建立索引。 2.應儘量避免在 where 子句中對欄位進行 null 值判斷,否則將導致引擎放棄使用索引而進行全表掃描,如: 最好不要給資料庫留NULL,儘可能的使用 NOT NULL填充資料庫. 備註 ...
  • MySql 雙主多從配置指導 一、背景 互聯網項目為了數據的可靠性和架構的可拓展性經常會用到雙主多從的資料庫,來實現數據的備份、負載均衡和突髮狀況時資料庫切換。 二、思路 配置兩台資料庫A、B互為主從,然後配置以A為主的從資料庫C,和以B為主的從資料庫D 在A和B的配置中添加: log-slave- ...
  • 一,原理及介紹〇 xtrabackup能做哪些 對InnoDB引擎的表做熱備 增量備份 流壓縮傳輸到另外的伺服器上 線上移動表 更簡單的創建從庫 備份時不增加伺服器負載 〇 原理 備份及恢復大致涉及三個步驟:備份 -> prepare -> 恢復 備份運行時,工具會記住當時的LSN號,並打開xtra ...
一周排行
    -Advertisement-
    Play Games
  • 前言 本文介紹一款使用 C# 與 WPF 開發的音頻播放器,其界面簡潔大方,操作體驗流暢。該播放器支持多種音頻格式(如 MP4、WMA、OGG、FLAC 等),並具備標記、實時歌詞顯示等功能。 另外,還支持換膚及多語言(中英文)切換。核心音頻處理採用 FFmpeg 組件,獲得了廣泛認可,目前 Git ...
  • OAuth2.0授權驗證-gitee授權碼模式 本文主要介紹如何筆者自己是如何使用gitee提供的OAuth2.0協議完成授權驗證並登錄到自己的系統,完整模式如圖 1、創建應用 打開gitee個人中心->第三方應用->創建應用 創建應用後在我的應用界面,查看已創建應用的Client ID和Clien ...
  • 解決了這個問題:《winForm下,fastReport.net 從.net framework 升級到.net5遇到的錯誤“Operation is not supported on this platform.”》 本文內容轉載自:https://www.fcnsoft.com/Home/Sho ...
  • 國內文章 WPF 從裸 Win 32 的 WM_Pointer 消息獲取觸摸點繪製筆跡 https://www.cnblogs.com/lindexi/p/18390983 本文將告訴大家如何在 WPF 裡面,接收裸 Win 32 的 WM_Pointer 消息,從消息裡面獲取觸摸點信息,使用觸摸點 ...
  • 前言 給大家推薦一個專為新零售快消行業打造了一套高效的進銷存管理系統。 系統不僅具備強大的庫存管理功能,還集成了高性能的輕量級 POS 解決方案,確保頁面載入速度極快,提供良好的用戶體驗。 項目介紹 Dorisoy.POS 是一款基於 .NET 7 和 Angular 4 開發的新零售快消進銷存管理 ...
  • ABP CLI常用的代碼分享 一、確保環境配置正確 安裝.NET CLI: ABP CLI是基於.NET Core或.NET 5/6/7等更高版本構建的,因此首先需要在你的開發環境中安裝.NET CLI。這可以通過訪問Microsoft官網下載並安裝相應版本的.NET SDK來實現。 安裝ABP ...
  • 問題 問題是這樣的:第三方的webapi,需要先調用登陸介面獲取Cookie,訪問其它介面時攜帶Cookie信息。 但使用HttpClient類調用登陸介面,返回的Headers中沒有找到Cookie信息。 分析 首先,使用Postman測試該登陸介面,正常返回Cookie信息,說明是HttpCli ...
  • 國內文章 關於.NET在中國為什麼工資低的分析 https://www.cnblogs.com/thinkingmore/p/18406244 .NET在中國開發者的薪資偏低,主要因市場需求、技術棧選擇和企業文化等因素所致。歷史上,.NET曾因微軟的閉源策略發展受限,儘管後來推出了跨平臺的.NET ...
  • 在WPF開發應用中,動畫不僅可以引起用戶的註意與興趣,而且還使軟體更加便於使用。前面幾篇文章講解了畫筆(Brush),形狀(Shape),幾何圖形(Geometry),變換(Transform)等相關內容,今天繼續講解動畫相關內容和知識點,僅供學習分享使用,如有不足之處,還請指正。 ...
  • 什麼是委托? 委托可以說是把一個方法代入另一個方法執行,相當於指向函數的指針;事件就相當於保存委托的數組; 1.實例化委托的方式: 方式1:通過new創建實例: public delegate void ShowDelegate(); 或者 public delegate string ShowDe ...