1.1 大數據簡介-hadoop-最全最完整的保姆級的java大數據學習資料

来源:https://www.cnblogs.com/gitBook/archive/2022/12/02/16946009.html
-Advertisement-
Play Games

1 hadoop-最全最完整的保姆級的java大數據學習資料 大數據技術解決的是什麼問題? 大數據技術解決的主要是海量數據的存儲和計算。 Hadoop的廣義和狹義之分 狹義的Hadoop:指的是一個框架,Hadoop是由三部分組成:HDFS:分散式文件系統--> 存儲; MapReduce:分散式離 ...


目錄

1 hadoop-最全最完整的保姆級的java大數據學習資料

大數據技術解決的是什麼問題?
大數據技術解決的主要是海量數據的存儲和計算。
Hadoop的廣義和狹義之分
狹義的Hadoop:指的是一個框架,Hadoop是由三部分組成:HDFS:分散式文件系統--> 存儲; MapReduce:分散式離線計算框架-->計算;Yarn:資源調度框架
廣義的Hadoop:廣義Hadoop是不僅僅包含Hadoop框架,除了Hadoop框架之外還有一些輔助框 架。Flume:日誌數據採集,Sqoop:關係型資料庫數據的採集;
Hive:深度依賴Hadoop框架完成計算(sql),Hbase:大數據領域的資料庫(mysql)
Sqoop:數據的導出
廣義Hadoop指的是一個生態圈。

主要學習內容

第一部分:大數據簡介(定義,特點,應用場景,發展趨勢,職業發展路線)
第二部分:Hadoop簡介(歷史,發展路線-版本變更,發行版(CDH))
第三部分:Hadoop的重要組成(hdfs,mapreduce,yarn)
第四部分:Apache Hadoop 完全分散式集群搭建
第五部分:HDFS 分散式文件系統(架構,原理,常用api, 元數據管理,許可權,日誌採集的綜合案例)
第六部分:MapReduce分散式計算框架 (原理,常用的編程規範等,大量案例練習-分區,排序-快 排-歸併排序,壓縮,自定義組件,綜合案例)
第七部分:Yarn 資源調度框架(架構,原理,三種資源調度策略)
第八部分:Apche Hadoop核心源碼剖析(nn,dn啟動流程源碼分析,nn高併發的支撐原理, hadoop3.0新特性)
第九部分: 調優及二次開發示例(hdfs,mr,yarn調優,nn常見GC問題,完成二次開發編譯源碼)

1.1 大數據簡介

1.1.1 大數據的定義

​ 大數據是指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合,是需要新處 理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。

1.1.2 大數據的特點

大數據的特點可以用 IBM 曾經提出的 “5V” 來描述,如下:

在這裡插入圖片描述

  • 大量

    採集、存儲和計算的數據量都非常大。

    電腦存儲單位一般用B,KB,MB,GB,TB,PB,EB,ZB,YB,BB、NB、DB來表示, 它們之間的關係是
    1GB = 1024 MB
    1TB = 1024 GB
    1PB = 1024 TB
    1EB = 1024 PB
    1ZB = 1024 EB
    1YB = 1024 ZB
    1BB = 1024 YB
    1NB = 1024 BB
    1DB = 1024 NB

    以PB為例,PB級數據量有多大?是怎樣的一個概念?

    假如手機播放MP3的速度為平均每分鐘1MB,而1首歌曲的平均時長為4分鐘,那麼1PB存量的歌曲可以連續播放2000年。

    1PB 也相當於50%的全美學術研究圖書館藏書咨詢內容。

    (1)1986年,全球只有0.02EB也就是約21000TB的數據量
    (2)2007年,全球就是280EB也就是約300000000TB的數據量,翻了14000倍
    (3)近些年,由於移動互聯網及物聯網的出現,各種終端設備的接入,各種業務形式的普 及,平均每40個月,全球的數據量就會翻倍!2012年,每天會產生2.5EB的數據量
    (4)基於IDC的報告預測,從2013年到2020年,全球數據量會從4.4ZB猛增到44ZB!而到了 2025年,全球會有163ZB的數據量!

    全球的數據量已經大到爆了!而傳統的關係型資料庫根本處理不瞭如此海量的數據!

  • 高速

    在大數據時代,數據的創建、存儲、分析都要求被高速處理,比如電商網站的個性化推薦儘可能要求實時完成推薦,這也是大數據區別於傳統數據挖掘的顯著特征。

  • 多樣

    數據形式和來源多樣化。包括結構化、半結構化和非結構化數據,具體表現為網路日誌、音 頻、視頻、圖片、地理位置信息等等,多類型的數據對數據的處 理能力提出了更高的要求。

  • 真實

    確保數據的真實性,才能保證數據分析的正確性

  • 低價值

    數據價值密度相對較低,或者說是浪里淘沙卻又彌足珍貴。互聯網發展催生了大量數據,信息海量,但價值密度較低,如何結合業務邏輯並通過強大的機器演算法來挖掘數據價值,是大數據時代最需要解決的問題,也是一個有難度的課題。

1.1.3 大數據的應用場景

隨著大數據的發展,大數據技術已經廣泛應用在眾多行業,比如倉儲物流、電商零售、汽車、電信、生物醫學、人工智慧、智慧城市等等領域,包括在疫情防控戰中,大數據技術也發揮了重要的作用。

  • 倉儲物流
    大數據技術驅動了倉儲物流領域的智能化發展,以蘇寧為例,蘇寧物流可在全國的各級倉庫間實現 智能分倉、就近備貨和預測式調撥,實現”客戶需要的商品就在離客戶最近的配送中心“。

在這裡插入圖片描述

  • 電商零售

    • 零售業 ” 啤酒+紙尿褲 “ 案例

在這裡插入圖片描述

  • 個性推薦
    在這裡插入圖片描述

  • ” 雙11購物節 “ 實時銷售額大屏
    在這裡插入圖片描述

  • 汽車

    利用了大數據和物聯網技術的無人駕駛汽車,在不遠的未來將走入我們的日常生活

在這裡插入圖片描述

  • 電信
    移動聯通根據用戶年齡、職業、消費情況,分析統計哪種套餐適合哪類人群,對市場人群精准定制。

在這裡插入圖片描述

  • 生物醫學

    大數據可以幫助我們實現流行病預測、智慧醫療、健康管理,同時還可以幫助我們解讀DNA,瞭解更多的生命奧秘。比如影像大數據支撐下的早期肺癌支撐平臺,基於大量病例數據樣本,制定早期肺癌高危人群預警指標。
    在這裡插入圖片描述

  • 人工智慧

在這裡插入圖片描述

  • 智慧城市

    大數據有效支撐智慧城市發展,成為城市的”數據大腦“。比如,在智慧城市建設上,杭州始終走在全國前列。如覆蓋面廣的移動支付、新穎的線上醫療模式、創新的物流運輸模式,都受到較大關註。2016年,杭州被《中國新型智慧城市》白皮書評為“中國最智慧的城市”。

在這裡插入圖片描述

大數據的價值,遠遠不止於此,大數據對各行各業的滲透,大大推動了社會生產和生活,未來必將產生重大而深遠的影響。

1.1.4 大數據的發展趨勢及職業路線

1.4.4.1 大數據發展趨勢

  1. 2015年黨的十八屆五中全會提出“實施國家大數據戰略”,國務院印發《促進大數據發展行動綱要》,大數據技術和應用處於創新突破期,國內市場需求處於爆發期,我國大數據產業面臨重要的發展機遇

  2. 2017年十九大報告明確 "推動互聯網、大數據、人工智慧和實體經濟深度融合"

  3. 2020年全國政協十三屆三次會議新聞發佈會上,更進一步強調:大數據、人工智慧、5G是引領 未來發展的戰略性技術

    顯然,發展大數據是我國的戰略性決策,前景自然不言而喻

  4. 2017年北京大學、中國人民大學、北京郵電大學等25所高校成功申請開設大數據課程

  5. 大數據屬於高新技術,大牛少,升職競爭小

  6. 2020年5月6日,人力資源和社會保障部發佈《新職業—大數據工程技術人員就業景氣現狀分析報告》,報告顯示:預計2020年中國大數據行業人才需求規模將達210萬,2025年前大數據人才需求仍將保持30%~40%的增速,需求總量在2000萬人左右

  7. 在北京大數據開發工程師的平均薪水已經超越 1.5w 直逼2w,而且目前還保持強勁的發展勢頭

1.4.4.2 大數據職業發展路線

​ 目前大數據高、中、低三個檔次的人才都很缺。現在我們談大數據,就像當年談電商一樣,未來前景已經很明確,接下來就是優勝劣汰,競爭上崗。不想當架構師的程式員不是好架構師!但是,大數據發展到現階段,涉及大數據相關的職業崗位也越來越精細。

​ 從職業發展來看,由大數據開發、挖掘、演算法、到架構。從級別來看,從工程師、高級工程師,再到架構師,甚至到科學家。而且,契合不同的行業領域,又有專屬於這些行業的崗位衍生,如涉及金融領域的數據分析師等。大數據的相關工作崗位有很多,有數據分析師、數據挖掘工程師、大數據開發工程師、大數據產品經理、可視化工程師、爬蟲工程師、大數據運營經理、大數據架構師、數據科學家等等。

​ 從事崗位:ETL工程師,數據倉庫工程師,實時流處理工程師,用戶畫像工程師,數據挖掘,演算法工程師,推薦系統工程。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 本文詳細介紹了Vaex這個強大的工具庫,能夠每秒處理數億甚至數十億行數據,而無需將整個數據集載入到記憶體中。對於大型數據的分析任務,Vaex的效率更簡單,對硬體/環境的要求更少!pandas升級版!快用起來吧~ ...
  • ###伺服器:WindowsServer 2016 ###Cloudreve 需求方想整一個在小團隊內部使用的網盤系統,最終在千挑萬選之下選中了Cloudreve。 Github地址:https://github.com/cloudreve/Cloudreve 官網地址:https://docs.c ...
  • 引言 儘管 redis 是一款非常優秀的 NoSQL 資料庫,但更重要的是,作為使用者我們應該學會在不同的場景中如何更好的使用它,更大的發揮它的價值。主要可以從這四個方面進行優化:Redis鍵值設計、批處理優化、服務端優化、集群配置優化 1. Redis慢查詢日誌使用 Redis 提供了慢日誌命令的 ...
  • 一、序言 在日常一線開發過程中,多表連接查詢不可或缺,基於MybatisPlus多表連接查詢究竟該如何實現,本文將帶你找到答案。 在多表連接查詢中,既有查詢單條記錄的情況,又有列表查詢,還有分頁查詢,這些需求與多表連接是什麼關係,又該如何實現,這是本文討論的中心內容。 二、實戰編碼 1、兩個關聯DO ...
  • 本文講解二維碼的生成與解碼:使用Python工具庫qrcode『構建二維碼』,使用cv2和pyzbar兩類工具庫『解碼二維碼』。二維碼是目前最常使用的快捷信息存儲方式之一,讀完本篇即可掌握這一必備技能! ...
  • 有一個煤礦項目,使用iNeuOS系統時有一個需要是:要統計設備的運行時長,進一步統計設備運行效率。主要是有效分析設備運行狀態,合理的進行節能。iNeuOS本身具備強大的腳本能力,需要現場實施人員有一定腳本編寫能力,如果不具備腳本編寫能力,那麼下麵的模板修改相應的參數即可。 ...
  • 前言:本系列是我自己學習.net相關知識,以便跟上.net跨平臺的步伐,目前工作原因基本在.net Framework4.7以下,所以才有了這一系列的學習總結,但是並不是從基本的C#語法和基礎知識開始的,而是圍繞.net core以後平臺的重要設計和差異進行溫故知新。目的在於通過要點的梳理最後串聯起 ...
  • Linux 基礎-新手必備命令 概述 常見執行 Linux 命令的格式是這樣的: 命令名稱 [命令參數] [命令對象] 註意,命令名稱、命令參數、命令對象之間請用空格鍵分隔。 命令對象一般是指要處理的文件、目錄、用戶等資源,而命令參數可以用長格式(完整的選項名稱),也可以用短格式(單個字母的縮寫), ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...