1.2 Hadoop簡介-hadoop-最全最完整的保姆級的java大數據學習資料

来源:https://www.cnblogs.com/gitBook/archive/2022/12/03/16948237.html
-Advertisement-
Play Games

1.2 Hadoop簡介 1.2.1 什麼是Hadoop ​ Hadoop 是一個適合大數據的分散式存儲和計算平臺 ​ 如前所述,狹義上說Hadoop就是一個框架平臺,廣義上講Hadoop代表大數據的一個技術生態 圈,包括很多其他軟體框架 ​ Hadoop生態圈技術棧 ​ Hadoop(HDFS + ...


目錄

1.2 Hadoop簡介

1.2.1 什麼是Hadoop

​ Hadoop 是一個適合大數據的分散式存儲和計算平臺

​ 如前所述,狹義上說Hadoop就是一個框架平臺,廣義上講Hadoop代表大數據的一個技術生態 圈,包括很多其他軟體框架

Hadoop生態圈技術棧

​ Hadoop(HDFS + MapReduce + Yarn)

​ Hive 數據倉庫工具

​ HBase 海量列式非關係型資料庫

​ Flume 數據採集工具

​ Sqoop ETL工具

​ Kafka 高吞吐消息中間件

​ ......

1.2.2 Hadoop的起源

Hadoop 的發展歷程可以用如下過程概述:
Nutch —> Google論文(GFS、MapReduce)—> Hadoop產生 —> 成為Apache頂級項目—> Cloudera公司成立(Hadoop快速發展)

  • Hadoop最早起源於Nutch,Nutch 的創始人是Doug Cutting
    Nutch 是一個開源 Java 實現的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲,但隨著抓取網頁數量的增加,遇到了嚴重的可擴展性問題——如何解決數十億網頁的存儲和索引問題
  • 2003年、2004年谷歌發表的兩篇論文為該問題提供了可行的解決方案。GFS,可用於處理海量網頁的存儲;MapReduce,可用於處理海量網頁的索引計算問題

​ Google的三篇論文(三駕馬車)
​ GFS:Google的分散式文件系統(Google File System)
​ MapReduce:Google的分散式計算框架
​ BigTable:大型分散式資料庫
​ 發展演變關係:
​ GFS —> HDFS
​ Google MapReduce —> Hadoop MapReduce
​ BigTable —> HBase

  • 隨後,Google公佈了部分GFS和MapReduce思想的細節,Doug Cutting等人用2年的業餘時間實 現了DFS和MapReduce機制,使Nutch性能飆升
  • 2005年,Hadoop 作為Lucene的子項目Nutch的一部分引入Apache
  • 2006年,Hadoop從Nutch剝離出來獨立
  • 2008年,Hadoop成為Apache的頂級項目
  • Hadoop這個名字來源於Hadoop之父Doug Cutting兒子的毛絨玩具象

在這裡插入圖片描述

1.2.3 Hadoop的特點

在這裡插入圖片描述

1.2.4 Hadoop的發行版本

​ 目前Hadoop發行版非常多,有Cloudera發行版(CDH)、Hortonworks發行版、華為發行版、 Intel發行版等,所有這些發行版均是基於Apache Hadoop衍生出來的,之所以有這麼多的版本,是由Apache Hadoop的開源協議決定的(任何人可以對其進行修改,並作為開源或商業產品發佈/銷售)

​ 企業中主要用到的三個版本分別是:Apache Hadoop版本(最原始的,所有發行版均基於這個版本進行改進)、Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,簡稱“CDH”)、 Hortonworks版本(Hortonworks Data Platform,簡稱“HDP”)。

  • Apache Hadoop 原始版本
    官網地址:http://hadoop.apache.org/
    優點:擁有全世界的開源貢獻,代碼更新版本比較快
    缺點:版本的升級,版本的維護,以及版本之間的相容性,學習非常方便
    Apache所有軟體的下載地址(包括各種歷史版本):http://archive.apache.org/dist/
  • 軟體收費版本ClouderaManager CDH版本 --生產環境使用
    官網地址:https://www.cloudera.com/
    Cloudera主要是美國一家大數據公司在Apache開源Hadoop的版本上,通過自己公司內部的各種補丁,實現版本之間的穩定運行,大數據生態圈的各個版本的軟體都提供了對應的版本,解決了版本的升級困難,版本相容性等各種問題,生產環境強烈推薦使用
  • 免費開源版本HortonWorks HDP版本--生產環境使用
    官網地址:https://hortonworks.com/
    hortonworks主要是雅虎主導Hadoop開發的副總裁,帶領二十幾個核心成員成立Hortonworks, 核心產品軟體HDP(ambari),HDF免費開源,並且提供一整套的web管理界面,供我們可以通過web界面管理我們的集群狀態,web管理界面軟體HDF網址(http://ambari.apache.org/)

1.2.5 Apache Hadoop版本更迭

0.x 系列版本:Hadoop當中最早的一個開源版本,在此基礎上演變而來的1.x以及2.x的版本
1.x 版本系列:Hadoop版本當中的第二代開源版本,主要修複0.x版本的一些bug等
2.x 版本系列:架構產生重大變化,引入了yarn平臺等許多新特性
3.x 版本系列:EC技術、YARN的時間軸服務等新特性

在這裡插入圖片描述

1.2.6 第六節 Hadoop的優缺點

Hadoop的優點

  • Hadoop具有存儲和處理數據能力的高可靠性。
  • Hadoop通過可用的電腦集群分配數據,完成存儲和計算任務,這些集群可以方便地擴展到數以千計的節點中,具有高擴展性。
  • Hadoop能夠在節點之間進行動態地移動數據,並保證各個節點的動態平衡,處理速度非常快,具有高效性。
  • Hadoop能夠自動保存數據的多個副本,並且能夠自動將失敗的任務重新分配,具有高容錯性。

Hadoop的缺點

  • Hadoop不適用於低延遲數據訪問。
  • Hadoop不能高效存儲大量小文件。
  • Hadoop不支持多用戶寫入並任意修改文件。

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Android ViewPager2 + Fragment + BottomNavigationView 聯動 本篇主要介紹一下 ViewPager2 + Fragment + BottomNavigationView , 上篇中把ViewPager2和Fragment 聯動起來了, 本篇主要把 B ...
  • JZ23 鏈表中環的入口結點 描述 給一個長度為n鏈表,若其中包含環,請找出該鏈表的環的入口結點,否則,返回null。 解析 環很大 在前面我們提到過快慢指針,判斷是否有環。如果有環,在來找環的入口。如果沒環直接返回null即可,我們假設是有環的,那麼會有兩種情況,一種是O型,一種是6型,其實原理都 ...
  • Map源碼剖析 HashMap&LinkedHashMap&Hashtable hashMap預設的閾值是0.75 HashMap put操作 put操作涉及3種結構,普通node節點,鏈表節點,紅黑樹節點,針對第三種,紅黑樹節點,我們後續單獨去學習,這裡不多做擴散 final V putVal(i ...
  • 來源:https://www.cnblogs.com/prayjourney/p/9667835.html 在一個應用系統中, 無論使用何種語言開發, 必然存在模塊之間的調用, 調用的方式分為幾種。 1.同步調用 同步調用是最基本並且最簡單的一種調用方式, 類A的方法a()調用類B的方法b(), 一 ...
  • 在Seata的AT模式中,在服務執行完成後,直接進行RM提交和資源釋放,提供了對CAP理論相對平衡的解決方案,並且沒有侵入業務工程; ...
  • 一:背景 1.講故事 這周有個朋友找到我,說他的程式出現了記憶體緩慢增長,沒有回頭的趨勢,讓我幫忙看下到底怎麼回事,據朋友說這個問題已經困擾他快一周了,還是沒能找到最終的問題,看樣子這個問題比較刁鑽,不管怎麼說,先祭出 WinDbg。 二:WinDbg 分析 1. 托管還是非托管泄露 一直關註這個系列 ...
  • Linux 命令及其參數繁多,大多數人都是無法記住全部功能和具體參數意思的。在 linux 終端,面對命令不知道怎麼用,或不記得命令的拼寫及參數時,我們需要求助於系統的幫助文檔; linux 系統內置的幫助文檔很詳細,通常能解決我們的問題,我們需要掌握如何正確的去使用它們。 ...
  • Linux系統環境監測 Linux系統環境主要監測CPU、記憶體、磁碟I/O和網路流量。 1. CPU (1) 查看CPU的負載情況:uptime 可以通過uptime查看系統整體的負載情況。 如果伺服器的CPU為1核心,則1分鐘的系統平均負載 >=3 說明負載過高,如果伺服器的CPU為4核心,則lo ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...