Hadoop(一)Hadoop核心架構與安裝

来源:https://www.cnblogs.com/chenyishi/archive/2022/04/29/16208098.html
-Advertisement-
Play Games

Hadoop是什麼 大白話,Hadoop是個存儲數據,計算數據的分散式框架。核心組件是HDFS、MapReduce、Yarn。 HDFS:分散式存儲 MapReduce:分散式計算 Yarn:調度MapReduce 現在為止我們知道了HDFS、MapReduce、Yarn是幹啥的,下麵通過一張圖再來 ...


Hadoop是什麼

大白話,Hadoop是個存儲數據,計算數據的分散式框架。核心組件是HDFS、MapReduce、Yarn。

HDFS:分散式存儲

MapReduce:分散式計算

Yarn:調度MapReduce

現在為止我們知道了HDFS、MapReduce、Yarn是幹啥的,下麵通過一張圖再來看看他的整體架構。

HDFS

HDFS是Hadoop的存儲系統,將龐大的數據存儲在多台機器上,並通過數據副本冗餘實現容錯。HDFS兩大核心組件是NameNode與DataNode。

NameNode:管理文件命名空間元數據;實現文件命名、打開關閉操作

SecondaryNameNode:幫助NameNode實現log與數據快照的合併

DataNode:根據客戶請求實現文件的讀寫

MapReduce

MapReduce是基於Java開發的分散式計算。包含重要的兩部分,Map和Reduce。

Map:將數據轉成鍵值對

Reduce:將Map的輸出數據聚合減少

 

Yarn

通過對集群資源的監控,調度MapReduce的任務。核心組件有ResourceManager、NodeManager、ApplicationMaster 和 Container。

ResourceManager:處理客戶端請求;監控NodeManager與ApplicationMaster;調度資源。

NodeManager:管理節點資源;與ResourceManager ApplicationMaster交互。

ApplicationMaster:為程式申請資源並將資源分配給任務;任務監控。

安裝Hadoop

1.安裝Jdk

下載https://www.oracle.com/java/technologies/downloads/

解壓

tar -zxvf jdk-8u331-linux-x64.tar.gz

加入環境變數

vi /etc/profile

#加入以下內容
JAVA_HOME=/usr/local/java18/jdk1.8.0_331
JRE_HOME=$JAVA_HOME/jre
PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib
export JAVA_HOME JRE_HOME PATH CLASSPATH


//生效
source  /etc/profile

驗證java

2.安裝偽分散式Hadoop

下載https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.2.3/hadoop-3.2.3.tar.gz

解壓

tar xzf hadoop-3.2.3.tar.gz

配置本機ssh

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys

配置Hadoop環境變數

cat etc/hadoop/hadoop-env.sh

export JAVA_HOME=/usr/local/java/jdk1.8

配置hdfs地址

cat etc/hadoop/core-site.xml

    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>

配置hafs分片數

cat etc/hadoop/hdfs-site.xml
<property> <name>dfs.replication</name> <value>1</value> </property>
  /etc/profile新增hadoop環境變數
export HADOOP_HOME=/usr/local/hadoop/hadoop-3.2.3
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_CLASSPATH=${JAVA_HOME}/lib/tools.jar


//生效
source /etc/profile

配置mapreduce

vi etc/hadoop/mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.application.classpath</name>
        <value>$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*:$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*</value>
    </property>
</configuration>

配置yarn

vi etc/hadoop/yarn-site.xml

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.env-whitelist</name>
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_HOME,PATH,LANG,TZ,HADOOP_MAPRED_HOME</value>
    </property>
</configuration>

配置相關user

//將sbin/start-dfs.sh,sbin/stop-dfs.sh兩個文件頂部添加以下參數

HDFS_DATANODE_USER=root
HADOOP_SECURE_DN_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root

//將sbin/start-yarn.sh,sbin/stop-yarn.sh頂部也需添加以下

YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root

初始化hdfs

bin/hdfs namenode -format

啟動yarn

sbin/start-yarn.sh

通過jps查看啟動的進程

 啟動hdfs

sbin/start-dfs.sh

通過jps查看進程

訪問hadoopui驗證安裝是否成功

http://192.168.43.50:9870/dfshealth.html#tab-overview

 

訪問集群ui

http://192.168.43.50:8088/cluster/cluster


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Linux下實現I/O復用的系統調用方式主要:select、poll、epoll。 ...
  • 從零部署.NetCore到Linux 購買Ubuntu伺服器 購買伺服器 創建root用戶,設置密碼 # 創建root用戶 sudo passwd root # 輸入兩次密碼 啟動ssh 系統預設是關閉的,需要打開下。 安裝Nginx 如何在 Ubuntu 20.04 上安裝 Nginx sudo命 ...
  • 前言 用騰訊雲伺服器Ubuntu搭建完SSH服務後,隔了一段時間重裝了伺服器系統,搭建的時候想著直接按照原先的博客梭哈就完事了Windows10公鑰遠程連接Linux伺服器結果就是各種失敗,耗費不少時間去解決,其中馬虎問題最嚴重。在此記錄分享,望能對大家有所幫助。Windows10公鑰遠程連接Lin ...
  • 鏡像下載、功能變數名稱解析、時間同步請點擊 阿裡雲開源鏡像站 一、在兩台機器上安裝docker // 1.安裝Docker源 yum install -y wget && wget https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.rep ...
  • 前言 由於CentOS 8的支持已經到期了,.NET 6也不支持了,然後也無法升級,導致使用起來已經非常不便,無奈只有遷移伺服器這個選項了。 選擇發行版本一直是一個比較頭疼的問題,首先我不是專門運維的,最好使用的人比較多的版本,然後.NET要官方支持的版本才行,最好是具有中國區的鏡像服務。雖然Fed ...
  • ** linux 下需要知道你系統的Linux內核版本,然後選擇相應的版本下載,版本查詢命令:** uname -a 在高版本20.04和18.04等版本,不需要執行下麵這條命令來編譯makefile文件,因為系統自身存在串口驅動cp210x.o make 於是只需要在[/lib/modules/5 ...
  • 最近需要使用mysql8.0版本,但是原本的mysql5.7版本已經被多個服務依賴,於是想想能不能同一臺伺服器裝多個版本的mysql,一查確實可行,這裡做一個記錄方便自己後期回憶 閱讀本文前請註意!!! 本文是幫助您建立在mysql5.7版本已經安裝完成併在運行中,另外安裝配置mysql8.0版本 ...
  • 事務概述 當多個用戶訪問同一份數據時,一個用戶在更改數據的過程中,可能有其他用戶同時發起更改請求,為保證資料庫記錄的更新從一個一致性狀態變為另外一個一致性狀態,使用事務處理是非常必要的,事務具有以下四個特性: 原子性(Atomicity):事務中所有操作視為一個原子單位,即對事務所進行的數據修改等操 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...