Hadoop學習(3)-mapreduce快速入門加yarn的安裝

来源:https://www.cnblogs.com/wpbing/archive/2019/07/24/11238504.html
-Advertisement-
Play Games

mapreduce是一個運算框架,讓多台機器進行並行進行運算, 他把所有的計算都分為兩個階段,一個是map階段,一個是reduce階段 map階段:讀取hdfs中的文件,分給多個機器上的maptask,分文件的時候是按照文件的大小分的 比如每個maptask都會處理128M的文件大小,然後有個500 ...


mapreduce是一個運算框架,讓多台機器進行並行進行運算,

他把所有的計算都分為兩個階段,一個是map階段,一個是reduce階段

 

map階段:讀取hdfs中的文件,分給多個機器上的maptask,分文件的時候是按照文件的大小分的

比如每個maptask都會處理128M的文件大小,然後有個500M的文件,就會啟動ceil(500/128)個maptask

每讀取文件的一行的處理,需要自己去寫,註意每個maptask的處理邏輯都是一樣的

處理出來的結果一定是一對key和value。

maptask裡面的方法叫map(long k, string v, context);   k是文件的起始偏移量,v是內容,

context是要把產生的key,value對放入的容器。

 

 

 

reduce階段:每個機器上有reducetask,其作用是對maptask產生的key和value進行聚合

聚合的原則是key一樣的一定分發給一個reducetask,這個操作叫做shuffle

然後把相同key的數據作為一組進行處理。最後會把結果寫到hdfs裡面

每有幾個reducetask,就會生成幾個part-r-xxxx文件

reducetask裡面的方法reduce(k,value迭代器,context),k就是key,迭代器遍歷每一個key相同的value,然後context就是寫入hdfs里的,也是一個key和value

 

入門樣例:wordcount

設計思路,每個maptask讀取文件,

map裡面k  起始偏移量沒用,我們每讀一行v,產生就是key是每一個單詞,然後value就定為1就行,把這個key,value放入context裡面

在reduce階段,每個key相同的就會作為一組,也就是單詞相同的作為一組,就統計出現幾次就行。

 

開始在esclipe寫mapreduce的業務邏輯,首先我們需要一些jar包,相關的jar包在解壓出來的hadoop下的share/hadoop文件夾下

這幾個文件夾下的jar包和這幾個文件夾下的lib下的jar包都拷貝到esclipe再buildPath

首先編寫mapper方法

package test;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

/**
 * KEYIN :是map task讀取到的數據的key的類型,是一行的起始偏移量Long
 * VALUEIN:是map task讀取到的數據的value的類型,是一行的內容String
 * 
 * KEYOUT:是用戶的自定義map方法要返回的結果kv數據的key的類型,在wordcount邏輯中,我們需要返回的是單詞String
 * VALUEOUT:是用戶的自定義map方法要返回的結果kv數據的value的類型,在wordcount邏輯中,我們需要返回的是整數Integer
 * 
 * 
 * 但是,在mapreduce中,map產生的數據需要傳輸給reduce,需要進行序列化和反序列化,而jdk中的原生序列化機制產生的數據量比較冗餘,就會導致數據在mapreduce運行過程中傳輸效率低下
 * 所以,hadoop專門設計了自己的序列化機制,那麼,mapreduce中傳輸的數據類型就必須實現hadoop自己的序列化介面
 * 
 * hadoop為jdk中的常用基本類型Long String Integer Float等數據類型封住了自己的實現了hadoop序列化介面的類型:LongWritable,Text,IntWritable,FloatWritable
 * 
 * 
 * 
 * 
 */
//第一個泛型為起始偏移量,沒啥用,第二個為字元串,為讀取到的一行內容,第三個,第四個為context中的key,和value,即發送給reduce的k,v對
public class WordcountMapper extends Mapper<LongWritable, Text, Text, IntWritable>{
    
    @Override
    //重寫map方法
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        // 切單詞
        String line = value.toString();
        String[] words = line.split(" ");
        for(String word:words){
            context.write(new Text(word), new IntWritable(1));
        }
    }
}

接下來是reduce類

package test;

import java.io.IOException;
import java.util.Iterator;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
//第一個,第二個為接收到的map的key,value,第三第四為寫入到hdfs的key,value
public class WordcountReducer extends Reducer<Text, IntWritable, Text, IntWritable>{
    
    
    @Override
    //一個key,眾多value的迭代器,一個context;
    protected void reduce(Text key, Iterable<IntWritable> values,Context context) throws IOException, InterruptedException {
    
        int count = 0; 
        Iterator<IntWritable> iterator = values.iterator();
        while(iterator.hasNext()){
            
            IntWritable value = iterator.next();
            count += value.get();
        }
        context.write(key, new IntWritable(count));
    }
    
    

}

 

 

 然而我們寫的程式需要提交給我們的hadoop集群去運行,而管理這個事情的就是我們的yarn

yarn是一個分散式程式的運行調度平臺

yarn中有兩大核心角色

1、Resource Manager

接受用戶提交的分散式計算程式,併為其劃分資源

接收客戶端要運行幾個容器,進行任務調度

管理、監控各個Node Manager上的資源情況,以便於均衡負載

2、Node Manager

 

管理它所在機器的運算資源創建容器(cpu + 記憶體)

負責接受Resource Manager分配的任務,創建容器、回收資源

我們需要把我們的程式的jar包分發給每一個NodeManager,讓他們去運行,

 

node manager在物理上應該跟data node部署在一起

resource manager在物理上應該獨立部署在一臺專門的機器上

 

yarn的安裝

yarn我們不需要再下載了,在我們的hadoop裡面已經有了yarn,我們只需要寫一下配置文件就行

[root@hdp-04 ~]# vi apps/hadoop-2.8.1/etc/hadoop/yarn-site.xml

第一個指明哪一臺機器當做resourcemanager,第二個指明nodemanager的任務是什麼

 

<configuration>

<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hdp-01</value>
</property>

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

</configuration>

然後複製這個文件到你的其他機器上

在你的resourcemanager機器上敲 start-yarn.sh,(關閉時stop-yarn.sh)

hadoop就會啟動resourcemanager,其他的nodemanager,hadoop是通過slave文件知道的(在/root/apps/hadoop-2.8.1/etc/hadoop/slaves),裡面寫入你的nodemanager的ip就行,一行一個。

啟動之後可以敲jps看一下

或者看網頁的形式,resourcemanager的埠號是8088.比如hdp-01:8088

 

然後安裝完yarn之後嘞,我們就可以寫一個java的提交任務的程式了

 

package test;


import java.net.URI;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;


public class JobSubmitter {
    
    public static void main(String[] args) throws Exception {
        
        //在JVM中設置訪問hdfs的用戶身份為root,因為要對存在datanode節點的文件進行讀寫,不然可能會許可權不夠
        // 構造一個訪問指定HDFS系統的客戶端對象: 參數1:——HDFS系統的URI,參數2:——客戶端要特別指定的參數,參數3:客戶端的身份(用戶名)
        //FileSystem fs = FileSystem.get(new URI("hdfs://172.31.2.38:9000/"), conf, "root");
        //如果是這樣設置訪問用戶身份是不行的,因為不光是自己的客戶端訪問hdfs,
        //job還會創建自己的hdfs的對象FileSystem去訪問datanode,那麼job創建的對象是從系統環境變數拿到的用戶名,所以這樣設置身份
        System.setProperty("HADOOP_USER_NAME", "root");
        
        //設置配置參數
        Configuration conf = new Configuration();
        //設置job運行時要訪問的預設文件系統
        conf.set("fs.defaultFS", "hdfs://172.31.2.38:9000");
        
        //設置job要提交到那裡去運行,可以是yarn,也可以是local
        conf.set("mapreduce.framework.name", "yarn");
        //設置resourcemanager在哪
        conf.set("yarn.resourcemanager.hostname", "172.31.2.38");
        //如果從windows提交job,需要設置跨平臺提交時,把windows中的命令,替換成linux的
        //比如運行jar包中某個程式,在linux和windows是不一樣的,這樣可以自動轉化
        conf.set("mapreduce.app-submission.cross-platform","true");
        //設置job
        Job job = Job.getInstance(conf);
        
        //封裝jar包在windows下的位置 
        job.setJar("d:/wc.jar");
        //設置本次job所要調用的Mapper的class類和reduce的class類
        job.setMapperClass(WordcountMapper.class);
        job.setReducerClass(WordcountReducer.class);
        
        //設置mapper實現類的產生結果的key,value類型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);
        //設置reduce實現類的產生結果的key,value類型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        
    
        //設置map時,job要處理的數據的路徑,和產生的結果的路徑在哪
        FileInputFormat.setInputPaths(job, new Path("/wordcount/input"));
        //註意輸出路徑一定要不存在
        FileOutputFormat.setOutputPath(job, new Path("/wordcount/output"));  
        
        //設置想要啟動reduce task的數量是多少
        job.setNumReduceTasks(2);
        
        //提交給yarn,等待這個job完成才退出
        boolean res = job.waitForCompletion(true);
        
        System.exit(res?0:-1);
        
    }
    
    

}

 額外知識點:

maven創建報錯說插件下載失敗,右鍵項目

然後 右鍵屬性Maven,Update project

把這個給點上就行了。或者進入到org/apache/maven,把裡面的東西全刪了,讓他自己去下載。

 

在編程時的易錯點:

註意自己寫的路徑file:\為windows,/為linux

註意改完源碼之後,要註意重新生成一個jar包,不然提交到linux里,還是會報錯

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 下麵這個問題反正我是遇到了,也是難為我好幾天,於是我決定發一個教程出來給大家看看!希望能幫助你們 原因: 可能是資料庫的版本與本機裝的驅動不匹配導致的, 解決方案一: 在 url 後面街上一句 因為筆者親自測試 可以解決 解決方案二: 重新安裝驅動可以解決: ...
  • 近年來,隨著大數據技術的發展,企業紛紛意識到大數據的重要性,也被廣泛應用於各行各業。同時,大數據行業前景好、薪資高的優勢,也吸引了眾多對大數據感興趣的學習者,無論是剛畢業的大學生,還是準備轉型尋求新機會的職場人。 ...
  • 學資料庫的人都知道,MySQL資料庫是比較基本的掌握要求,不僅開源而且社區版本是免費使用的。由於工作上或者經常更換系統的原因,有時候會需要安裝MySQL資料庫。為了不至於每次安裝都要查閱資料,現把安裝過程以及出現的問題總結出來: 1.官網下載最新版本MySQL,這裡下載的是解壓版的。MySQL官網鏈 ...
  • 今天遇到了,隨手記錄一下。 sql server 存儲數據裡面 NVARCHAR 記錄中文的時候是 一個中文對應一個字元串長度,記錄英文也是一個字母一個長度 標點符號也是一樣。 VARCHAR 記錄中文的時候一個中文對應兩個字元串長度,記錄英文是一個字母長度,標點符號空格的沒測。 優缺點暫時不列,記 ...
  • Redis部分 ...
  • "Hadoop集群搭建 05安裝配置YARN" "Hadoop集群搭建 04安裝配置HDFS " "Hadoop集群搭建 03編譯安裝hadoop" "Hadoop集群搭建 02安裝配置Zookeeper" "Hadoop集群搭建 01前期準備" 整個搭建hadoop集群的流程,包括 1. 前期準備 ...
  • MySQL部分 ...
  • 對於廣大剛剛接觸“圖數據分析”的用戶而言,一個十分具有迷惑性的問題是:圖資料庫和圖計算系統有什麼區別?今天,我們就從技術層面來簡單地說一說兩者的不同之處。 圖資料庫適合需要對子圖進行併發操作的場景;圖計算系統適合需要對全圖進行迭代式計算的場景。 圖計算系統 我們先從圖計算系統開始。 圖計算系統面向的 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...