學習筆記—MapReduce

来源:https://www.cnblogs.com/KeepInUp/archive/2018/12/07/10085966.html
-Advertisement-
Play Games

MapReduce是什麼 MapReduce是一種分散式計算編程框架,是Hadoop主要組成部分之一,可以讓用戶專註於編寫核心邏輯代碼,最後以高可靠、高容錯的方式在大型集群上並行處理大量數據。 MapReduce的存儲 MapReduce的數據是存儲在HDFS上的,HDFS也是Hadoop的主要組成 ...


MapReduce是什麼

MapReduce是一種分散式計算編程框架,是Hadoop主要組成部分之一,可以讓用戶專註於編寫核心邏輯代碼,最後以高可靠、高容錯的方式在大型集群上並行處理大量數據。

MapReduce的存儲

MapReduce的數據是存儲在HDFS上的,HDFS也是Hadoop的主要組成部分之一。下邊是MapReduce在HDFS上的存儲的圖解

HDFS Architecture

HDFS主要有Namenode和Datanode兩部分組成,整個集群有一個Namenode和多個DataNode,通常每一個節點一個DataNode,Namenode的主要功能是用來管理客戶端client對數據文件的操作請求和儲存數據文件的地址。DataNode主要是用來儲存和管理本節點的數據文件。節點內部數據文件被分為一個或多個block塊(block預設大小原來是64MB,後來變為128MB),然後這些塊儲存在一組DataNode中。(這裡不對HDFS做過多的介紹,後續會寫一篇詳細的HDFS筆記)

MapReduce的運行流程

屏幕快照 2018-12-05 下午10.43.38

屏幕快照 2018-12-05 下午10.56.38

1、首先把需要處理的數據文件上傳到HDFS上,然後這些數據會被分為好多個小的分片,然後每個分片對應一個map任務,推薦情況下分片的大小等於block塊的大小。然後map的計算結果會暫存到一個記憶體緩衝區內,該緩衝區預設為100M,等緩存的數據達到一個閾值的時候,預設情況下是80%,然後會在磁碟創建一個文件,開始向文件裡邊寫入數據。

2、map任務的輸入數據的格式是<key,value>對的形式,我們也可以自定義自己的<key,value>類型。然後map在往記憶體緩衝區里寫入數據的時候會根據key進行排序,同樣溢寫到磁碟的文件里的數據也是排好序的,最後map任務結束的時候可能會產生多個數據文件,然後把這些數據文件再根據歸併排序合併成一個大的文件。

3、然後每個分片都會經過map任務後產生一個排好序的文件,同樣文件的格式也是<key,value>對的形式,然後通過對key進行hash的方式把數據分配到不同的reduce裡邊去,這樣對每個分片的數據進行hash,再把每個分片分配過來的數據進行合併,合併過程中也是不斷進行排序的。最後數據經過reduce任務的處理就產生了最後的輸出。

4、在我們開發中只需要對中間map和reduce的邏輯進行開發就可以了,中間分片,排序,合併,分配都有MapReduce框架幫我完成了。

MapReduce的資源調度系統

最後我們來看一下MapReduce的資源調度系統Yarn。

MapReduce NextGen架构

Yarn的基本思想是將資源管理和作業調度/監視的功能分解為單獨的守護進程。全局唯一的ResourceManager是負責所有應用程式之間的資源的調度和分配,每個程式有一個ApplicationMaster,ApplicationMaster實際上是一個特定於框架的庫,其任務是協調來自ResourceManager的資源,並與NodeManager一起執行和監視任務。NodeManager是每台機器框架代理,監視其資源使用情況(CPU,記憶體,磁碟,網路)並將其報告給ResourceManager。

WordConut代碼

  • python實現

map.py

#!/usr/bin/env python
# -*- coding:UTF-8 -*-
import sys

for line in sys.stdin:
    words = line.strip().split()
    for word in words:
        print('%s\t%s' % (word, 1))

reduce.py

#!/usr/bin/env python
# -*- coding:UTF-8 -*-
import sys

current_word = None
sum = 0

for line in sys.stdin:
    word, count = line.strip().split(' ')

    if current_word == None:
        current_word = word

    if word != current_word:
        print('%s\t%s' % (current_word, sum))
        current_word = word
        sum = 0

    sum += int(count)

print('%s\t%s' % (current_word, sum))

我們先把輸入文件上傳到HDFS上去

hadoop fs -put /input.txt /

​ 然後在Linux下運行,為了方便我們把命令寫成了shell文件

HADOOP_CMD="/usr/local/src/hadoop-2.6.1/bin/hadoop"
STREAM_JAR_PATH="/usr/local/src/hadoop-2.6.1/share/hadoop/tools/lib/hadoop-streaming-2.6.1.jar"

INPUT_FILE_PATH="/input.txt"
OUTPUT_FILE_PATH="/output"

$HADOOP_CMD fs -rmr -skipTrush $OUTPUT_FILE_PATH

$HADOOP_CMD jar $STREAM_JAR_PATH \
    -input $INPUT_FILE_PATH \
    -output $OUTPUT_FILE_PATH \
    -mapper "python map.py" \
    -reducer "python reduce.py" \
    -file "./map.py" \
    -file "./reduce.py" 
  • java實現

MyMap.java

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class MyMap extends Mapper<LongWritable, Text, Text, IntWritable> {

    private IntWritable one = new IntWritable(1);
    private Text text = new Text();

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String line = value.toString();
        String[] words = line.split(" ");

        for (String word: words){
            text.set(word);
            context.write(text,one);
        }
    }
}

MyReduce.java

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class MyReduce extends Reducer<Text, IntWritable, Text, IntWritable> {
    private IntWritable result = new IntWritable();
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        int sum = 0;
        for (IntWritable i:values){
            sum+=i.get();
        }
        result.set(sum);
        context.write(key,result);
    }
}

WordCount.java

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;


public class WordCount {
    public static void main(String[] args) throws Exception {
        Configuration configuration = new Configuration();
        Job job = Job.getInstance(configuration, "WordCount");
        job.setJarByClass(WordCount.class);
        job.setMapperClass(MyMap.class);
        job.setReducerClass(MyReduce.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

把工程打成jar包,然後把jar包和輸入文件上傳到HDfs

$ hadoop fs -put /wordcount.jar /
$ hadoop fs -put /input.txt /

執行wordcount任務

$ bin/hadoop jar wordcount.jar WordCount /input.txt /user/joe/wordcount/output

歡迎關註公眾號:「努力給自己看」

掃碼


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 安裝某virtual無法written,某博主指引替換system32下的uxtheme.dll重啟即可。照做後重啟…桌面沒了,只能看見堅強的某鳥壁紙。無奈,重啟,採用最近一次的正確配置等…無果;求助各路大牛:“系統文件都敢替換,hhhh……”,無語,問度娘:如果安全模式跟恢復正確配置都不行就重裝系 ...
  • 摘要 網上一些激活工具可能捆綁了木馬、病毒。使用激活工具有風險。使用線上KMS來激活系統則沒有這個風險。(自測至發佈日期仍然可用) (有能力的請支持正版windows系統) 將kms伺服器地址設置為kms.03k.org(線上可用的KMS伺服器都可以) 已管理員身份運行CMD輸入命令:slmgr / ...
  • awk 命令詳解 awk 是一種編程語言,用於在linux/nuix下對文本和數據進行處理。數據可以來自標準輸入、一個或多個文件,或其它命令的輸出。它支持用戶自定義函數和動態正則表達式等先進功能,是linux/unix下的一個強大的編程工具。它在命令行中使用,但更多是作為腳本來使用。 awk 的處理 ...
  • 背景 隨著博客越寫越多,難免會遇到需要插入圖片來說明的情況。 圖床選擇 首先調研了市面上的圖床服務,本著穩定長期的目標,過濾掉了打一槍換一個地方的野雞小網站,剩餘比較靠譜的優缺點如下。 |圖床|優點|缺點| | | | | |騰訊雲|免費 無需功能變數名稱|未來可能會收費| |七牛|免費|需要功能變數名稱和備案| ...
  • Zabbix trigger是zabbix 進行告警通知的設定條件 ,當監控獲取的值觸發了設定的條件時,會按照觸發器的設定,執行相應的action 操作 。在zabbix中為了比較方便的設定各種條件,zabbix為我們設計了相應的函數和操作符 。 一、創建觸發器觸發器可以是和模板關聯的,也可以是和主 ...
  • 一 註冊賬號和申請 1 Digital Ocean網址https://cloud.digitalocean.com,可直接通過郵箱註冊,會向郵箱發送驗證碼。在註冊後必須先充值5美元才可以使用,充值時可選擇paypal或者信用卡支付。 2 關於優惠。如果直接點擊官網鏈接註冊是沒有優惠的。如果你是在校大 ...
  • top命令是Linux下常用的性能分析工具,能夠實時顯示系統中各個進程的資源占用狀況,類似於Windows的任務管理器。下麵詳細介紹它的使用方法。top是一個動態顯示過程,即可以通過用戶按鍵來不斷刷新當前狀態.如果在前臺執行該命令,它將獨占前臺,直到用戶終止該程式為止.比較準確的說,top命令提供了 ...
  • 需求:外部人員需要對公司伺服器上某個文件夾內容進行讀寫操作 文件目錄信息:/opt/abc drwxr-xr-x 9 www www 4096 12月 4 13:02 abc #註意最初abc的www用戶組沒有寫許可權 為了後面的ftp用戶能夠對此文件具備寫操作,需要添加www用戶組的寫許可權: chm ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...