Mapreduce概述和WordCount程式_ZenDei技術網路在線

Mapreduce概述和WordCount程式

-Advertisement-

一、Mapreduce概述 Mapreduce是分散式程式編程框架，也是分散式計算框架，它簡化了開發！ Mapreduce將用戶編寫的業務邏輯代碼和自帶預設組合整合成一個完整的分散式運算程式，併發的運行在hadoop集群上。二、Mapreduce優缺點優點：1.易於編程：只用實現幾個介面即可完成 ...

一、Mapreduce概述

　　Mapreduce是分散式程式編程框架，也是分散式計算框架，它簡化了開發！

　　Mapreduce將用戶編寫的業務邏輯代碼和自帶預設組合整合成一個完整的分散式運算程式，併發的運行在hadoop集群上。

二、Mapreduce優缺點

　　優點：1.易於編程：只用實現幾個介面即可完成一個併發的程式。

　　　　　2.良好的拓展性：再不行當前程式運行的情況下，可以通過增加節點來解決用戶/數據擴展，計算量增加的問題。

　　　　　3.高容錯性：可以運行在廉價的集群機器上。

　　　　　4.適合處理PB級別以上的離線處理。

　　缺點：1.不擅長做實時計算、流式計算。

　　　　　2.不支持DAG(有向圖)計算，有依賴的程式(spark支持)。

　　　　　3.每次把計算結果寫入磁碟當中，造成磁碟io，性能較低。

三、Mapreduce編程思想

　　需求：統計一個200M的單詞文件，查詢出每個單詞出現的次數。

　　思想：1.將200M的文件切分為兩塊，128M和72M；

　　　　　2.將兩塊文件分別交給兩個maptask處理，對數據進行讀取，切分，封裝，然後傳輸到reducetask；

　　　　　3.reducetask將數據再次整合，累加，輸出到結果文件中。

　　註意：mapreduce中的所有maptask都是並行運行的，reducetask也是，

　　　　但是reducetask的運行要依賴maptask的輸出。

四、WordCount程式

/**
 * @author: PrincessHug
 * @date: 2019/3/24, 0:52
 * @Blog: https://www.cnblogs.com/HelloBigTable/
 */
public class WordCountMapper extends Mapper<LongWritable, Text,Text, IntWritable> {
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        //讀取數據
        String line = value.toString();

        //切分數據
        String[] fields = line.split(" ");

        //傳輸數據
        for (String f:fields){
            context.write(new Text(f),new IntWritable(1));
        }
    }
}

public class WordCountReducer extends Reducer<Text, IntWritable,Text,IntWritable> {
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        //累加
        int sum = 0;
        for (IntWritable i:values){
            sum += i.get();
        }
        //輸出
        context.write(key,new IntWritable(sum));
    }
}

public class WordCountDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        //配置，job對象
        Configuration conf = new Configuration();
        Job job = Job.getInstance();

        //設置運行類
        job.setJarByClass(WordCountDriver.class);

        //設置Mapper，Reducer類
        job.setMapperClass(WordCountMapper.class);
        job.setReducerClass(WordCountReducer.class);

        //設置Mapper輸出數據類型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);

        //設置Reducer輸出數據類型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        //設置輸入輸出流
        FileInputFormat.setInputPaths(job,new Path("G:\\mapreduce\\wordcount\\in"));
        FileOutputFormat.setOutputPath(job,new Path("G:\\mapreduce\\wordcount\\out"));

        //提交任務
        if (job.waitForCompletion(true)){
            System.out.println("運行完成！");
        }else {
            System.out.println("運行失敗！");
        }

    }

}

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

【轉載】C#使用正則表達式校驗郵箱

在C#中，可以使用Regex正則表達式類來校驗前臺提交過來的郵箱欄位信息是否符合要求，Regex類是C#中有關正則表達式處理的相關類，功能強大，我們只需要在實例化Regex類的時候指定相應的規則為郵箱的規則即可。 Regex類表示.NET Framework 正則表達式引擎。它可用於快速分析大量的 ...
【轉載】C#檢測客戶端輸入的內容是否含有危險字元串

用戶在客戶端提交的內容有時候並不可信，如果客戶端提交的內容中含有危險字元串信息，則很有可能造成應用程式安全性問題，如SQL註入風險等。因此在接收客戶端提交過來的數據後，我們首先需要判斷數據中是否含有危險字元信息，如果有則可以提前處理掉，如去除一些SQL註入攻擊的關鍵字等。校驗的方法封裝如下：備註 ...
c# List使用中遇到的問題

最近在項目上寫的方法，想通過減少訪問數據層，將需要重覆調用的值存入List，無意中碰到的一個巨坑，至今仍不明所以，在此寫出來，一來是看看有沒有同道中人，二來是看看有沒有大牛能解惑。邏輯如下： 1、從資料庫中獲取AList(yycfList) 2、new一個BLis(_yycfList)，將ALis ...
Linux-負載均衡LVS

LVS負載均衡負載均衡集群是Load Balance 集群的縮寫，翻譯成中文就是負載均衡集群。常用的負載均衡開源軟體有Nginx、LVS、Haproxy，商業的硬體負載均衡設備有F5、Netscale等。負載均衡LVS基本介紹 LB集群的架構和原理很簡單，就是當用戶的請求過來時，會直接分發到Di ...
linux下的學習之路下的小困難

centos下源碼安裝python3wget --no-check-certificate https://www.python.org/ftp/python/3.6.2/Python-3.6.2.tgzpython3的環境依賴安裝yum -y install xz tar gcc make tk- ...
磁碟空間分析小計

事情是這樣的，樓主發現最近自己系統盤空間增長特別快，奈何樓主也是個菜比，一時之間竟然想不到辦法分析磁碟空間的文件占用情況。經過一番折騰，樓主在百度上翻到一個分析磁碟空間占用情況的工具。話不多說，有圖為證很直觀的可以看到，占用磁碟最多的是Windows Defender,整整十多個G，怪不得說最 ...
Ubuntu 16.04LTS 更新清華源

1 備份原來的更新源如果提示許可權不夠就輸入下麵兩行，先進入到超級用戶，再備份 2 修改更新源打開sources.list (這就是存放更新源的文件) 將下麵所有內容複製，粘貼並覆蓋sources.list文件中的所有內容 3 讓更新源生效 sudo apt-get update 4 其他問題該 ...
Linux AIDE(文件完整性檢測)

一、AIDE的概念 AIDE：Advanced Intrusion Detection Environment，是一款入侵檢測工具，主要用途是檢查文檔的完整性。AIDE在本地構造了一個基準的資料庫，一旦操作系統被入侵，可以通過對比基準資料庫而獲取文件變更記錄，使用aide.conf作為其配置文檔。A ...