Mapreduce概述和WordCount程式

来源:https://www.cnblogs.com/HelloBigTable/archive/2019/03/24/10586669.html
-Advertisement-
Play Games

一、Mapreduce概述 Mapreduce是分散式程式編程框架,也是分散式計算框架,它簡化了開發! Mapreduce將用戶編寫的業務邏輯代碼和自帶預設組合整合成一個完整的分散式運算程式,併發的運行在hadoop集群上。 二、Mapreduce優缺點 優點:1.易於編程:只用實現幾個介面即可完成 ...


一、Mapreduce概述

  Mapreduce是分散式程式編程框架,也是分散式計算框架,它簡化了開發!

  Mapreduce將用戶編寫的業務邏輯代碼和自帶預設組合整合成一個完整的分散式運算程式,併發的運行在hadoop集群上。

 

二、Mapreduce優缺點

  優點:1.易於編程只用實現幾個介面即可完成一個併發的程式。

     2.良好的拓展性:再不行當前程式運行的情況下,可以通過增加節點來解決用戶/數據擴展,計算量增加的問題。

     3.高容錯性:可以運行在廉價的集群機器上。

     4.適合處理PB級別以上的離線處理。

  缺點:1.不擅長做實時計算、流式計算。

     2.不支持DAG(有向圖)計算,有依賴的程式(spark支持)。

     3.每次把計算結果寫入磁碟當中,造成磁碟io,性能較低。

 

三、Mapreduce編程思想

  需求:統計一個200M的單詞文件,查詢出每個單詞出現的次數。

  思想:1.將200M的文件切分為兩塊,128M和72M;

     2.將兩塊文件分別交給兩個maptask處理,對數據進行讀取,切分,封裝,然後傳輸到reducetask;

     3.reducetask將數據再次整合,累加,輸出到結果文件中。

  註意:mapreduce中的所有maptask都是並行運行的,reducetask也是,

    但是reducetask的運行要依賴maptask的輸出。

 

四、WordCount程式

/**
 * @author: PrincessHug
 * @date: 2019/3/24, 0:52
 * @Blog: https://www.cnblogs.com/HelloBigTable/
 */
public class WordCountMapper extends Mapper<LongWritable, Text,Text, IntWritable> {
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        //讀取數據
        String line = value.toString();

        //切分數據
        String[] fields = line.split(" ");

        //傳輸數據
        for (String f:fields){
            context.write(new Text(f),new IntWritable(1));
        }
    }
}

public class WordCountReducer extends Reducer<Text, IntWritable,Text,IntWritable> {
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        //累加
        int sum = 0;
        for (IntWritable i:values){
            sum += i.get();
        }
        //輸出
        context.write(key,new IntWritable(sum));
    }
}

public class WordCountDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        //配置,job對象
        Configuration conf = new Configuration();
        Job job = Job.getInstance();

        //設置運行類
        job.setJarByClass(WordCountDriver.class);

        //設置Mapper,Reducer類
        job.setMapperClass(WordCountMapper.class);
        job.setReducerClass(WordCountReducer.class);

        //設置Mapper輸出數據類型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);

        //設置Reducer輸出數據類型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        //設置輸入輸出流
        FileInputFormat.setInputPaths(job,new Path("G:\\mapreduce\\wordcount\\in"));
        FileOutputFormat.setOutputPath(job,new Path("G:\\mapreduce\\wordcount\\out"));

        //提交任務
        if (job.waitForCompletion(true)){
            System.out.println("運行完成!");
        }else {
            System.out.println("運行失敗!");
        }

    }

}

  


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 在C#中,可以使用Regex正則表達式類來校驗前臺提交過來的郵箱欄位信息是否符合要求,Regex類是C#中有關正則表達式處理的相關類,功能強大,我們只需要在實例化Regex類的時候指定相應的規則為郵箱的規則即可。 Regex類表示.NET Framework 正則表達式引擎。 它可用於快速分析大量的 ...
  • 用戶在客戶端提交的內容有時候並不可信,如果客戶端提交的內容中含有危險字元串信息,則很有可能造成應用程式安全性問題,如SQL註入風險等。因此在接收客戶端提交過來的數據後,我們首先需要判斷數據中是否含有危險字元信息,如果有則可以提前處理掉,如去除一些SQL註入攻擊的關鍵字等。 校驗的方法封裝如下: 備註 ...
  • 最近在項目上寫的方法,想通過減少訪問數據層,將需要重覆調用的值存入List,無意中碰到的一個巨坑,至今仍不明所以,在此寫出來,一來是看看有沒有同道中人,二來是看看有沒有大牛能解惑。 邏輯如下: 1、從資料庫中獲取AList(yycfList) 2、new一個BLis(_yycfList),將ALis ...
  • LVS負載均衡 負載均衡集群是Load Balance 集群的縮寫,翻譯成中文就是負載均衡集群。常用的負載均衡開源軟體有Nginx、LVS、Haproxy,商業的硬體負載均衡設備有F5、Netscale等。 負載均衡LVS基本介紹 LB集群的架構和原理很簡單,就是當用戶的請求過來時,會直接分發到Di ...
  • centos下源碼安裝python3wget --no-check-certificate https://www.python.org/ftp/python/3.6.2/Python-3.6.2.tgzpython3的環境依賴安裝yum -y install xz tar gcc make tk- ...
  • 事情是這樣的,樓主發現最近自己系統盤空間增長特別快,奈何樓主也是個菜比,一時之間竟然想不到辦法分析磁碟空間的文件占用情況。 經過一番折騰,樓主在百度上翻到一個分析磁碟空間占用情況的工具。 話不多說,有圖為證 很直觀的可以看到,占用磁碟最多的是Windows Defender,整整十多個G,怪不得說最 ...
  • 1 備份原來的更新源 如果提示許可權不夠就輸入下麵兩行,先進入到超級用戶,再備份 2 修改更新源 打開sources.list (這就是存放更新源的文件) 將下麵所有內容複製,粘貼並覆蓋sources.list文件中的所有內容 3 讓更新源生效 sudo apt-get update 4 其他問題 該 ...
  • 一、AIDE的概念 AIDE:Advanced Intrusion Detection Environment,是一款入侵檢測工具,主要用途是檢查文檔的完整性。AIDE在本地構造了一個基準的資料庫,一旦操作系統被入侵,可以通過對比基準資料庫而獲取文件變更記錄,使用aide.conf作為其配置文檔。A ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...