java wordcount

来源:https://www.cnblogs.com/kuili/archive/2023/07/07/17535767.html
-Advertisement-
Play Games

# 概述 NumPy是一個開源的科學計算庫,它提供了高效的數值計算和數組操作功能,主要包括: * 多維數組的創建、操作和索引。 * 數組的切片、拼接和轉置。 * 數組的乘法、除法、求導、積分、對數等基本運算。 * 數組的逐元素操作、求平均值、中位數、眾數等統計量。 * 數組作為列表、元組等數據類型進 ...


import com.google.common.base.Splitter;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.api.java.function.VoidFunction;
import scala.Tuple2;
 
import java.util.Arrays;
import java.util.Iterator;
 
public class WordCount {
    public static void main(String[] args) {
        SparkConf sparkConf = new SparkConf().setAppName("WordCount").setMaster("local");
        JavaSparkContext sc = new JavaSparkContext(sparkConf);
        JavaRDD<String> lines = sc.textFile("file:/Users/zhudechao/gitee/bigdata/xzdream_spark/input/a.txt");
        JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() {
 
            @Override
            public Iterator<String> call(String line) throws Exception {
                return Arrays.asList(line.split(" ")).iterator();
            }
        });
 
        JavaPairRDD<String,Integer> pairRDD = words.mapToPair(new PairFunction<String, String, Integer>() {
            @Override
            public Tuple2<String, Integer> call(String word) throws Exception {
                return new Tuple2<String, Integer>(word,1);
            }
        });
 
        JavaPairRDD<String,Integer> wordCounts = pairRDD.reduceByKey(new Function2<Integer, Integer, Integer>() {
            @Override
            public Integer call(Integer v1, Integer v2) throws Exception {
                return v1 + v2;
            }
        });
 
        wordCounts.foreach(new VoidFunction<Tuple2<String, Integer>>() {
            @Override
            public void call(Tuple2<String, Integer> wordcount) throws Exception {
                System.out.println(wordcount._1 + ":"+wordcount._2);
            }
        });
    }
}
package com.huawei.mapreduce.wordcount;

import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCountApp {
    public static class MyMapper extends Mapper<LongWritable, Text, Text, LongWritable>{
        @Override
        protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, LongWritable>.Context context) throws IOException, InterruptedException {
            String line = value.toString();
            String[] splited = line.split("\t");
            for (String word : splited) {
                Text k2 = new Text(word);
                LongWritable v2 = new LongWritable(1);
                context.write(k2, v2);
            }
        }
    }

    public static class MyReducer extends Reducer<Text, LongWritable, Text, LongWritable>{
        @Override
        protected void reduce(Text k2, Iterable<LongWritable> v2s,
                              Reducer<Text, LongWritable, Text, LongWritable>.Context context) throws IOException, InterruptedException {
            long count = 0L;
            for (LongWritable times : v2s) {
                count += times.get();
            }
            LongWritable v3 = new LongWritable(count);
            context.write(k2, v3);
        }
    }

    public static void main(String[] args) throws Exception{
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf , WordCountApp.class.getSimpleName());
        //必須指定
        job.setJarByClass(WordCountApp.class);

        //指定本業務job要使用的Mapper業務類
        job.setMapperClass(MyMapper.class);
        //指定mapper輸出數據的<k2,v2>的類型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(LongWritable.class);

        //指定本業務job要使用的Reducer業務類
        job.setReducerClass(MyReducer.class);
        //指定reducer輸出數據的<k3,v3>的類型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(LongWritable.class);

        //輸入數據來自哪裡
        FileInputFormat.setInputPaths(job, new Path(args[0]));
        //輸出數據寫到哪裡
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        //true表示將運行進度等信息及時輸出給用戶
        boolean res = job.waitForCompletion(true);
        System.exit(res?0:1);
    }
}

 

tar -zxvf jdk-8u341-linux-x64.tar.gz

wget https://hcip-materials.obs.cn-north-4.myhuaweicloud.com/jdk-8u341-linux-x64.tar.gz

scp ~/eclipse-workspace/HDFSAPI/target/HDFSAPI-jar-with-dependencies.jar [email protected]:/root

ssh root@xxx.xxx.xxx.xxx

yarn jar HDFSAPI-jar-with-dependencies.jar com.huawei.hdfs.IsFile
yarn jar HDFSAPI-jar-with-dependencies.jar com.huawei.hdfs.CreateFile1
yarn jar HDFSAPI-jar-with-dependencies.jar com.huawei.hdfs.IsFile
yarn jar HDFSAPI-jar-with-dependencies.jar com.huawei.hdfs.CreateFile1
yarn jar HDFSAPI-jar-with-dependencies.jar com.huawei.hdfs.CreateFile2
yarn jar HDFSAPI-jar-with-dependencies.jar com.huawei.hdfs.ScanFile /user/test/hdfs/file10.txt
yarn jar HDFSAPI-jar-with-dependencies.jar com.huawei.hdfs.ScanFile /user/test/hdfs/file11.txt
yarn jar HDFSAPI-jar-with-dependencies.jar com.huawei.hdfs.DeleteFile /user/test/hdfs/file10.txt
yarn jar HDFSAPI-jar-with-dependencies.jar com.huawei.hdfs.IsFile

yarn jar MRAPI-jar-with-dependencies.jar com.huawei.mapreduce.wordcount.WordCountApp /user/user1/MR_data /user/user1/MR_out

hdfs dfs -mkdir /user/user1
hdfs dfs -put MR_data /user/user1/

hdfs dfs -ls /user/user1/MR_out/
hdfs dfs -cat /user/user1/MR_out/part-r-00000

hdfs dfs -mkdir -p /user/user1/MR/input
hdfs dfs -mkdir -p /user/user1/MR/output

hdfs dfs -put mrsort.txt /user/user1/MR/input
hdfs dfs -ls /user/user1/MR/output
hdfs dfs -cat /user/user1/MR/output/part-r-00000
hdfs dfs -cat /user/user1/MR/output/part-r-00001
hdfs dfs -cat /user/user1/MR/output/part-r-00002

 

  


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 在項目中使用el-dialog中發現不能夠拖拽移動,因此網上找了相關資料,使用自定義指令實現拖拽功能。 1、創建自定義指令: 新建文件directive/el-drag-dialog/index.js import drag from "./drag"; const install = functi ...
  • 一個輕量、可拓展、針對手機網頁的前端開發者調試面板。 vConsole 是框架無關的,可以在 Vue、React 或其他任何框架中使用。 現在 vConsole 是微信小程式的官方調試工具。 ...
  • 當你使用html2canvas對某個節點進行截圖時,項目小dom節點少那還沒什麼性能問題,如果是個大項目,有成百上千個dom節點,那將是非常頭疼的事情(產品經理:小張啊,你這個截圖功能為什麼需要這個長的時間,這讓客戶怎麼用,重新改。小張:********...)。不多bb了,直接開始 html2ca ...
  • 在前端後端開發中,我們通常會使用JavaScript來實現網頁的動態效果和交互功能。 由於JavaScript是一種開放的腳本語言,其代碼可以被輕易地查看和複製,這就給我們的代碼安全帶來了一定的威脅。為了保護我們的代碼不被惡意利用,我們需要對其進行加密和壓縮處理。 一般而言,加密和壓縮是兩個不同的概 ...
  • 這裡給大家分享我在網上總結出來的一些知識,希望對大家有所幫助 遇到的問題 在一個新項目中,設計統一了項目中所有的字體,並提供了字體包。在項目中需要按需引入這些字體包。 首先,字體包的使用分為了以下幾種情況: 無特殊要求的語言使用字體A,阿拉伯語言使用字體B; 加粗、中等、常規、偏細四種樣式,AB兩種 ...
  • 數字化轉型會帶來大量的研發需求,如何更好更快的交付這些需求成為一個突出問題,該怎麼打造一個平臺去解決該問題?能不能用第一性原理思維去推導出發展方向? ...
  • 只要將配置信息存放在與源代碼不同的存儲庫中,將其鎖好,僅對有權訪問的人開放,並且管理員能夠根據過程、程式和執行人等授予或撤銷對相關配置信息的訪問許可權,那麼配置信息也可以存放在版本控制系統中 ...
  • ### 構造器參數 - maxFrameLength:指定解碼器所能處理的數據包的最大長度,超過該長度則拋出 TooLongFrameException 異常; - lengthFieldOffset:指定長度欄位的起始位置; - lengthFieldLength:指定長度欄位的長度:目前支持1( ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...