hadoop WordCount例子詳解。

来源:https://www.cnblogs.com/haima1949/archive/2019/08/31/11439774.html
-Advertisement-
Play Games

[學習筆記] 下載hadoop-2.7.4-src.tar.gz,拷貝hadoop-2.7.4-src.tar.gz中hadoop-mapreduce-project\hadoop-mapreduce-examples\src\main\java\org\apache\hadoop\examples ...


[學習筆記]

下載hadoop-2.7.4-src.tar.gz,拷貝hadoop-2.7.4-src.tar.gz中hadoop-mapreduce-project\hadoop-mapreduce-examples\src\main\java\org\apache\hadoop\examples下的WordCount.java文件中的內容到新創建的WordCount空類中。此處附上:

package com;
import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

public class WordCount {
/*下麵的話是我講靜態內部類時的話:馬克-to-win:這裡的內部類的static,意思是它可以不用實例化外部類,就自己單獨被實例化,單獨存在(有點像生活中的辦公室和辦公桌(獨立於辦公室,辦公桌也可以存在)),靜態方法不就不用實例化類,直接用嗎?就實例化而言,靜態內部類和外層類之間完全沒有任何關係,相互獨立。誰愛怎麼樣,就怎麼樣!誰想實例化誰就實例化, 不管對方的感受。當然要想讓它們有關係,也可以,見下麵例子中的tc.core=nc;*/
    public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable> {
        private final static IntWritable one = new IntWritable(1);
        private Text word = new Text();
org.apache.hadoop.mapreduce.Mapper.Context,java.lang.InterruptedException,想看map的源代碼,按control,點擊,出現Attach Source Code,點擊External Location/External File,找到源代碼,就在Source目錄下,,D:\hadoop-2.7.4\src
 其中key為此行的開頭相對於文件的起始位置,value就是此行的字元文本

文章轉載自原文:https://blog.csdn.net/qq_44594249/article/details/95863084


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 在使用mingw64的過程中,需要手工添加環境變數,作為一個懶人,這怎麼可以呢?於是想用命令的方式實現,結果遇到問題了,死活實現不了, 之前用過TDM-GCC,人家的安裝完就可以用,還有試用過rust,人家在安裝程式中已經明確告訴了會在註冊表添加修改路徑(HKEY_CURRENT_USER\Envi ...
  • samba,用於網路文件共用,類似於nfs,samba多用於win和linux之間linux之間多用nfsc/s架構smb協議samba主要是兩個服務,核心啟動服務SMB,監聽139TCP埠,NMB服務類似DSN功能,如果不啟,只能以ip來訪問,監聽137 138UDP埠使用yum -y ins... ...
  • RDMA (Remote Direct Memory Access) 全稱為 遠程直接記憶體訪問 其出現的目的:為瞭解決網路傳輸中服務端數據處理的延遲而產生的。其將數據直接從一臺電腦的記憶體傳輸到另一臺電腦,無需雙方操作系統的介入。這允許高吞吐、低延遲的網路通信,尤其適合在大規模並行電腦集群中使用 ...
  • 進入Windows系統控制面板-->外觀和個性化-->字體(選擇一個字體文件simsun.ttc複製)進入zabbix的web伺服器[root@test-zabbix]# cd ~/zabbix/assets/fonts/上傳文件simsun.ttc至該目錄[root@test-zabbix]# m ...
  • 1.在Windows系統中的C盤,新建一個zabbix目錄C:/zabbix2.先下載zabbix-agent的安裝包https://assets.zabbix.com/downloads/4.0.10/zabbix_agents-4.0.10-win-amd64.zip3.解壓zabbix_age ...
  • 最近心血來潮想給自己的筆記本裝一套linux系統作為開發環境, 說乾就乾,首先先收集一下現在linux主流版本, 貌似現在市場上應用伺服器比較多的是redhat相關產品,而ubuntu的優勢在於它龐大的社區支持用戶群體, 個人任務兩個都差不多,至於選擇哪個看個人興趣。 我選擇的是RedHat旗下Ce ...
  • 信號量 一、 1、信號量的數據類型為結構sem_t,它本質上是一個長整型的數。 2、例如: typedef struct { struct _pthread_fastlock __sem_lock; int __sem_value; _pthread_descr __sem_waiting; } s ...
  • [TOC] mysql資料庫 資料庫是什麼 存儲數的的倉庫 列表,字典....等等,都是記憶體中的,其缺點:斷點即消失, 優點:速度快 文件存儲, 缺點: 速度慢, 優點: 可以實現永久保存 本質就是一套基於CS結構的,客戶端和服務端程式,最終的數據存儲在伺服器端的磁碟中 為什麼要使用資料庫 直接使用 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...