一個mapreduce同時載入讀取多個文件的代碼部分

来源:http://www.cnblogs.com/le-ping/archive/2017/11/05/7788935.html
-Advertisement-
Play Games

方法一: a.第一步:在job中載入兩個文件所在的位置 FileInputFormat.setInputPaths(job, new Path[] { new Path("hdfs://192.168.9.13:8020/gradeMarking"), new Path("hdfs://192.16 ...


方法一:

 

  a.第一步:在job中載入兩個文件所在的位置

 

         FileInputFormat.setInputPaths(job, new Path[] { new Path("hdfs://192.168.9.13:8020/gradeMarking"),
      new Path("hdfs://192.168.9.13:8020/implyCount") });

 

  b.第二步:在Mapper類中重寫setup方法,使用context對象獲取該文件所在的文件名(如果是經過處理後的數據文件,因為文件名一樣part-r-00000,所以要獲取其所在的文件夾名)
        @Override
    protected void setup(Mapper<Text, Text, Text, Text>.Context context) throws IOException, InterruptedException {
    FileSplit fs = (FileSplit) context.getInputSplit();
    parentName = fs.getPath().getParent().getName();
    }

方法二:

  a.第一步:在job中將文件載入到本地

    job.addCacheFile(new URI("hdfs://192.168.9.13:8020/meanwhileFind(同現)_data/part-r-00000"));
  b.第二步:在Mapper函數中重寫setup函數,用字元緩衝流進行讀取
   

 1 @Override
 2         protected void setup(Mapper<LongWritable, Text, Text, Sort>.Context context)
 3                 throws IOException, InterruptedException {
 4             @SuppressWarnings("resource")
 5             BufferedReader br = new BufferedReader(new FileReader("part-r-00000"));
 6             String str = null;
 7             while ((str = br.readLine()) != null) {
 8                 String[] datas = str.split("\t");
 9                 String[] sp = datas[0].split("-");
10                 if (!map.containsKey(sp[0])) {
11                     HashMap<String, Double> mapInner = new HashMap<>();
12                     mapInner.put(sp[1], Double.parseDouble(datas[1]));
13                     map.put(sp[0], mapInner);
14                 } else {
15                     @SuppressWarnings("rawtypes")
16                     HashMap mapInner = map.get(sp[0]);
17                     mapInner.put(sp[1], Double.parseDouble(datas[1]));
18                 }
19             }
20         }

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Redis的7個應用場景 一:緩存——熱數據 熱點數據(經常會被查詢,但是不經常被修改或者刪除的數據),首選是使用redis緩存,畢竟強大到冒泡的QPS和極強的穩定性不是所有類似工具都有的,而且相比於memcached還提供了豐富的數據類型可以使用,另外,記憶體中的數據也提供了AOF和RDB等持久化機 ...
  • db.getCollection('product').update({status:"offline"},{$set:{status:"online"}},false,true) update更新,把所有status為offline的都改為online,註意加引號 db.collection.up... ...
  • MySQL資料庫的性能的影響分析及其優化 MySQL資料庫的性能的影響 一. 伺服器的硬體的限制 二. 伺服器所使用的操作系統 三. 伺服器的所配置的參數設置不同 四. 資料庫存儲引擎的選擇 五. 資料庫的參數配置的不同 六. (重點)資料庫的結構的設計和SQL語句 1). 伺服器的配置和設置(cp ...
  • 避免自己遺忘,在這裡做個筆記: SET XACT_ABORT ON:強制事務回滾,如果不加這句的話事務有可能回滾失敗。 ...
  • 先看一下Redis是一個什麼東西。官方簡介解釋到:Redis是一個基於BSD開源的項目,是一個把結構化的數據放在記憶體中的一個存儲系統,你可以把它作為資料庫,緩存和消息中間件來使用。同時支持strings,lists,hashes,sets,sorted sets,bitmaps,hyperloglo ...
  • create database test default charset utf8 collate utf8_general_ci; ...
  • 最近在工作中接到了一個需求,要求統計當月以10天為一個周期,每個周期的數據彙總信息。假設有一張表如下: 表table_test中 ID AMOUNT CREATE_DATE 1 50 2017-01-01 2 50 2017-01-09 3 50 2017-01-11 4 50 2017-01-19 ...
  • NoSQL資料庫 1、NoSQL簡介 最初表示“反SQL”運動,用新型的非關係型資料庫取代關係資料庫;現在表示“Not only SQL”關係和非關係型資料庫各有優缺點,彼此都無法互相取代。 通常,NoSQL資料庫具有以下幾個特點: (1)靈活的可擴展性 (2)靈活的數據模型 (3)與雲計算近緊密融 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...