Hadoop 中文編碼相關問題 -- mapreduce程式處理GBK編碼數據並輸出GBK編碼數據

来源:https://www.cnblogs.com/beiyi888/archive/2018/08/30/9558503.html
-Advertisement-
Play Games

Hadoop 中文編碼相關問題 -- mapreduce程式處理GBK編碼數據並輸出GBK編碼數據 Hadoop 中文編碼相關問題 -- mapreduce程式處理GBK編碼數據並輸出GBK編碼數據 Hadoop 中文編碼相關問題 -- mapreduce程式處理GBK編碼數據並輸出GBK編碼數據 ...


Hadoop 中文編碼相關問題 -- mapreduce程式處理GBK編碼數據並輸出GBK編碼數據

 

輸入是GBK文件, 輸出也是 GBK 文件的示例代碼:

 

Hadoop處理GBK文本時,發現輸出出現了亂碼,原來HADOOP在涉及編碼時都是寫死的UTF-8,如果文件編碼格式是其它類型(如GBK),則會出現亂碼。

此時只需在mapper或reducer程式中讀取Text時,使用transformTextToUTF8(text, "GBK");進行一下轉碼,以確保都是以UTF-8的編碼方式在運行。

  

  1. public static Text transformTextToUTF8(Text text, String encoding) {
  2. String value = null;
  3. try {
  4. value = new String(text.getBytes(), 0, text.getLength(), encoding);
  5. } catch (UnsupportedEncodingException e) {
  6. e.printStackTrace();
  7. }
  8. return new Text(value);
  9. }
 

這裡核心代碼是: String line=new String(text.getBytes(),0,text.getLength(),"GBK"); //這裡的value是Text類型

若直接使用 String line=value.toString(); 會輸出亂碼, 這是由Text這個Writable類型造成的。初學時,一直認為和LongWritable對long的封裝一樣,Text類型是String的Writable封裝。但其實Text和String還是有些區別,它是一種UTF-8格式的Writable,而Java中的String是Unicode字元。所以直接使用value.toString()方法,會預設其中的字元都是UTF-8編碼過的,因而原本GBK編碼的數據使用Text讀入後直接使用該方法就會變成亂碼。

 

正確的方法是將輸入的Text類型的value轉換為位元組數組(value.getBytes()),使用String的構造器String(byte[] bytes, int offset, int length, Charset charset),通過使用指定的charset解碼指定的byte子數組,構造一個新的String。

如果需要map/reduce輸出其它編碼格式的數據,需要自己實現OutputFormat,在其中指定編碼方式,而不能使用預設的TextOutputFormat。

具體的範例可以見淘寶數據平臺與產品部官方博客上的博文 http://www.tbdata.org/archives/244 。 

來自:  Hadoop的map/reduce作業輸入非UTF-8編碼數據的處理原理

以下摘自 淘寶數據平臺與產品部官方博客:

 

1 中文問題
    從url中解析出中文,但hadoop中列印出來仍是亂碼?我們曾經以為hadoop是不支持中文的,後來經過查看源代碼,發現hadoop僅僅是不支持以gbk格式輸出中文而己。

    這是TextOutputFormat.class中的代碼,hadoop預設的輸出都是繼承自FileOutputFormat來的,FileOutputFormat的兩個子類一個是基於二進位流的輸出,一個就是基於文本的輸出TextOutputFormat。

    public static class TextOutputFormat<K, V> extends FileOutputFormat<K, V> {
  protected static class LineRecordWriter<K, V>
    implements RecordWriter<K, V> {
    private static final String utf8 = “UTF-8″;//這裡被寫死成了utf-8
    private static final byte[] newline;
    static {
      try {
        newline = “\n”.getBytes(utf8);
      } catch (UnsupportedEncodingException uee) {
        throw new IllegalArgumentException(“can’t find ” + utf8 + ” encoding”);
      }
    }

    public LineRecordWriter(DataOutputStream out, String keyValueSeparator) {
      this.out = out;
      try {
        this.keyValueSeparator = keyValueSeparator.getBytes(utf8);
      } catch (UnsupportedEncodingException uee) {
        throw new IllegalArgumentException(“can’t find ” + utf8 + ” encoding”);
      }
    }

    private void writeObject(Object o) throws IOException {
      if (o instanceof Text) {
        Text to = (Text) o;
        out.write(to.getBytes(), 0, to.getLength());//這裡也需要修改
      } else {
        out.write(o.toString().getBytes(utf8));
      }
    }
 …
}
    可以看出hadoop預設的輸出寫死為utf-8,因此如果decode中文正確,那麼將Linux客戶端的character設為utf-8是可以看到中文的。因為hadoop用utf-8的格式輸出了中文。
    因為大多數資料庫是用gbk來定義欄位的,如果想讓hadoop用gbk格式輸出中文以相容資料庫怎麼辦?
    我們可以定義一個新的類:
    public class GbkOutputFormat<K, V> extends FileOutputFormat<K, V> {
  protected static class LineRecordWriter<K, V>
    implements RecordWriter<K, V> {
    //寫成gbk即可
    private static final String gbk = “gbk”;
    private static final byte[] newline;
    static {
      try {
        newline = “\n”.getBytes(gbk);
      } catch (UnsupportedEncodingException uee) {
        throw new IllegalArgumentException(“can’t find ” + gbk + ” encoding”);
      }
    }

    public LineRecordWriter(DataOutputStream out, String keyValueSeparator) {
      this.out = out;
      try {
        this.keyValueSeparator = keyValueSeparator.getBytes(gbk);
      } catch (UnsupportedEncodingException uee) {
        throw new IllegalArgumentException(“can’t find ” + gbk + ” encoding”);
      }
    }

    private void writeObject(Object o) throws IOException {
      if (o instanceof Text) {
             //  Text to = (Text) o;
             //  out.write(to.getBytes(), 0, to.getLength());
            //  } else {

        out.write(o.toString().getBytes(gbk));
      }
    }
 …
}
    然後在mapreduce代碼中加入conf1.setOutputFormat(GbkOutputFormat.class)
    即可以gbk格式輸出中文。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • App.xaml.cs中的代碼每次都差不多,故特地將其整理出來直接復用: ...
  • 問題: 需要讓程式(以非同步方式)等待一段時間。 解決方案:Task類的靜態函數Delay,返回Task對象 在github開源項目 ,找到Task.cs有關Delay方法的源碼 github地址: "https://github.com/dotnet/coreclr/blob/master/src/ ...
  • 項目中經常使用需要根據搜索條件查詢數據,然後用卡片來展示數據。用卡片展示數據時,界面的寬度發生變化,希望顯示的卡片數量也跟隨變化。WrapPanel雖然也可以實現這個功能,但是將多餘的部分都留在行尾,十分不美觀,最好是能夠將多餘的寬度平分在每個ListBoxItem之間,比較美觀,也符合項目需求。如 ...
  • 公司項目有個需求,UI界面支持動態平均分割界面,想了想便想到用ListBox來實現,用UniformGrid作為ListBox的ItemsPanelTemplate,通過動態改變UniformGrid的Columns屬性,可以動態分割界面。具體實現如下所示: 對應的ViewModel層代碼: 軟體運 ...
  • 1. 概述... 2 2. ServerSuperIO.Core跨平臺開發環境... 2 3. ServerSuperIO.Core特點... 2 4. ServerSuperIO.Core與ServerSuperIO區別... 2 5. 嵌入式應用... 2 6. 上位機應用... 2 7. 雲服 ...
  • 在使用WPF開發的時候就不免會遇到需要兩個視窗間進行傳值操作,當然多視窗間傳值的方法有很多種,本文介紹的是使用委托實現多視窗間的傳值。 在上代碼之前呢,先簡單介紹一下什麼是C#中的委托(如果只想瞭解如何傳值可以略過這部分)在網路上有很多對於委托的介紹和講解,經過我的學習和總結加上了一點我自己的理解, ...
  • 一.數據類型 值類型 引用類型 數組 類(自定義類) 字元串 介面 Object 委托 指針類型 官方給出的說明 在指針類型中的 * 之前指定的類型被稱為“referrent 類型”。 以下任一類型均可為 referrent 類型: 任何整型類型:sbyte、byte、short、ushort、in ...
  • 2018-08-30 直接調用瀏覽器的列印方法 1、列印按鈕 <a href="#" target="_self" onclick="printme()">列印</a> 2、js 2、js //列印 function printme() { $.messager.confirm('確認', '確認打 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...