Hadoop 中文編碼相關問題 -- mapreduce程式處理GBK編碼數據並輸出GBK編碼數據

-Advertisement-

Hadoop 中文編碼相關問題 -- mapreduce程式處理GBK編碼數據並輸出GBK編碼數據 Hadoop 中文編碼相關問題 -- mapreduce程式處理GBK編碼數據並輸出GBK編碼數據 Hadoop 中文編碼相關問題 -- mapreduce程式處理GBK編碼數據並輸出GBK編碼數據 ...

Hadoop 中文編碼相關問題 -- mapreduce程式處理GBK編碼數據並輸出GBK編碼數據

輸入是GBK文件, 輸出也是 GBK 文件的示例代碼:

Hadoop處理GBK文本時,發現輸出出現了亂碼,原來HADOOP在涉及編碼時都是寫死的UTF-8，如果文件編碼格式是其它類型（如GBK)，則會出現亂碼。

此時只需在mapper或reducer程式中讀取Text時，使用transformTextToUTF8(text, "GBK");進行一下轉碼，以確保都是以UTF-8的編碼方式在運行。

public static Text transformTextToUTF8(Text text, String encoding) {
String value = null;
try {
value = new String(text.getBytes(), 0, text.getLength(), encoding);
} catch (UnsupportedEncodingException e) {
e.printStackTrace();
}
return new Text(value);
}

這裡核心代碼是: String line=new String(text.getBytes(),0,text.getLength(),"GBK"); //這裡的value是Text類型

若直接使用 String line=value.toString(); 會輸出亂碼, 這是由Text這個Writable類型造成的。初學時，一直認為和LongWritable對long的封裝一樣，Text類型是String的Writable封裝。但其實Text和String還是有些區別，它是一種UTF-8格式的Writable，而Java中的String是Unicode字元。所以直接使用value.toString()方法，會預設其中的字元都是UTF-8編碼過的，因而原本GBK編碼的數據使用Text讀入後直接使用該方法就會變成亂碼。

正確的方法是將輸入的Text類型的value轉換為位元組數組（value.getBytes()），使用String的構造器String(byte[] bytes, int offset, int length, Charset charset)，通過使用指定的charset解碼指定的byte子數組，構造一個新的String。

如果需要map/reduce輸出其它編碼格式的數據，需要自己實現OutputFormat，在其中指定編碼方式，而不能使用預設的TextOutputFormat。

具體的範例可以見淘寶數據平臺與產品部官方博客上的博文 http://www.tbdata.org/archives/244 。

來自： Hadoop的map/reduce作業輸入非UTF-8編碼數據的處理原理

以下摘自淘寶數據平臺與產品部官方博客：

1 中文問題
從url中解析出中文,但hadoop中列印出來仍是亂碼?我們曾經以為hadoop是不支持中文的，後來經過查看源代碼，發現hadoop僅僅是不支持以gbk格式輸出中文而己。

這是TextOutputFormat.class中的代碼，hadoop預設的輸出都是繼承自FileOutputFormat來的，FileOutputFormat的兩個子類一個是基於二進位流的輸出，一個就是基於文本的輸出TextOutputFormat。

    public static class TextOutputFormat<K, V> extends FileOutputFormat<K, V> {
protected static class LineRecordWriter<K, V>
    implements RecordWriter<K, V> {
    private static final String utf8 = “UTF-8″;//這裡被寫死成了utf-8
    private static final byte[] newline;
    static {
      try {
        newline = “\n”.getBytes(utf8);
      } catch (UnsupportedEncodingException uee) {
        throw new IllegalArgumentException(“can’t find ” + utf8 + ” encoding”);
      }
    }
…
    public LineRecordWriter(DataOutputStream out, String keyValueSeparator) {
      this.out = out;
      try {
        this.keyValueSeparator = keyValueSeparator.getBytes(utf8);
      } catch (UnsupportedEncodingException uee) {
        throw new IllegalArgumentException(“can’t find ” + utf8 + ” encoding”);
      }
    }
…
    private void writeObject(Object o) throws IOException {
      if (o instanceof Text) {
        Text to = (Text) o;
        out.write(to.getBytes(), 0, to.getLength());//這裡也需要修改
      } else {
        out.write(o.toString().getBytes(utf8));
      }
    }
…
}
    可以看出hadoop預設的輸出寫死為utf-8，因此如果decode中文正確，那麼將Linux客戶端的character設為utf-8是可以看到中文的。因為hadoop用utf-8的格式輸出了中文。
    因為大多數資料庫是用gbk來定義欄位的，如果想讓hadoop用gbk格式輸出中文以相容資料庫怎麼辦？
    我們可以定義一個新的類：
    public class GbkOutputFormat<K, V> extends FileOutputFormat<K, V> {
protected static class LineRecordWriter<K, V>
    implements RecordWriter<K, V> {
//寫成gbk即可
    private static final String gbk = “gbk”;
    private static final byte[] newline;
    static {
      try {
        newline = “\n”.getBytes(gbk);
      } catch (UnsupportedEncodingException uee) {
        throw new IllegalArgumentException(“can’t find ” + gbk + ” encoding”);
      }
    }
…
    public LineRecordWriter(DataOutputStream out, String keyValueSeparator) {
      this.out = out;
      try {
        this.keyValueSeparator = keyValueSeparator.getBytes(gbk);
      } catch (UnsupportedEncodingException uee) {
        throw new IllegalArgumentException(“can’t find ” + gbk + ” encoding”);
      }
    }
…
    private void writeObject(Object o) throws IOException {
      if (o instanceof Text) {
// Text to = (Text) o;
// out.write(to.getBytes(), 0, to.getLength());
// } else {

        out.write(o.toString().getBytes(gbk));
      }
    }
…
}
    然後在mapreduce代碼中加入conf1.setOutputFormat(GbkOutputFormat.class)
    即可以gbk格式輸出中文。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

WPF App.xaml.cs常用模板，包括：異常捕獲，App只能啟動一次

App.xaml.cs中的代碼每次都差不多，故特地將其整理出來直接復用： ...
《C#併發編程經典實例》學習筆記—2.1 暫停一段時間

問題：需要讓程式（以非同步方式）等待一段時間。解決方案：Task類的靜態函數Delay，返回Task對象在github開源項目，找到Task.cs有關Delay方法的源碼 github地址： "https://github.com/dotnet/coreclr/blob/master/src/ ...
WPF ListBox的進階使用（二）

項目中經常使用需要根據搜索條件查詢數據，然後用卡片來展示數據。用卡片展示數據時，界面的寬度發生變化，希望顯示的卡片數量也跟隨變化。WrapPanel雖然也可以實現這個功能，但是將多餘的部分都留在行尾，十分不美觀，最好是能夠將多餘的寬度平分在每個ListBoxItem之間，比較美觀，也符合項目需求。如 ...
WPF ListBox的進階使用（一）

公司項目有個需求，UI界面支持動態平均分割界面，想了想便想到用ListBox來實現，用UniformGrid作為ListBox的ItemsPanelTemplate，通過動態改變UniformGrid的Columns屬性，可以動態分割界面。具體實現如下所示：對應的ViewModel層代碼：軟體運 ...
物聯網框架ServerSuperIO.Core（.netcore）跨平臺，一套設備驅動通吃嵌入式、上位機、雲服務

1. 概述... 2 2. ServerSuperIO.Core跨平臺開發環境... 2 3. ServerSuperIO.Core特點... 2 4. ServerSuperIO.Core與ServerSuperIO區別... 2 5. 嵌入式應用... 2 6. 上位機應用... 2 7. 雲服 ...
C# WPF 通過委托實現多視窗間的傳值

在使用WPF開發的時候就不免會遇到需要兩個視窗間進行傳值操作，當然多視窗間傳值的方法有很多種，本文介紹的是使用委托實現多視窗間的傳值。在上代碼之前呢，先簡單介紹一下什麼是C#中的委托（如果只想瞭解如何傳值可以略過這部分）在網路上有很多對於委托的介紹和講解，經過我的學習和總結加上了一點我自己的理解， ...
C#數據類型及差異(複習專用)

一.數據類型值類型引用類型數組類（自定義類）字元串介面 Object 委托指針類型官方給出的說明在指針類型中的 * 之前指定的類型被稱為“referrent 類型”。以下任一類型均可為 referrent 類型：任何整型類型：sbyte、byte、short、ushort、in ...
調用瀏覽器的列印方法列印頁面內容

2018-08-30 直接調用瀏覽器的列印方法 1、列印按鈕 <a href="#" target="_self" onclick="printme()">列印</a> 2、js 2、js //列印 function printme() { $.messager.confirm('確認', '確認打 ...