使用bulkload向hbase中批量寫入數據

来源:http://www.cnblogs.com/learn21cn/archive/2016/12/10/6158523.html
-Advertisement-
Play Games

1、數據樣式 寫入之前,需要整理以下數據的格式,之後將數據保存到hdfs中,本例使用的樣式如下(用tab分開): 2、代碼 假設要將以上樣式的數據寫入到hbase中,列族為cf,列名為colb,可以使用下麵的代碼(參考) 這段代碼使用mapreduce程式對數據做了進一步處理,之後調用相關的api將 ...


1、數據樣式

寫入之前,需要整理以下數據的格式,之後將數據保存到hdfs中,本例使用的樣式如下(用tab分開):

row1	N
row2	M
row3	B
row4	V
row5	N
row6	M
row7	B

2、代碼

假設要將以上樣式的數據寫入到hbase中,列族為cf,列名為colb,可以使用下麵的代碼(參考)

 1 package com.testdata;
 2 
 3 import java.io.IOException;
 4 import org.apache.hadoop.conf.Configuration;
 5 import org.apache.hadoop.fs.Path;
 6 import org.apache.hadoop.hbase.HBaseConfiguration;
 7 import org.apache.hadoop.hbase.client.HTable;
 8 import org.apache.hadoop.hbase.client.Put;
 9 import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
10 import org.apache.hadoop.hbase.mapreduce.HFileOutputFormat2;
11 import org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles;
12 import org.apache.hadoop.hbase.mapreduce.PutSortReducer;
13 import org.apache.hadoop.hbase.util.Bytes;
14 import org.apache.hadoop.io.Text;
15 import org.apache.hadoop.mapreduce.Job;
16 import org.apache.hadoop.mapreduce.Mapper;
17 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
18 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
19 
20 public class TestBulkLoad {
21     
22     public static class LoadMapper extends Mapper<Object,Text,ImmutableBytesWritable,Put>{
23         
24         @Override
25         protected void map(Object key, Text value, Context context)
26                 throws IOException, InterruptedException {
27             String[] values = value.toString().split("\t");
28             if(values.length ==2 ){
29                 byte[] rowkey = Bytes.toBytes(values[0]);
30                 byte[] col_value = Bytes.toBytes(values[1]);
31                 byte[] familly = Bytes.toBytes("cf");
32                 byte[] column = Bytes.toBytes("colb");
33                 ImmutableBytesWritable rowkeyWritable = new ImmutableBytesWritable(rowkey);
34                 Put testput = new Put(rowkey);
35                 testput.add(familly,column,col_value);
36                 context.write(rowkeyWritable, testput);    
37             }        
38             
39         }
40     }
41     public static void main(String[] args) throws Exception {
42         if(args.length !=4 ){
43             System.exit(0);
44         }
45         
46         String in = args[0];
47         String out = args[1];
48         int unitmb =Integer.valueOf(args[2]);                
49         String tbname = args[3];
50         
51         Configuration conf = new Configuration();                
52         conf.set("mapreduce.input.fileinputformat.split.maxsize", String.valueOf(unitmb * 1024 * 1024));
53         conf.set("mapred.min.split.size", String.valueOf(unitmb * 1024 * 1024));
54         conf.set("mapreduce.input.fileinputformat.split.minsize.per.node", String.valueOf(unitmb * 1024 * 1024));
55         conf.set("mapreduce.input.fileinputformat.split.minsize.per.rack", String.valueOf(unitmb * 1024 * 1024));
56                 
57         Job job = new Job(conf);        
58         FileInputFormat.addInputPath(job, new Path(in));
59         FileOutputFormat.setOutputPath(job, new Path(out));            
60         job.setMapperClass(LoadMapper.class); 
61         job.setReducerClass(PutSortReducer.class);     
62         job.setOutputFormatClass(HFileOutputFormat2.class);
63         job.setMapOutputKeyClass(ImmutableBytesWritable.class);
64         job.setMapOutputValueClass(Put.class);        
65         job.setJarByClass(TestBulkLoad.class);
66         
67         Configuration hbaseconf = HBaseConfiguration.create();
68         HTable table = new HTable(hbaseconf,tbname);
69         HFileOutputFormat2.configureIncrementalLoad(job, table);     
70         
71         job.waitForCompletion(true);   
72         LoadIncrementalHFiles loader = new LoadIncrementalHFiles(hbaseconf);
73         loader.doBulkLoad(new Path(out), table);
74 
75     }
76 
77 }

這段代碼使用mapreduce程式對數據做了進一步處理,之後調用相關的api將數據寫入hbase中。PutSortReducer是一個自帶的reducer類,不需要再進行編寫。

3、執行

數據保存在TEXT文件中,上面代碼導出的jar包為bulkload,hbase的數據表名稱為testdata,註意,先指定以下HADOOP_CLASSPATH,避免出錯。

1 export HADOOP_CLASSPATH=$HBASE_HOME/lib/*:$HADOOP_CLASSPATH
2 hadoop jar ./Downloads/bulkload.jar com.testdata.TestBulkLoad Test hbasedata 64 testdata

4、結果

 ,


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • layer至今仍作為layui的代表作,她的受眾廣泛並非偶然,而是這五年多的堅持,不斷完善和維護、不斷建設和提升社區服務,使得猿們紛紛自發傳播,乃至於成為今天的Layui最強勁的源動力。目前,layer已成為國內最多人使用的web彈層組件,GitHub自然Stars3000+,官網累計下載量達20w ...
  • OS Node.js提供了一些基本的底層操作系統的模塊 "OS" . API ...
  • 關於調試 當我們只專註於前端的時候,我們習慣性F12,這會給我們帶來安全與舒心的感覺。 但是當我們使用NodeJs來開發後臺的時候,我想噩夢來了。 但是也別泰國擔心,NodeJs的調試是很不方便!這是肯定的。 但是還好,我們有 "node inspector" 來幫助我們解決一部分的調試問題,但是對 ...
  • 秋招也算是正式結束了,現在整理一下筆記,當作鞏固一下知識,也希望這個對大家有幫助 http 緩存 和 cdn 緩存可以說是面試必問的問題,竟然是必問的問題,那就總結全面一點~ http緩存機制 秋招也算是正式結束了,現在整理一下筆記,當作鞏固一下知識,也希望這個對大家有幫助 http 緩存 和 cd ...
  • 學習H5 Web開發怎麼和安卓原生開發共存呢,React Native直接解決了這個問題:在運用H5開發的同時,還可以有效調用android原生態開發,直接兩者兼具,既保留了android原生開發也運用了H5 web開發。成本與效率共存。 ...
  • 這兩天不小心看了一下Swift的基礎語法,感覺既然看了,還是寫一下筆記,留個痕跡~總體而言,感覺Swift是一種前後端多種語言混合的產物~~~做為一名.NET陣營人士,少少多多總喜歡通過對比來加深認識。所以做了一個簡單的比較列表,詳情如下... ...
  • 轉載 http://www.toutiao.com/i6362292864885457410/?tt_from=mobile_qq&utm_campaign=client_share&app=news_article&utm_source=mobile_qq&iid=6611409663&utm_m ...
  • 根據google官方文檔,以Android Stdio 2.2.3為基礎,配置NDK開發環境及運行基本native工程的筆記。 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...