Sqoop將mysql數據導入hbase的血與淚

来源:http://www.cnblogs.com/sxt-zkys/archive/2017/07/26/7240041.html
-Advertisement-
Play Games

Sqoop將mysql數據導入hbase的血與淚(整整搞了大半天) 版權聲明:本文為yunshuxueyuan原創文章。如需轉載請標明出處: https://my.oschina.net/yunshuxueyuan/blogQQ技術交流群:299142667 一、 問題如何產生 龐老師只講解了mys ...


Sqoop將mysql數據導入hbase的血與淚(整整搞了大半天) 

版權聲明:本文為yunshuxueyuan原創文章。
如需轉載請標明出處: https://my.oschina.net/yunshuxueyuan/blog
QQ技術交流群:299142667

一、 問題如何產生

龐老師只講解了mysql和hdfs,mysq與hive的數據互導,因此決定研究一下將mysql數據直接導入hbase,這時出現了一系列問題。

心酸史:

二、 開始具體解決問題

 

需求:(將以下這張表數據導入mysql)

由此,編寫如下sqoop導入命令

sqoop import -D sqoop.hbase.add.row.key=true --connect 
jdbc:mysql://192.168.1.9/spider --username root --password root 
--table test_goods --hbase-create-table --hbase-table t_goods  
--column-family cf --hbase-row-key id -m 1

一切看著都很正常,接下來開始執行命令,報如下錯誤:

1、

Error during import: No primary key could be found for table *

報錯原因就是指定的mysql表名不是大寫,所以mysql表名必須大寫

2、 

Could not insert row with null value for row-key column

報錯原因是沒有指定mysql的列名,所以必須指定列名,並且hbase-row-key id 中的id,必須在–columns中顯示。  --columns ID,GOODS_NAME, GOODS_PRICE

3、 

Error parsing arguments for import Unrecognized argument

報錯原因是在指定mysql的列名時,用逗號隔開的時候我多加了空格,所以在Columns後顯示的列名只能用逗號隔開,不要帶空格。

將以上三個問題排除後:我的最新導入命令變為如下:

sqoop import -D sqoop.hbase.add.row.key=true --connect 
jdbc:mysql://192.168.1.9:3306/spider --username root --password root 
--table TEST_GOODS --columns id,goods_name,goods_price 
--hbase-create-table --hbase-table t_goods --column-family cf 
--hbase-row-key id --where "id >= 5" -m 1

註意:這裡有個小問題:記得將id>=5引起來

再次執行導入命令:出現如下情況(卡了好長時間)

發下map執行完成了,但是也就只卡在這裡不動了,mapreduce任務一直在後臺起著,一段時間後死掉,在這期間不停的執行導入命令和殺掉mapreduce的job

hadoop job -list  查看mapreduce 的job列表

hadoop job -kill  job_id    殺死某個Job

經過長時間的測試,突然意識到當前用的是Hbase偽分散式,一下子恍然大悟:

原因:因為當前環境為hbase的偽分散式,所以hbase的數據是存在本地磁碟上的,

並且由自帶的zookeeper進行管理。而將mysql數據導入hbase的原理其實就是將數據導入hdfs,所以要想導入成功,存放hbase的數據地址應該在hdfs上才可以。所以如何解決這個問題,我想大家知道了,那就是開啟hbase完全分散式。

經過一頓折騰將虛擬機回覆到hbase完全分散式的快照,安裝好sqoop,進行最終的測試!

最終執行的導入命令如下:(完整的導入命令)

sqoop import -D sqoop.hbase.add.row.key=true --connect 
jdbc:mysql://192.168.1.9:3306/spider --username root --password root 
--table TEST_GOODS --columns ID,GOODS_NAME,GOODS_PRICE 
--hbase-create-table --hbase-table t_goods --column-family cf 
--hbase-row-key ID --where "ID >= 5" -m 1

終於見到久違的頁面:

查看hbase,數據已經成功導入

最後我將命令寫入一個xxx文件,通過sqoop –options-file xxx 執行導入命令

錯誤寫法如下:

import

-D sqoop.hbase.add.row.key=true

--connect jdbc:mysql://192.168.1.9:3306/spider

--username root

--password root

--table TEST_GOODS

--columns ID,GOODS_NAME,GOODS_PRICE

--hbase-create-table

--hbase-table test_goods

--column-family cf

--hbase-row-key ID

--where "ID >= 5"

-m 1

 

錯誤原因:參數的名稱和參數的值沒有進行回車換行

正確寫法:

import

-D

sqoop.hbase.add.row.key=true

--connect

jdbc:mysql://192.168.1.9:3306/spider

--username

root

--password

root

--table

TEST_GOODS

--columns

ID,GOODS_NAME,GOODS_PRICE

--hbase-create-table

--hbase-table

tt_goods

--column-family

cf

--hbase-row-key

ID

--where

ID>=5

-m

1

 

註:參數含義解釋

-D sqoop.hbase.add.row.key=true 是否將rowkey相關欄位寫入列族中,預設為false,預設情況下你將在列族中看不到任何row key中的欄位。註意,該參數必須放在import之後。

--connect 資料庫連接字元串

--username –password  mysql資料庫的用戶名密碼

--table Test_Goods表名,註意大寫

--hbase-create-table  如果hbase中該表不存在則創建

--hbase-table   對應的hbase表名

--hbase-row-key   hbase表中的rowkey,註意格式

--column-family   hbase表的列族

--where    導入是mysql表的where條件,寫法和sql中一樣

--split-by CREATE_TIME   預設情況下sqoop使用4個併發執行任務,需要制訂split的列,如果不想使用併發,可以用參數 --m 1

到此,bug解決完成!!!

 

三、知識拓展,定時增量導入

1、Sqoop增量導入

sqoop import -D sqoop.hbase.add.row.key=true --connect 
jdbc:mysql://192.168.1.9:3306/spider --username root --password root 
--table TEST_GOODS --columns ID,GOODS_NAME,GOODS_PRICE 
--hbase-create-table --hbase-table t_goods --column-family cf 
--hbase-row-key ID --incremental lastmodified --check-column U_DATE 
--last-value '2017-06-27' --split-by U_DATE

--incremental lastmodified 增量導入支持兩種模式 append 遞增的列;lastmodified時間戳。

--check-column 增量導入時參考的列

--last-value 最小值,這個例子中表示導入2017-06-27到今天的值

 

2、Sqoop job:

sqoop job --create testjob01 --import --connect 
jdbc:mysql://192.168.1.9:3306/spider --username root --password root 
--table TEST_GOODS --columns ID,GOODS_NAME,GOODS_PRICE 
--hbase-create-table --hbase-table t_goods --column-family cf 
--hbase-row-key ID -m 1

設置定時執行以上sqoop job

使用linux定時器:crontab -e

例如每天執行

0 0 * * * /opt/local/sqoop-1.4.6/bin/sqoop job ….

--exec testjob01

版權聲明:本文為yunshuxueyuan原創文章。
如需轉載請標明出處: https://my.oschina.net/yunshuxueyuan/blog
QQ技術交流群:299142667


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一,效果圖。 二,工程圖。 三,代碼。 ViewController.h ViewController.m ...
  • 優化資料庫的方法有很多,最近在看面試題,總結了一些優化資料庫的方法。 優化資料庫的方法1、選取最適用的欄位屬性MySQL可以很好的支持大數據量的存取,但是一般說來,資料庫中的表越小,在它上面執行的查詢也就會越快。因此,在創建表的時候,為了獲得更好的性能,我們可以將表中欄位的寬度設得儘可能小。例如,在 ...
  • #使用資料庫USE db_student; #創建表create table `t_grade` ( `id` int PRIMARY KEY auto_increment NOT NULL, `stuName` varchar (60), `course` varchar (60), `score ...
  • 一、資料庫事務隔離級別 資料庫事務的隔離級別有4個,由低到高依次為Read uncommitted 、Read committed 、Repeatable read 、Serializable ,這四個級別可以逐個解決臟讀 、不可重覆讀 、幻讀 這幾類問題。 √: 可能出現 ×: 不會出現 臟讀 不 ...
  • 一、複製的意義 mysql的複製功能是構建基於MySql大規模,高性能應用的基礎,我們可以通過為伺服器配置一個或多個備庫來進行數據同步;複製功能不僅有利於構建高性能的應用,同時也是高可用性,可擴展行,災難恢復,備份以及數據倉庫等工作的基礎 二、複製的方式 Mysql支持3種方式:基於語句的複製、基於 ...
  • 資料庫 資料庫(Database)是按照數據結構來組織、存儲和管理數據的倉庫,它產生於距今六十多年前,隨著信息技術和市場的發展,特別是二十世紀九十年代以後,數據管理不再僅僅是存儲和管理數據,而轉變成用戶所需要的各種數據管理的方式。資料庫有很多種類型,從最簡單的存儲有各種數據的表格到能夠進行海量數據存 ...
  • select id,name from htms_center_freight_users where id in(114,112,91,223,134) order by find_in_set(id,'114,91,223,134,112'); ...
  • MySQL MySQL是一個關係型資料庫管理系統,由瑞典MySQL AB 公司開發,目前屬於 Oracle 旗下產品。MySQL 是最流行的關係型資料庫管理系統之一,在 WEB 應用方面,MySQL是最好的 RDBMS (Relational Database Management System,關 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...