如何利用sqoop將hive數據導入導出數據到mysql

来源:http://www.cnblogs.com/shsxt/archive/2017/11/10/7816294.html
-Advertisement-
Play Games

運行環境 centos 5.6 hadoop hive sqoop是讓hadoop技術支持的clouder公司開發的一個在關係資料庫和hdfs,hive之間數據導入導出的一個工具。 上海尚學堂hadoop大數據培訓組原創,陸續有hadoop大數據技術相關文章奉上,請多關註! 在使用過程中可能遇到的問 ...


運行環境  centos 5.6   hadoop  hive
sqoop是讓hadoop技術支持的clouder公司開發的一個在關係資料庫和hdfs,hive之間數據導入導出的一個工具。

上海尚學堂hadoop大數據培訓組原創,陸續有hadoop大數據技術相關文章奉上,請多關註!


在使用過程中可能遇到的問題:

  • sqoop依賴zookeeper,所以必須配置ZOOKEEPER_HOME到環境變數中。
  • sqoop-1.2.0-CDH3B4依賴hadoop-core-0.20.2-CDH3B4.jar,所以你需要下載hadoop-0.20.2-CDH3B4.tar.gz,解壓縮後將hadoop-0.20.2-CDH3B4/hadoop-core-0.20.2-CDH3B4.jar複製到sqoop-1.2.0-CDH3B4/lib中。

1  首先安裝sqoop,如果你使用的是clouder分發版的話就非常簡單  
   # yum install sqoop
  如果用官方版本的話 
   # cd /etc/yum.repos.d
   # wget http://archive.cloudera.com/redhat/cdh/cloudera-cdh3.repo
   # yum -y install sqoop
   sqoop就會安裝完成
2  使用sqoop
   首先將mysql-connector-java-5.1.16-bin.jar文件複製到/usr/lib/sqoop/lib文件夾下
   
3  導入導出資料庫
   1)列出mysql資料庫中的所有資料庫命令
  #  sqoop list-databases --connect jdbc:mysql://localhost:3306/ --username root --password 123456
   
   2)連接mysql併列出資料庫中的表命令
   # sqoop list-tables --connect jdbc:mysql://localhost:3306/test --username root --password 123456
   命令中的test為mysql資料庫中的test資料庫名稱  username password分別為mysql資料庫的用戶密碼
   
   3)將關係型數據的表結構複製到hive中
 sqoop create-hive-table --connect jdbc:mysql://localhost:3306/test --table username --username root --password 123456 --hive-table test
其中 --table username為mysql中的資料庫test中的表   --hive-table test 為hive中新建的表名稱
   
   4)從關係資料庫導入文件到hive中
sqoop import --connect jdbc:mysql://localhost:3306/test --username root --password mysql-password --table t1 --hive-import

   5)將hive中的表數據導入到mysql中

./sqoop export --connect jdbc:mysql://localhost:3306/test --username root --password admin --table uv_info --export-dir /user/hive/warehouse/uv/dt=2011-08-03

如果報錯
11/08/05 10:51:22 INFO mapred.JobClient: Running job: job_201108051007_0010  
11/08/05 10:51:23 INFO mapred.JobClient:  map 0% reduce 0%  
11/08/05 10:51:36 INFO mapred.JobClient: Task Id : attempt_201108051007_0010_m_000000_0, Status : FAILED 
java.util.NoSuchElementException  
        at java.util.AbstractList$Itr.next(AbstractList.java:350)  
        at uv_info.__loadFromFields(uv_info.java:194)  
        at uv_info.parse(uv_info.java:143)  
        at com.cloudera.sqoop.mapreduce.TextExportMapper.map(TextExportMapper.java:79) 
        at com.cloudera.sqoop.mapreduce.TextExportMapper.map(TextExportMapper.java:38) 
        at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:144)  
        at com.cloudera.sqoop.mapreduce.AutoProgressMapper.run(AutoProgressMapper.java:187) 
        at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:647)  
        at org.apache.hadoop.mapred.MapTask.run(MapTask.java:323)  
        at org.apache.hadoop.mapred.Child$4.run(Child.java:270)  
        at java.security.AccessController.doPrivileged(Native Method)  
        at javax.security.auth.Subject.doAs(Subject.java:396)  
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1127) 
        at org.apache.hadoop.mapred.Child.main(Child.java:264)  
此錯誤的原因為sqoop解析文件的欄位與MySql資料庫的表的欄位對應不上造成的。因此需要在執行的時候給sqoop增加參數,告訴sqoop文件的分隔符,使它能夠正確的解析文件欄位。

hive預設的欄位分隔符為'\001'
./sqoop export --connect jdbc:mysql://localhost:3306/datacenter --username root --password admin --table uv_info --export-dir /user/hive/warehouse/uv/dt=2011-08-03 --input-fields-terminated-by '\t'

 
您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 通過上一節課創建了一個Android的Hello World項目,項目預設包含一系列源文件,它讓我們可以立即運行應用程式。 如何運行Android應用取決於兩件事情:是否有一個Android設備和是否正在使用Android Studio開發程式。本節課將會教使用Android Studio和命令行兩 ...
  • 先看效果看 載入了一張image,根據四個頂點任意變換。 知識點:1.BitmapContext 2.矩陣變換 一.什麼是BitmapContext 官方解釋: The number of components for each pixel in a bitmap graphics context ...
  • 如下分析針對的API 25的AsyncTask的源碼: 使用AsyncTask如果是調用execute方法則是同步執行任務,想要非同步執行任務可以直接調用executeOnExecutor方法,多數情況下我們會使用AsyncTask內部靜態的線程池, THREAD_POOL_EXECUTOR,這裡並不 ...
  • 轉載請標明出處:http://blog.csdn.net/zhaoyanjun6/article/details/78112856 本文出自 "【趙彥軍的博客】" 在插件開發過程中,我們按照開發一個正式的項目來操作,需要整理一些常用工具類。 Http 請求封裝 在插件的項目中,我們看到依賴庫如下圖所 ...
  • 一、前言 前段時間註意到我們APP的包大小超過100MB了,所以隨口跟老闆說了下能否採用字體文件(.ttf)替代PNG圖片,老闆對應用瘦身很感興趣因此讓我做下技術調研。這篇文章主要是將我們的各個技術方案的思路做一下整理和總結,希望對大家有所幫助。 二、iOS內置資源的集中方式 在介紹技術方案前我們先 ...
  • 一、簡介 DMProgressHUD是一款用於顯示非同步操作任務進度狀態的視圖工具。 該工具包含了目前較為主流的載入狀態視圖類型,後續會根據具體情況或需求進行迭代。 DMProgressHUD從設計層次的角度來看,其包含了5種展示模式: 二、導入(Platform : ios >= 8.0) 方案1: ...
  • http://m.blog.csdn.net/potato512/article/details/51487643 ...
  • python寫的,有點冗餘,先碼出來~~~~ 這是data_stored.py的代碼 1 # -*- coding:utf-8 -*- 2 # 存數據到mysql (只存了時間數字) 3 import pymysql 4 import csv 5 import datetime 6 import s ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...