【源】從零自學Hadoop(17):Hive數據導入導出,集群數據遷移下

来源:http://www.cnblogs.com/mephisto/archive/2016/01/19/5089817.html
-Advertisement-
Play Games

上一篇,我們介紹了Hive的數據多種方式導入,這樣我們的Hive就有了數據來源了,但有時候我們可能需要純粹的導出,或者集群Hive數據的遷移(不同集群,不同版本),我們就可以通過這兩章的知識來實現。   下麵我們開始介紹hive的數據導出,以及集群Hive數據的遷移進行描述。


閱讀目錄

本文版權歸mephisto和博客園共有,歡迎轉載,但須保留此段聲明,並給出原文鏈接,謝謝合作。

文章是哥(mephisto)寫的,SourceLink

 

     上一篇,我們介紹了Hive的數據多種方式導入,這樣我們的Hive就有了數據來源了,但有時候我們可能需要純粹的導出,或者集群Hive數據的遷移(不同集群,不同版本),我們就可以通過這兩章的知識來實現。

   下麵我們開始介紹hive的數據導出,以及集群Hive數據的遷移進行描述。

將查詢的結果寫入文件系統

一:說明

  將上篇中從其他表導入語法進行簡單的修改,就可以將查詢的結果寫入到文件系統。

二:語法:

Standard syntax:
INSERT OVERWRITE [LOCAL] DIRECTORY directory1
  [ROW FORMAT row_format] [STORED AS file_format] (Note: Only available starting with Hive 0.11.0)
  SELECT ... FROM ...
 
Hive extension (multiple inserts):
FROM from_statement
INSERT OVERWRITE [LOCAL] DIRECTORY directory1 select_statement1
[INSERT OVERWRITE [LOCAL] DIRECTORY directory2 select_statement2] ...
 
 
row_format
  : DELIMITED [FIELDS TERMINATED BY char [ESCAPED BY char]] [COLLECTION ITEMS TERMINATED BY char]
        [MAP KEYS TERMINATED BY char] [LINES TERMINATED BY char]
        [NULL DEFINED AS char] (Note: Only available starting with Hive 0.13)

三:寫入到本地

  如果使用LOCAL,則數據會寫入到本地

四:寫入到集群

  如果不使用LOCAL,則數據會寫到指定的HDFS中,如果沒寫全路徑,則使用Hadoop的配置項fs.default.name (NameNode的URI)。

五:實戰

  修改tmp文件夾許可權(這裡只是測試,所以使用最大許可權)

chmod 777 tmp

  進入Hive

sudo -u hdfs hive

 

  將上一篇中的score表數據導出到本地

insert overwrite local directory  '/data/tmp/score' select * from score;

  我們可以看到/data/tmp/score/目錄下有文件。

cd /data/tmp/score
ll

  這樣我們就把hive的數據導出到本地了。

  下麵我們使用不帶local參數的命令,將hive表數據導到hdfs中

insert overwrite  directory  '/data/tmp/score' select * from score;

  我們使用hdfs的ls命令查看

hadoop fs -ls /data/tmp/score

  這裡文件只有一個,和上面的不一樣,但總的內容是一樣的,上面同樣的數據導出,有時候也只有一個文件。這裡就不做考究了。

集群數據遷移一

一:介紹

  在官網裡,我們可以看到EXPORT和IMPORT,該功能從Hive0.8開始加入進來。

二:Export/Import

  導出命令根據元數據導出表或者分區,輸出位置可以是另一個Hadoop集群或者HIVE實例。支持帶有分區的表。導出元數據存儲目標目錄,數據文件存儲在子目錄

  導入導出的源和目標的元數據存儲DBMS可以是不同的關係型資料庫。

三:Export語法

EXPORT TABLE tablename [PARTITION (part_column="value"[, ...])]
  TO 'export_target_path'

四:Import語法 

IMPORT [[EXTERNAL] TABLE new_or_original_tablename [PARTITION (part_column="value"[, ...])]]
  FROM 'source_path'
  [LOCATION 'import_target_path']

五:官方例子 

  簡單導入導出

export table department to 'hdfs_exports_location/department';
import from 'hdfs_exports_location/department';

  改名導入導出

export table department to 'hdfs_exports_location/department';
import table imported_dept from 'hdfs_exports_location/department';

  分區導出

export table employee partition (emp_country="in", emp_state="ka") to 'hdfs_exports_location/employee';
import from 'hdfs_exports_location/employee';

  分區導入

export table employee to 'hdfs_exports_location/employee';
import table employee partition (emp_country="us", emp_state="tn") from 'hdfs_exports_location/employee';

  指定導入位置

export table department to 'hdfs_exports_location/department';
import table department from 'hdfs_exports_location/department' 
       location 'import_target_location/department';

  作為外部表導入

export table department to 'hdfs_exports_location/department';
import external table department from 'hdfs_exports_location/department';

  

集群數據遷移二

一:介紹

  雖然官方的Export/Import命令很強大,但在實際使用中,可能是版本的不同,會出現無法導入的情況,自己在這塊也琢磨了下,總結出自己的一套帶有分區的Hive表數據遷移方案,該方案在Cloudera和Hontorworks的集群中成功遷移過,Hive版本也不一致。

二:導出數據

  由於Cloudera的發行版本CDH-5.3.3的Hive版本低於0.8所以用這個作為數據源。

  創建帶分區表score

create table score (
  id                int,
  studentid       int,
  score              double
)
partitioned by (openingtime string);

 

  根據上一篇中導入數據的方式導入7,8月數據

load data local inpath '/data/tmp/score_7.txt' overwrite into table score PARTITION (openingtime=201507);

  參考我們上面的導出到本地還是放在/data/tmp/score下

insert overwrite local directory  '/data/tmp/score' select * from score;

三:遷移數據

  在另外一個集群新建/data/tmp目錄

 mkdir  -p /data/tmp/score

  拷貝數據

 scp /data/tmp/score/* root@h188:/data/tmp/score/

   查看

cd /data/tmp/score
ll

四:創建分區表和沒有分區的臨時表

  被導入的集群是Hortonworks的HDP-2.7.1發行版本。

  分區表就是我們最終的目標表,沒有分區的臨時表時過度用的。

  進入Hive

sudo -u hdfs hive

  創建帶分區的表

create table score (
  id                int,
  studentid       int,
  score              double
)
partitioned by (openingtime string);

  創建不帶分區的臨時表

 create table score1(
     id int,
     studentid int,
     score double,
     openingtime string
);

五:將數據導入臨時表

 

load data local inpath '/data/tmp/score' into table score1;

  我們查下導進來的數據

select * from score1;

六:從臨時表導入到分區表

set  hive.exec.dynamic.partition=true;   
set  hive.exec.dynamic.partition.mode=nonstrict;   
set  hive.exec.max.dynamic.partitions.pernode=10000; 
#導入
insert overwrite table score partition(openingtime) select * from score1;

查詢

select * from score;

我們在hdfs中查看下hive的文件

hadoop fs -ls -R /apps/hive/warehouse/score

可以明顯的看到根據openingtime分區了。

七:刪除臨時表

drop table score1

 八:刪除臨時數據

rm -rf /data/tmp/score

  

 這樣我們的Hive集群數據遷移告一段落。

 

--------------------------------------------------------------------

  到此,本章節的內容講述完畢。

系列索引

  【源】從零自學Hadoop系列索引

 

 

 

 

本文版權歸mephisto和博客園共有,歡迎轉載,但須保留此段聲明,並給出原文鏈接,謝謝合作。

文章是哥(mephisto)寫的,SourceLink


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 標簽:utf8概述本篇文章介紹mycat怎樣在分庫分表的情況下保證主鍵的全局唯一方法,接下來就來分析三種方法各自的優缺點。配置文件方式獲取1.修改server配置文件vim server.xml0註:sequnceHandlerType 配置為0表示使用本地文件讀取。2.配置sequence_con...
  • 前言 我們知道任何一種關係型資料庫管理系統都支持SQL(Structured Query Language),相對於文件管理系統,用戶不用關心數據在資料庫內部如何存取,也不需要知道底層的存儲結構,熟悉SQL,就能熟練使用資料庫。SQL的引入,使得資料庫系統需要將SQL轉換為內部的數據結構,然後與.....
  • SQL Server代理是所有實時資料庫的核心。代理有很多不明顯的用法,因此系統的知識,對於開發人員還是DBA都是有用的。這系列文章會通俗介紹它的很多用法。SQL Server代理是SQL Server作業調度和報警服務,使用得當的話,會大大簡化資料庫管理員(DBA)的工作。SQL Server代理...
  • 最新版的 Mysql 不提供圖形界面的安裝了, 下載下來是一個壓縮包的形式, 那麼我們如何來使用它呢, 讓它為我們工作呢? 環境: mysql-5.7.10-winx64 + win7(64位)一: 下載下載東西, 肯定是去官網下載, 點擊http://dev.mysql.com/downloa.....
  • Dual表是每個資料庫創建時預設生成的,該表僅有一列一行。1)分析dual表執行,如下:2)應用:在oracle資料庫中,dual表作為一個虛表存在的,因為oracle的查詢操作語句必須滿足格式:select columnname from tablename,其中的from所指向的表示必須的,所以...
  • 為了加強安全性,MySQL5.7為root用戶隨機生成了一個密碼,在error log中,關於error log的位置,如果安裝的是RPM包,則預設是/var/log/mysqld.log。一般可通過log_error設置mysql> select @@log_error;+------------...
  • oracle的密碼是存在有效期的,有時候會遇到密碼到期需要重設的情況,查看當前密碼有效期的語句:SELECT * FROM dba_profiles s WHERE s.profile='DEFAULT' AND resource_name='PASSWORD_LIFE_TIME';將密碼的時間限制...
  • 本文目錄列表:1、準備測試數據2、向測試數據表添加相關時間粒度欄位列3、基於日月季年統計彙總的演示4、總結語5、參考清單列表準備測試數據為了提供不同時間粒度示例的演示,就需要測試數據。為了演示方便,本文提供一個測試數據表(登錄信息數據表----LoginInfo),以及改變插入測試數據。該測試數據表...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...