【趙強老師】在Hive中使用Load語句載入數據

-Advertisement-

一、Hive中load語句的語法說明 Hive Load語句不會在載入數據的時候做任何轉換工作，而是純粹的把數據文件複製/移動到Hive表對應的地址。語法格式如下： LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablenam ...

一、Hive中load語句的語法說明

Hive Load語句不會在載入數據的時候做任何轉換工作，而是純粹的把數據文件複製/移動到Hive表對應的地址。語法格式如下：

LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename \
[PARTITION (partcol1=val1, partcol2=val2 ...)]

LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename \
[PARTITION (partcol1=val1, partcol2=val2 ...)] \
[INPUTFORMAT 'inputformat' SERDE 'serde'] (3.0 or later)

幾點說明：

如果命令中帶有LOCAL，說明從本地文件系統載入數據，文件路徑可以是相對路徑，也可以是絕對路徑。在這種情況下，首先將文件從本地複製到hdfs相應的位置，然後移動到hive表格中，這個時候原始數據文件是存在於Hive表之下的路徑下。
如果不包含LOCAL關鍵字，則移動HDFS文件到目標表中。
filepath 可以是一個相對路徑，也可以是一個絕對路徑。可以是一個文件，也可以是一個文件夾目錄。如果是一個目錄，這個時候文件夾下的所有文件都會被載入。
命令中如果帶有overwirte，代表載入數據之前會清空目標表格，否則就是追加的方式。
如果表是分區表則必須指定PARTITION從句，否則會報如下錯誤：
FAILED:SemanticException [Error 10062]: Need to specify partition columns because the destination table is partitioned

二、load語句示例

創建如下的表結構（員工表）

create table emp
(empno int,
ename string,
job string,
mgr int,
hiredate string,
sal int,
comm int,
deptno int)
row format delimited fields terminated by ',';

測試數據如下：（emp.csv）

7369,SMITH,CLERK,7902,1980/12/17,800,0,20
7499,ALLEN,SALESMAN,7698,1981/2/20,1600,300,30
7521,WARD,SALESMAN,7698,1981/2/22,1250,500,30
7566,JONES,MANAGER,7839,1981/4/2,2975,0,20
7654,MARTIN,SALESMAN,7698,1981/9/28,1250,1400,30
7698,BLAKE,MANAGER,7839,1981/5/1,2850,0,30
7782,CLARK,MANAGER,7839,1981/6/9,2450,0,10
7788,SCOTT,ANALYST,7566,1987/4/19,3000,0,20
7839,KING,PRESIDENT,-1,1981/11/17,5000,0,10
7844,TURNER,SALESMAN,7698,1981/9/8,1500,0,30
7876,ADAMS,CLERK,7788,1987/5/23,1100,0,20
7900,JAMES,CLERK,7698,1981/12/3,950,0,30
7902,FORD,ANALYST,7566,1981/12/3,3000,0,20
7934,MILLER,CLERK,7782,1982/1/23,1300,0,10

載入HDFS的數據到Hive的表

load data inpath '/scott/emp.csv' into table emp;

載入本地的數據到Hive的表

load data local inpath '/root/temp/emp.csv' into table emp;

當然我們也可以使用insert語句載入數據。例如，我們創建如下的分區表：

create table emp_part_1
(empno int,
ename string,
job string,
mgr int,
hiredate string,
sal int,
comm int)
partitioned by (deptno int)
row format delimited fields terminated by ',';

使用insert語句將數據插入到對應的分區上。

插入10號部門的員工數據
insert into table emp_part_1 partition(deptno=10) 
select empno,ename,job,mgr,hiredate,sal,comm from emp where deptno=10;

插入20號部門的員工數據
insert into table emp_part_1 partition(deptno=20) 
select empno,ename,job,mgr,hiredate,sal,comm from emp where deptno=20;

插入30號部門的員工數據
insert into table emp_part_1 partition(deptno=30) 
select empno,ename,job,mgr,hiredate,sal,comm from emp where deptno=30;

這裡我們使用了一個子查詢查詢出了對應部門的員工數據，再使用insert語句插入到對應的分區上。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Linux命令（10）route命令

[toc] route命令功能說明：顯示或管理路由表，路由表是在內核中的，route命令會立刻修改內核中的路由表，立即生效，系統重啟後失效。用法 route [ n] route add [ net| host] target [netmask Nm] [gw Gw] [[dev] If] ro ...
Redis緩存安裝

下載Redis安裝包並解壓在 /opt/soft 內下載 "redis 5.0.5" 解壓完之後， /opt/module/ ⽬錄中會出現⼀個的⽬錄編譯並安裝將Redis 安裝為系統服務並後臺啟動設置允許遠程連接與訪問密碼檢驗安裝結果 ...
Redis學習筆記（十四）Sentinel(哨兵)（上）

最近談到Redis就會聽到哨兵模式，工作期間同事也分享過關於哨兵模式的知識，但由於工作忙（給自己找個藉口）沒有沒認真看，現在惡補下，老樣子還是分上篇應用，下篇看實現過程，下麵我們來看下哨兵到底是啥？哨兵模式（Sentinel）是Redis的高可用解決方案。由一個或多個Sentinel實例組成的Se ...
MYSQL資料庫安裝

檢測是否存在MARIADB 如果系統之前⾃帶，可以先卸載之。⾸先查詢已安裝的 Mariadb 安裝包：卸載mariadb 刪除配置文件,刪除數據目錄下載MYSQL安裝包並解壓在 /opt/soft 內下載 "MySQL 5.7" 解壓完之後， /opt/module/ ⽬錄中會出現⼀個的 ...
mysql從一張表查出數據存到另一張表和inner join的用法

INSERT INTO test_table_public(class, name, geography) SELECT class, name, geography FROM test_table WHERE id >= 137181 AND id <= 137214; SELECT class, ...
Redis 集群演進探討和總結

Redis為什麼需要集群？首先Redis單實例主要有單點，容量有限，流量壓力上限的問題。 Redis單點故障，可以通過主從複製，和自動故障轉移哨兵機制。但Redis單實例提供讀寫服務，仍然有容量和壓力問題，因此需要數據分區，構建多個實例同時提供讀寫服務（不僅限於從節點提供讀服務）。那 ...
GPS時間伺服器（NTP伺服器）京準教你選型小竅門

GPS時間伺服器（NTP伺服器）京準教你選型小竅門 GPS時間伺服器（NTP伺服器）京準教你選型小竅門京準電子科技官微——ahjzsz 目前，市場上的NTP網路時間伺服器魚龍混雜，廠家良莠不齊，對此選擇一家有實力的廠家及性價比高的NTP網路時間伺服器廠家顯得尤其重要。 NTP網路時間伺服器廠家簡介 ...
搭建一個 ELKB 日誌收集系統

開發環境 centos release 7 3.1611.el7.centos.x86_64 elasticsearch 6.3.1 kibana 6.3.1 logstash 6.3.1 filebeat 6.3.1 ElasticSearch安裝 1. 下載ElasticSearch ,國內慢 ...