方法1,建立臨時表,利用hive的collect_set 進行去重。 2,方法2, 利用row_number 去重 比如,我有一大堆的表格, 表格內容大多類似,只是有些許差別。 現在的需求是把我要統計所有的表格中,都有哪些欄位,也就是把所有的表格整合成一張大表 則可以利用row_number 進行去 ...
方法1,建立臨時表,利用hive的collect_set 進行去重。
create table if not exists tubutest (
name1 string,
name2 string
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;
select * from ods.wdtest;
1 1
1 1
1 2
1 2
1 3
2 3
2 3
2 4
select name1,collect_set(name2) from tubutest group by name1;
name1 _c1
1 ["2","3"]
2 ["2","4"]
create view ods.wdtestView as
select name1,collect_set(name2) as name2 from ods.wdtest group by name1;
select * from ods.wdtestview;
name1 name2
1 ["2","3"]
2 ["2","4"]
select name1, name2 from tubuview LATERAL VIEW explode(name2) tubuview as name2;
A,collect_set 完成把多行轉化成一行的功能。
B,explode 完成把一行轉化成多列的功能。 而 lateral view 主要是輔助 explode 進行使用,來完成類似去重的功能。
2,方法2, 利用row_number 去重
比如,我有一大堆的表格,
表格內容大多類似,只是有些許差別。
現在的需求是把我要統計所有的表格中,都有哪些欄位,也就是把所有的表格整合成一張大表
則可以利用row_number 進行去重
最終的表格如下:
需要進行去重,
則可以利用row_number 進行去重(去蟲),方法如下
SELECT
name,
type_name,
comment_deatail
from
(SELECT
name,type_name,comment_deatail,
row_number() OVER(PARTITION BY name ORDER BY type_name) as row_count
from demo) t
where row_count=1;