關於hive分區,你知道多少呢?

来源:https://www.cnblogs.com/lubians/archive/2022/08/02/16543497.html
-Advertisement-
Play Games

大數據發展到今天,扮演了越來越重要的作用。數據可以為各種組織和企業提供關鍵決策的支持,也可以通過數據分析幫助發現更多的有價值的東西,如商機、風險等等。 在數據治理工作開展的時候,往往會有一個專門負責數據治理工作的負責人,他和大數據的負責人共同保證數據的可靠性,合法合規性。因為只有這樣的數據才是有價值 ...



文末查看關鍵字,回覆贈書

一、理論基礎

1.Hive分區背景

在Hive Select查詢中一般會掃描整個表內容,會消耗很多時間做沒必要的工作。有時候只需要掃描表中關心的一部分數據,因此建表時引入了partition概念。

2.Hive分區實質

因為Hive實際是存儲在HDFS上的抽象,Hive的一個分區名對應hdfs的一個目錄名,並不是一個實際欄位。

3.Hive分區的意義

輔助查詢,縮小查詢範圍,加快數據的檢索速度和對數據按照一定的規格和條件進行查詢,更方便數據管理。

4.常見的分區技術

hive表中的數據一般按照時間、地域、類別等維度進行分區。

二、單分區操作

1.創建分區表

create table if not exists t1(
    id      int
   ,name    string
   ,hobby   array
   ,add     map
)
partitioned by (pt_d string)
row format delimited
fields terminated by ','
collection items terminated by '-'
map keys terminated by ':'
;

註:這裡分區欄位不能和表中的欄位重覆。
如果分區欄位和表中欄位相同的話,會報錯,如下:

create table t10(
    id      int
   ,name    string
   ,hobby   array<string>
   ,add     maptring,string>
)
partitioned by (id int)
row format delimited
fields terminated by ','
collection items terminated by '-'
map keys terminated by ':'
;

報錯信息:FAILED: SemanticException [Error 10035]: Column repeated in partitioning columns
報錯信息

2.裝載數據

需要載入的文件內容如下:

1,xiaoming,book-TV-code,beijing:chaoyang-shagnhai:pudong
2,lilei,book-code,nanjing:jiangning-taiwan:taibei
3,lihua,music-book,heilongjiang:haerbin

執行load data

load data local inpath '/home/hadoop/Desktop/data' overwrite into table t1 partition ( pt_d = '201701');

3.查看數據及分區

查看分區數據,使用和欄位使用一致。

select * from t1 where pt_d = '201701';

結果

1   xiaoming    ["book","TV","code"]    {"beijing":"chaoyang","shagnhai":"pudong"}  201701
2   lilei   ["book","code"] {"nanjing":"jiangning","taiwan":"taibei"}   201701
3   lihua   ["music","book"]    {"heilongjiang":"haerbin"}  201701

查看分區

show partitions t1;

4.插入另一個分區

再創建一份數據並裝載,分區=‘000000’

load data local inpath '/home/hadoop/Desktop/data' overwrite into table t1 partition ( pt_d = '000000');

查看數據:

select * from t1;
1   xiaoming    ["book","TV","code"]    {"beijing":"chaoyang","shagnhai":"pudong"}  000000
2   lilei   ["book","code"] {"nanjing":"jiangning","taiwan":"taibei"}   000000
3   lihua   ["music","book"]    {"heilongjiang":"haerbin"}  000000
1   xiaoming    ["book","TV","code"]    {"beijing":"chaoyang","shagnhai":"pudong"}  201701
2   lilei   ["book","code"] {"nanjing":"jiangning","taiwan":"taibei"}   201701
3   lihua   ["music","book"]    {"heilongjiang":"haerbin"}  201701

5.觀察HDFS上的文件

去hdfs上看文件

http://namenode:50070/explorer.html#/user/hive/warehouse/test.db/t1

可以看到,文件是根據分區分別存儲,增加一個分區就是一個文件。

查詢相應分區的數據

select * from t1 where pt_d = ‘000000’

添加分區,增加一個分區文件

alter table t1 add partition (pt_d = ‘333333’);

刪除分區(刪除相應分區文件)

註意,對於外表進行drop partition並不會刪除hdfs上的文件,並且通過msck repair table table_name可以同步回hdfs上的分區。

alter table test1 drop partition (pt_d = ‘20170101’);

三、多個分區操作

1.創建分區表​​​​​​​

create table t10(
    id      int
   ,name    string
   ,hobby   array<string>
   ,add     maptring,string>
)
partitioned by (pt_d string,sex string)
row format delimited
fields terminated by ','
collection items terminated by '-'
map keys terminated by ':'
;

2.載入數據(分區欄位必須都要加)

load data local inpath ‘/home/hadoop/Desktop/data’ overwrite into table t10 partition ( pt_d = ‘0’);

如果只是添加一個,會報錯:FAILED: SemanticException [Error 10006]: Line 1:88 Partition not found ”0”​​​​​​​

load data local inpath '/home/hadoop/Desktop/data' overwrite into table t10 partition ( pt_d = '0',sex='male');
load data local inpath '/home/hadoop/Desktop/data' overwrite into table t10 partition ( pt_d = '0',sex='female');

觀察HDFS上的文件,可發現多個分區具有順序性,可以理解為windows的樹狀文件夾結構。

四、表分區的增刪修查
1.增加分區
這裡我們創建一個分區外部表​​​​​​​

create external table testljb (
    id int
) partitioned by (age int);

添加分區

官網說明:​​​​​​​

ALTER TABLE table_name ADD [IF NOT EXISTS] PARTITION partition_spec [LOCATION 'location'][, PARTITION partition_spec [LOCATION 'location'], ...];

partition_spec:
  : (partition_column = partition_col_value, partition_column = partition_col_value, ...)

實例說明

  • 一次增加一個分區
alter table testljb add partition (age=2);
  • 一次增加多個同級(分區名相同)分區
alter table testljb add partition(age=3) partition(age=4);
  • 註意:一定不能寫成如下方式:
alter table testljb add partition(age=5,age=6);

如果我們show partitions table_name 會發現僅僅添加了age=6的分區。

這裡猜測原因:因為這種寫法實際上:具有多個分區欄位表的分區添加,而我們寫兩次同一個欄位,而系統中並沒有兩個age分區欄位,那麼就會隨機添加其中一個分區。

父子級分區增加:

舉個例子,有個表具有兩個分區欄位:age分區和sex分區。那麼我們添加一個age分區為1,sex分區為male的數據,可以這樣添加:

alter table testljb add partition(age=1,sex='male');

2.刪除分區

刪除分區age=1

alter table testljb drop partition(age=1);

註:加入表testljb有兩個分區欄位(上文已經提到多個分區先後順序類似於windows的文件夾的樹狀結構),partitioned by(age int ,sex string),那麼我們刪除age分區(第一個分區)時,會把該分區及其下麵包含的所有sex分區一起刪掉。

3.修複分區

修複分區就是重新同步hdfs上的分區信息。

msck repair table table_name;

4.查詢分區

show partitions table_name;

上一篇:數據倉庫與數據集市建模

下期預告:hive的動態分區與靜態分區

按例,我的個人公眾號:魯邊社,歡迎關註

後臺回覆關鍵字 [hive],隨機贈送一本魯邊備註版珍藏大數據書籍。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 交叉編譯 交叉編譯是在一個平臺上生成另一個平臺上的可執行代碼。 同一個體繫結構可以運行不同的操作系統;同樣,同一個操作系統也可以在不同的體繫結構上運行。 通常是自己的電腦寫好代碼編譯之後發到嵌入式設備或者盒子之類的去執行,或者另一個版本系統沒有的東西,例如opencv,從有的系統版本編譯到沒有的系統 ...
  • Mac圖片無損放大軟體哪款好用?Topaz Gigapixel AI for Mac是Mac平臺上一款圖片無損放大軟體,使用AI人工智慧來擴展圖像。topaz gigapixel AI為用戶提供無損放大的圖像,同時還增加了自然細節損失處理,可以放大和填充圖像調整產品,而不使圖片失真! 詳情:Topa ...
  • 好久沒寫博客了,最近挺忙的。近來有些好玩的實現,網上的資料並不是非常詳細,打算慢慢寫下來,希望別人能少走一點彎路。 因為希望提高ADC的採樣率,這次我試著實現了一下三重ADC交替採樣+DMA搬運至記憶體+TIM的TRGO觸發採樣(環境是stm32cubemx 6.5.0和keil 5) 首先打開cub ...
  • 喜歡音樂的朋友們想要快速進行音樂樂譜的學習麽?iReal Pro 是一款Mac上優秀的音樂學習和參考工具, 可以模擬出一支虛擬樂隊伴隨您練習,從30種不同風格的伴奏中選擇,包括50套練習曲,用於練習一般和弦進階,總之,iReal Pro是一款非常強大的音樂練習工具,音樂愛好者們一定要試試這款軟體。 ...
  • mobatek主要為電腦專業人士研究強大、安全且具有成本效益的軟體,主要產品包括:MobaXterm(適用於Windows的X伺服器和SSH客戶端)、MobaSSH(使用Unix工具為Windows增強的SSH伺服器)以及一些免費軟體......... ...
  • head.s 參考 [github這個博主的][ https://github.com/sunym1993/flash-linux0.11-talk ] 改變棧頂位置 _pg_dir: startup_32: movl $0x10,%eax mov %ax,%ds mov %ax,%es mov % ...
  • lamp 1. lamp簡介 有了前面學習的知識的鋪墊,今天可以來學習下第一個常用的web架構了。 所謂lamp,其實就是由Linux+Apache+Mysql/MariaDB+Php/Perl/Python的一組動態網站或者伺服器的開源軟體,除Linux外其它各部件本身都是各自獨立的程式,但是因為 ...
  • 上篇文章介紹瞭如何創建合適的MySQL索引,今天再一塊學一下如何更規範、更合理的使用MySQL? 合理規範的使用MySQL,可以大大減少開發工作量和線上問題,並提升SQL查詢性能。 我精心總結了這16條MySQL規約,分享給大家,歡迎評論指正。 ...
一周排行
    -Advertisement-
    Play Games
  • Timer是什麼 Timer 是一種用於創建定期粒度行為的機制。 與標準的 .NET System.Threading.Timer 類相似,Orleans 的 Timer 允許在一段時間後執行特定的操作,或者在特定的時間間隔內重覆執行操作。 它在分散式系統中具有重要作用,特別是在處理需要周期性執行的 ...
  • 前言 相信很多做WPF開發的小伙伴都遇到過表格類的需求,雖然現有的Grid控制項也能實現,但是使用起來的體驗感並不好,比如要實現一個Excel中的表格效果,估計你能想到的第一個方法就是套Border控制項,用這種方法你需要控制每個Border的邊框,並且在一堆Bordr中找到Grid.Row,Grid. ...
  • .NET C#程式啟動閃退,目錄導致的問題 這是第2次踩這個坑了,很小的編程細節,容易忽略,所以寫個博客,分享給大家。 1.第一次坑:是windows 系統把程式運行成服務,找不到配置文件,原因是以服務運行它的工作目錄是在C:\Windows\System32 2.本次坑:WPF桌面程式通過註冊表設 ...
  • 在分散式系統中,數據的持久化是至關重要的一環。 Orleans 7 引入了強大的持久化功能,使得在分散式環境下管理數據變得更加輕鬆和可靠。 本文將介紹什麼是 Orleans 7 的持久化,如何設置它以及相應的代碼示例。 什麼是 Orleans 7 的持久化? Orleans 7 的持久化是指將 Or ...
  • 前言 .NET Feature Management 是一個用於管理應用程式功能的庫,它可以幫助開發人員在應用程式中輕鬆地添加、移除和管理功能。使用 Feature Management,開發人員可以根據不同用戶、環境或其他條件來動態地控制應用程式中的功能。這使得開發人員可以更靈活地管理應用程式的功 ...
  • 在 WPF 應用程式中,拖放操作是實現用戶交互的重要組成部分。通過拖放操作,用戶可以輕鬆地將數據從一個位置移動到另一個位置,或者將控制項從一個容器移動到另一個容器。然而,WPF 中預設的拖放操作可能並不是那麼好用。為瞭解決這個問題,我們可以自定義一個 Panel 來實現更簡單的拖拽操作。 自定義 Pa ...
  • 在實際使用中,由於涉及到不同編程語言之間互相調用,導致C++ 中的OpenCV與C#中的OpenCvSharp 圖像數據在不同編程語言之間難以有效傳遞。在本文中我們將結合OpenCvSharp源碼實現原理,探究兩種數據之間的通信方式。 ...
  • 一、前言 這是一篇搭建許可權管理系統的系列文章。 隨著網路的發展,信息安全對應任何企業來說都越發的重要,而本系列文章將和大家一起一步一步搭建一個全新的許可權管理系統。 說明:由於搭建一個全新的項目過於繁瑣,所有作者將挑選核心代碼和核心思路進行分享。 二、技術選擇 三、開始設計 1、自主搭建vue前端和. ...
  • Csharper中的表達式樹 這節課來瞭解一下表示式樹是什麼? 在C#中,表達式樹是一種數據結構,它可以表示一些代碼塊,如Lambda表達式或查詢表達式。表達式樹使你能夠查看和操作數據,就像你可以查看和操作代碼一樣。它們通常用於創建動態查詢和解析表達式。 一、認識表達式樹 為什麼要這樣說?它和委托有 ...
  • 在使用Django等框架來操作MySQL時,實際上底層還是通過Python來操作的,首先需要安裝一個驅動程式,在Python3中,驅動程式有多種選擇,比如有pymysql以及mysqlclient等。使用pip命令安裝mysqlclient失敗應如何解決? 安裝的python版本說明 機器同時安裝了 ...