環境:hive 3.1.0 執行引擎:hive on tez 什麼是hive ACID? hive官網對於ACID的介紹: https://cwiki.apache.org/confluence/display/Hive/Hive+Transactions 中文文檔關於ACID的介紹: https: ...
環境:hive 3.1.0
執行引擎:hive on tez
- 什麼是hive ACID?
hive官網對於ACID的介紹:
https://cwiki.apache.org/confluence/display/Hive/Hive+Transactions
中文文檔關於ACID的介紹:
https://www.docs4dev.com/docs/zh/apache-hive/3.1.1/reference/Hive_Transactions.html
其實和傳統資料庫中所說的ACID有異曲同工之妙: - 原子性(Atomicity)
原子性是指事務是一個不可分割的工作單位,事務中的操作要麼全部成功,要麼全部失敗。 - 一致性(Consistency)
事務必須使資料庫從一個一致性狀態變換到另外一個一致性狀態。
舉例說明:張三向李四轉100元,轉賬前和轉賬後的數據是正確的狀態,這就叫一致性,如果出現張三轉出100元,李四賬號沒有增加100元這就出現了數據錯誤,就沒有達到一致性。 - 隔離性(Isolation)
事務的隔離性是多個用戶併發訪問資料庫時,資料庫為每一個用戶開啟的事務,不能被其他事務的操作數據所干擾,多個併發事務之間要相互隔離。 - 持久性(Durability)
持久性是指一個事務一旦被提交,它對資料庫中數據的改變就是永久性的,接下來即使資料庫發生故障也不應該對其有任何影響。
其中事務(Transaction)是訪問和更新資料庫的程式執行單元;事務中可能包含一個或多個sql語句,而ACID是衡量事務的4個維度。hive0.13之後提供了行級別ACID,
常見的INSERT、UPDATE和DELETE已經在hive0.14開始支持,先創建一張預設結構的hive表
create table test.trans_table1(column1 string,column2 string);
SHOW CREATE TABLE查看其建表語句:
CREATE TABLE `test.trans_table1`(
`column1` string,
`column2` string)
ROW FORMAT SERDE
'org.apache.hadoop.hive.ql.io.orc.OrcSerde'
STORED AS INPUTFORMAT
'org.apache.hadoop.hive.ql.io.orc.OrcInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat'
LOCATION
'hdfs://ambari-hadoop1:8020/warehouse/tablespace/managed/hive/test.db/trans_table1'
TBLPROPERTIES (
'bucketing_version'='2',
'transactional'='true',
'transactional_properties'='default',
'transient_lastDdlTime'='1703744670')
發現其配置項中有三個和事務相關的選項:
- transactional:是否啟用表的事務支持
- transactional_properties:指定了事務的屬性
1.default: 預設值,表示支持插入、更新、刪除操作。
2.insert_only: 僅支持插入操作,不支持更新和刪除。
3.insert_only_external: 僅支持插入操作,對於外部表。 - transient_lastDdlTime:最後一次DDL日期時間
hive預設創建存儲格式為ORC的事務表,對錶執行一次insert values操作發現增加了一個delta開頭的目錄
其下有兩個文件_orc_acid_version和bucket_00000
而delete操作也同樣會生成目錄:
而UPDATE操作則會同時生成兩個目錄:
先創建一個delete首碼的目錄,再創建一個代表insert的delta首碼目錄,即先刪除後插入。
以上目錄的命名規範格式為 delta_minWID_maxWID_stmtID,即 delta 首碼、寫事務的 ID 範圍、以及語句 ID。 - 針對寫事務(INSERT、DELETE 等),Hive 還會創建一個寫事務 ID(Write ID),該 ID 在表範圍內唯一。
- 語句 ID(Statement ID)則是當一個事務中有多條寫入語句時使用的,用作唯一標識。
_orc_acid_version 的內容是 2,即當前 ACID 版本號是 2。而bucket開頭的文件則是實際的數據內容,由於存儲格式是ORC,可以使用以下方法查看:
hive --orcfiledump /warehouse/tablespace/managed/hive/test.db/trans_table1/delta_0000001_0000001_0000/bucket_00000
可以查看相關元數據,但並非數據本身,這裡不做過多解析:
hive --orcfiledump -d /warehouse/tablespace/managed/hive/test.db/trans_table1/delta_0000001_0000001_0000/bucket_00000
則可以查看相關數據內容:
- operation 0 表示插入,1 表示更新,2 表示刪除。由於使用了 split-update,UPDATE 是不會出現的;
- originalTransaction是該條記錄的原始寫事務 ID。對於 INSERT 操作,該值和 currentTransaction是一致的。對於 DELETE,則是該條記錄第一次插入時的寫事務 ID;
- bucket是一個 32 位整型,由 BucketCodec 編碼,各個二進位位的含義為:
1-3 位:編碼版本,當前是 001;
4 位:保留;
5-16 位:分桶 ID,由 0 開始。分桶 ID 是由 CLUSTERED BY 子句所指定的欄位、以及分桶的數量決定的。該值和 bucket_N 中的 N 一致;
17-20 位:保留;
21-32 位:語句 ID;
舉例來說,整型 536936448 的二進位格式為 00100000000000010000000000000000,即它是按版本 1 的格式編碼的,分桶 ID 為 1; - rowId 是一個自增的唯一 ID,在寫事務和分桶的組合中唯一;
- currentTransaction 當前的寫事務 ID;
- row 具體數據。對於 DELETE 語句,則為 null
還可以通過 row__id 這個虛擬列進行查看(originalTransaction, bucket, rowId)
select row__id,column1,column2 from test.trans_table1;
註意row__id是兩個"_"符合。
還有個問題由於每次DML的執行都會產生對應小文件,隨著時間推移DML執行次數的增多,會產生越來越多的小文件,而過多的小文件對HDFS會產生不利的影響,比如增加namenode的記憶體占用等等,為此hive引入了壓縮Compaction的概念。
Minor Compaction 會將所有的 delta 文件壓縮為一個文件,delete 也壓縮為一個。壓縮後的結果文件名中會包含寫事務 ID 範圍,同時省略掉語句 ID。壓縮過程是在 Hive Metastore 中運行的,會根據一定閾值自動觸發。我們也可以使用如下語句人工觸發:
ALTER TABLE trans_table1 COMPACT 'minor';
壓縮前:
壓縮後:
查看壓縮後的文件發現,插入操作產生的數據都被合併起來:
同樣刪除操作的數據也被合併在了一起:
因此Minor Compaction 不會刪除任何數據。
而Major Compaction則會將所有文件合併為一個文件,以 base_N 的形式命名,其中 N 表示最新的寫事務 ID。已刪除的數據將在這個過程中被剔除。
major前:
major後:
需要註意的是,在 Minor 或 Major Compaction 執行之後,原來的文件不會被立刻刪除。這是因為刪除的動作是在另一個名為 Cleaner 的線程中執行的。因此,表中可能同時存在不同事務 ID 的文件組合,這在讀取過程中需要做特殊處理。
有了大致的瞭解後,是否任意存儲格式的表均具有ACID特性?
首先TextFile,預設建表語句中關於事務的配置項:
'transactional'='true', 'transactional_properties'='insert_only',
可以執行insert操作,但是無法執行delete和update,報錯:
Error: Error while compiling statement: FAILED: SemanticException [Error 10414]: Attempt to do update or delete on table test.text_table1 that is insert-only transactional (state=42000,code=10414)
嘗試修改transactional_properties值為default,但是無法修改:
Error: Error while processing statement: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. Cannot convert an ACID table to non-ACID (state=08S01,code=1)
官網的意思是目前僅支持ORC格式的hive表:
此外Hive ACID還存在一些限制:
https://cwiki.apache.org/confluence/display/Hive/Hive+Transactions#:~:text=SQL MERGE statement.-,Limitations,-BEGIN%2C COMMIT
本博客為學習所記,意在備忘所學過程,故有引用之處,其中參考博客有:
-
深入學習MySQL事務:ACID特性的實現原理https://www.cnblogs.com/kismetv/p/10331633.html
-
實戰 | 深入理解 Hive ACID 事務表
https://blog.csdn.net/zjerryj/article/details/91470261