Hive ACID筆記

来源:https://www.cnblogs.com/dogplay-525/archive/2023/12/29/17933252.html
-Advertisement-
Play Games

環境:hive 3.1.0 執行引擎:hive on tez 什麼是hive ACID? hive官網對於ACID的介紹: https://cwiki.apache.org/confluence/display/Hive/Hive+Transactions 中文文檔關於ACID的介紹: https: ...


環境:hive 3.1.0
執行引擎:hive on tez

  1. 什麼是hive ACID?
    hive官網對於ACID的介紹:
    https://cwiki.apache.org/confluence/display/Hive/Hive+Transactions
    中文文檔關於ACID的介紹:
    https://www.docs4dev.com/docs/zh/apache-hive/3.1.1/reference/Hive_Transactions.html
    其實和傳統資料庫中所說的ACID有異曲同工之妙:
  2. 原子性(Atomicity
    原子性是指事務是一個不可分割的工作單位,事務中的操作要麼全部成功,要麼全部失敗。
  3. 一致性(Consistency
    事務必須使資料庫從一個一致性狀態變換到另外一個一致性狀態。
    舉例說明:張三向李四轉100元,轉賬前和轉賬後的數據是正確的狀態,這就叫一致性,如果出現張三轉出100元,李四賬號沒有增加100元這就出現了數據錯誤,就沒有達到一致性。
  4. 隔離性(Isolation
    事務的隔離性是多個用戶併發訪問資料庫時,資料庫為每一個用戶開啟的事務,不能被其他事務的操作數據所干擾,多個併發事務之間要相互隔離。
  5. 持久性(Durability
    持久性是指一個事務一旦被提交,它對資料庫中數據的改變就是永久性的,接下來即使資料庫發生故障也不應該對其有任何影響。
    其中事務Transaction)是訪問和更新資料庫的程式執行單元;事務中可能包含一個或多個sql語句,而ACID是衡量事務的4個維度。hive0.13之後提供了行級別ACID,
    常見的INSERT、UPDATE和DELETE已經在hive0.14開始支持,先創建一張預設結構的hive表
    create table test.trans_table1(column1 string,column2 string);
    SHOW CREATE TABLE查看其建表語句:
CREATE TABLE `test.trans_table1`(
  `column1` string, 
  `column2` string)
ROW FORMAT SERDE 
  'org.apache.hadoop.hive.ql.io.orc.OrcSerde' 
STORED AS INPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.orc.OrcInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat'
LOCATION
  'hdfs://ambari-hadoop1:8020/warehouse/tablespace/managed/hive/test.db/trans_table1'
TBLPROPERTIES (
  'bucketing_version'='2', 
  'transactional'='true', 
  'transactional_properties'='default', 
  'transient_lastDdlTime'='1703744670')

發現其配置項中有三個和事務相關的選項:

  • transactional:是否啟用表的事務支持
  • transactional_properties:指定了事務的屬性
    1.default: 預設值,表示支持插入、更新、刪除操作。
    2.insert_only: 僅支持插入操作,不支持更新和刪除。
    3.insert_only_external: 僅支持插入操作,對於外部表。
  • transient_lastDdlTime:最後一次DDL日期時間
    hive預設創建存儲格式為ORC的事務表,對錶執行一次insert values操作發現增加了一個delta開頭的目錄

    其下有兩個文件_orc_acid_version和bucket_00000

    而delete操作也同樣會生成目錄:

    而UPDATE操作則會同時生成兩個目錄:

    先創建一個delete首碼的目錄,再創建一個代表insert的delta首碼目錄,即先刪除後插入。
    以上目錄的命名規範格式為 delta_minWID_maxWID_stmtID,即 delta 首碼、寫事務的 ID 範圍、以及語句 ID。
  • 針對寫事務(INSERT、DELETE 等),Hive 還會創建一個寫事務 ID(Write ID),該 ID 在表範圍內唯一。
  • 語句 ID(Statement ID)則是當一個事務中有多條寫入語句時使用的,用作唯一標識。
    _orc_acid_version 的內容是 2,即當前 ACID 版本號是 2。而bucket開頭的文件則是實際的數據內容,由於存儲格式是ORC,可以使用以下方法查看:
    hive --orcfiledump /warehouse/tablespace/managed/hive/test.db/trans_table1/delta_0000001_0000001_0000/bucket_00000
    可以查看相關元數據,但並非數據本身,這裡不做過多解析:

    hive --orcfiledump -d /warehouse/tablespace/managed/hive/test.db/trans_table1/delta_0000001_0000001_0000/bucket_00000
    則可以查看相關數據內容:
  • operation 0 表示插入,1 表示更新,2 表示刪除。由於使用了 split-update,UPDATE 是不會出現的;
  • originalTransaction是該條記錄的原始寫事務 ID。對於 INSERT 操作,該值和 currentTransaction是一致的。對於 DELETE,則是該條記錄第一次插入時的寫事務 ID;
  • bucket是一個 32 位整型,由 BucketCodec 編碼,各個二進位位的含義為:
    1-3 位:編碼版本,當前是 001;
    4 位:保留;
    5-16 位:分桶 ID,由 0 開始。分桶 ID 是由 CLUSTERED BY 子句所指定的欄位、以及分桶的數量決定的。該值和 bucket_N 中的 N 一致;
    17-20 位:保留;
    21-32 位:語句 ID;
    舉例來說,整型 536936448 的二進位格式為 00100000000000010000000000000000,即它是按版本 1 的格式編碼的,分桶 ID 為 1;
  • rowId 是一個自增的唯一 ID,在寫事務和分桶的組合中唯一;
  • currentTransaction 當前的寫事務 ID;
  • row 具體數據。對於 DELETE 語句,則為 null
    還可以通過 row__id 這個虛擬列進行查看(originalTransaction, bucket, rowId)
    select row__id,column1,column2 from test.trans_table1;

    註意row__id是兩個"_"符合。
    還有個問題由於每次DML的執行都會產生對應小文件,隨著時間推移DML執行次數的增多,會產生越來越多的小文件,而過多的小文件對HDFS會產生不利的影響,比如增加namenode的記憶體占用等等,為此hive引入了壓縮Compaction的概念。
    Minor Compaction 會將所有的 delta 文件壓縮為一個文件,delete 也壓縮為一個。壓縮後的結果文件名中會包含寫事務 ID 範圍,同時省略掉語句 ID。壓縮過程是在 Hive Metastore 中運行的,會根據一定閾值自動觸發。我們也可以使用如下語句人工觸發:
    ALTER TABLE trans_table1 COMPACT 'minor';
    壓縮前:

    壓縮後:

    查看壓縮後的文件發現,插入操作產生的數據都被合併起來:

    同樣刪除操作的數據也被合併在了一起:

    因此Minor Compaction 不會刪除任何數據。
    Major Compaction則會將所有文件合併為一個文件,以 base_N 的形式命名,其中 N 表示最新的寫事務 ID。已刪除的數據將在這個過程中被剔除。
    major前:

    major後:

      需要註意的是,在 Minor 或 Major Compaction 執行之後,原來的文件不會被立刻刪除。這是因為刪除的動作是在另一個名為 Cleaner 的線程中執行的。因此,表中可能同時存在不同事務 ID 的文件組合,這在讀取過程中需要做特殊處理。
    有了大致的瞭解後,是否任意存儲格式的表均具有ACID特性?
    首先TextFile,預設建表語句中關於事務的配置項:
    'transactional'='true', 'transactional_properties'='insert_only',
    可以執行insert操作,但是無法執行delete和update,報錯:
    Error: Error while compiling statement: FAILED: SemanticException [Error 10414]: Attempt to do update or delete on table test.text_table1 that is insert-only transactional (state=42000,code=10414)
    嘗試修改transactional_properties值為default,但是無法修改:
    Error: Error while processing statement: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. Cannot convert an ACID table to non-ACID (state=08S01,code=1)
    官網的意思是目前僅支持ORC格式的hive表:

    此外Hive ACID還存在一些限制:
    https://cwiki.apache.org/confluence/display/Hive/Hive+Transactions#:~:text=SQL MERGE statement.-,Limitations,-BEGIN%2C COMMIT

本博客為學習所記,意在備忘所學過程,故有引用之處,其中參考博客有:

  1. 深入學習MySQL事務:ACID特性的實現原理https://www.cnblogs.com/kismetv/p/10331633.html

  2. 實戰 | 深入理解 Hive ACID 事務表
    https://blog.csdn.net/zjerryj/article/details/91470261


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一:背景 1. 講故事 在dump分析的旅程中也會碰到一些讓我無法解釋的靈異現象,追過這個系列的朋友應該知道,上一篇我聊過 宇宙射線 導致的程式崩潰,後來我又發現了一例,而這一例恰恰是高鐵的 列控連鎖一體化 程式,所以更加讓我確定這是由於 電離輻射 干擾了電腦的 數字信號 導致程式的bit翻轉,而 ...
  • 概述:在.NET Core中,通過JsonSerializerOptions的JsonConverter參數,我們能夠定製化JSON序列化和反序列化過程。通過自定義JsonConverter,如DateTimeConverter和IntConverter,我們能夠靈活處理特定類型的轉換邏輯,提供更多 ...
  • 一、環境說明 操作系統版本:OpenEuler22.03 SP2 LTS Nginx版本:1.24.0 安裝位置:/app/nginx Selinux配置:關閉或設置為permissive 二、Nginx安裝 # 安裝必要依賴 dnf -y install tar gcc make pcre pcr ...
  • 摘要:MacOS下免密登錄的一些註意事項。 系統環境 操作系統:macOS Sonoma 14.2.1 SSH免密登錄 ssh免密登錄的原理是在本機生成本機的ssh公鑰和私鑰,將公鑰上傳至待連接的主機,本機通過私鑰進行ssh連接實現免密登錄。 # ssh密鑰生成命令 ssh-keygen # ssh ...
  • Linux中常用的分區類型包括:ESP(EFI System Partition)分區,它是引導分區,用於存儲系統文件。Swap分區,是一種文件系統,主要作用是作為Linux的虛擬記憶體。主目錄,它是用戶文件夾存儲的位置,即使在系統未啟動的情況下,也可以使用Live CD命令獲取文件。Home目錄,它 ...
  • 環境準備 序號 IP 標識(hostname) CPU/記憶體配置 系統盤 數據盤 1 192.168.8.190 pg01 8C+16G 80G 500G 2 192.168.8.191 pg02 8C+16G 80G 500G 3 192.168.8.192 pg03 8C+16G 80G 500 ...
  • 江鈴集團晶馬汽車有限公司(簡稱:晶馬汽車)系江鈴集團全資子公司,屬集團六大整車企業之一。晶馬汽車是以大、中、輕型客車(含新能源客車)、乘用車(不含轎車)、專用車等車型研發、生產、銷售和服務為核心的整車企業,涉及客運、公交、旅游、通勤、旅居車、物流、專用車等行業客戶。 伴隨公司信息化和數字化建設的逐步 ...
  • (1)活動簡介 2023.12.28——2024.1.15 期間,參與 GreatSQL 8.0.32-25 新版本體驗測試活動,只要發現並提交有效錯誤或 bug、或文檔手冊問題,即可獲得社區周邊、社區金幣獎勵!GreatSQL 期待您的參與~ (2)參與方式 新版體驗:下載並測試、使用 Great ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...