Hive表的幾種存儲格式_ZenDei技術網路在線

Hive表的幾種存儲格式

-Advertisement-

Hive的文件存儲格式： textFile textFile為預設格式存儲方式：行存儲缺點：磁碟開銷大；數據解析開銷大；壓縮的text文件，hive無法進行合併和拆分 sequencefile 二進位文件，以<key,value>的形式序列化到文件中存儲方式：行存儲優點：可分割、壓縮，一般選 ...

Hive的文件存儲格式：

textFile

　　　　textFile為預設格式

　　　　存儲方式：行存儲

　　　　缺點：磁碟開銷大；數據解析開銷大；壓縮的text文件，hive無法進行合併和拆分

sequencefile

　　　　二進位文件，以<key,value>的形式序列化到文件中

　　　　存儲方式：行存儲

　　　　優點：可分割、壓縮，一般選擇block壓縮，與hadoop api中的mapfile是互相相容的。

Rcfile

　　　　存儲方式：數據按行分塊每塊按照列存儲

　　　　壓縮快快速列存取

　　　　讀記錄儘量涉及到的block最少

　　　　讀取需要的列只需要讀取每個row group 的頭部定義。

　　　　讀取全量數據的操作性能可能比sequencefile沒有明顯的優勢

　　　　存儲方式：數據按行分塊每塊按照列存儲

　　　　壓縮快快速列存取

　　　　效率比rcfile高，是rcfile的改良版本

　　　　官網介紹：

　　　　The Optimized Row Columnar (ORC) file format provides a highly efficient way to store Hive data. It was designed to overcome limitations of the other Hive file formats. Using ORC files improves performance when Hive is reading, writing, and processing data.

　　　　ORC實際上是在RC文件存儲格式做了一些優化，它的主要優點有：
　　　　　　(1)、每個task只輸出單個文件，這樣可以減少NameNode的負載；
　　　　　　(2)、支持各種複雜的數據類型，比如： datetime, decimal, 以及一些複雜類型(struct, list, map, and union)；
　　　　　　(3)、在文件中存儲了一些輕量級的索引數據；
　　　　　　(4)、基於數據類型的塊模式壓縮：a、integer類型的列用行程長度編碼(run-length encoding);b、String類型的列用字典編碼(dictionary encoding)；
　　　　　　(5)、用多個互相獨立的RecordReaders並行讀相同的文件；
　　　　　　(6)、無需掃描markers就可以分割文件；
　　　　　　(7)、綁定讀寫所需要的記憶體；
　　　　　　(8)、metadata的存儲是用 Protocol Buffers的，所以它支持添加和刪除一些列。

自定義格式

　　　　用戶可以通過實現inoutformat和outputformat來定義輸入輸出格式。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

sqlserver實現分隔字元串

sqlserver 使用函數實現分隔字元串 create function dbo.fn_split ( @str_source nvarchar(max), @split_char nvarchar(100) ) returns @temp table ( id int primary key i ...
【Elasticsearch 7 探索之路】（三）倒排索引

上一篇，我們介紹了 ES 文檔的基本 CURE 和批量操作。我們都知道倒排索引是搜索引擎非常重要的一種數據結構，什麼是倒排索引，倒排索引的原理是什麼。 1 索引過程在講解倒排索引前，我們先瞭解索引創建，下圖是 Elasticsearch 中數據索引過程的流程。從上圖可以看到，文檔未在 ES 中進 ...
sqlserver查看表空間

sqlserver 用於查看當前資料庫所有表占用空間大小的存儲過程 create procedure dbo.proc_getsize as begin create table #temp ( t_id int primary key identity(1,1), t_name sysname, ...
本地庫還原至阿裡雲RDS伺服器

摸索了很久，在此也感謝阿裡雲售後兄弟的支持。 1、首先得要有個阿裡雲賬號，已經購買RDS資料庫（本文針對SQL Server）且已經開通阿裡雲OSS服務。 2、本文檔適用於以下版本的實例： RDS for SQL Server 2012/2016 Web版 RDS for SQL Server ...
redis緩存

分散式項目的常見問題：對於首頁每天有大量的人訪問，對資料庫造成很大的訪問壓力，甚至是癱瘓。那如何解決呢？我們通常的做法有兩種：一種是數據緩存、一種是網頁靜態化。 redis是一款開源的Key-Value資料庫，運行在記憶體中，由ANSIC編寫。企業開發通常採用redis來實現緩存。同類的產品有Memc ...
sqlserver取字元串拼音首字母

sqlserver 使用函數獲取一個字元串的拼音首字母 create function dbo.fn_getpinyin ( @str nvarchar(max) ) returns nvarchar(max) as begin declare @word nchar(1),@PY nvarchar ...
sqlserver分頁存儲過程

sqlserver 單表（視圖）通用分頁存儲過程 create procedure proc_getpage @table_name varchar(100), --表名（視圖） @select_fields varchar(1000)=' * ', --需要返回的列 @page_size int= ...
oracle體繫結構簡介

oracle體繫結構簡介一、物理存儲結構 1、數據文件存放資料庫數據，以dbf為擴展名。將數據放在多個數據文件中，再將數據文件分放在不同的硬碟中，可以提高存取速度。數據文件由數據塊構成，塊大小由資料庫創建時確定。 2、重做日誌文件，以rdo為擴展名。含對資料庫所做的更改記錄，這樣萬一齣現故 ...