Hive集合數據類型_ZenDei技術網路在線

Hive集合數據類型

-Advertisement-

Hive的列除了支持基本的數據類型外，還支持使用Struct、Map和Array三種集合數據類型。假設某表有如下一行，我們用JSON格式來表示其數據結構。在Hive下訪問的格式為 { "name": "John Doe", "salary": 100000.0 , "subordinates": ... ...

Hive的列除了支持基本的數據類型外，還支持使用Struct、Map和Array三種集合數據類型。

假設某表有如下一行，我們用JSON格式來表示其數據結構。在Hive下訪問的格式為

{
    "name": "John Doe",
    "salary": 100000.0 ,
    "subordinates": ["Mary Smith" , "Todd Jones"] ,   //列表Array, subordinates[1]=”Tood Jones”
    "deductions": {                                  //鍵值Map, deductions[’Federal Taxes’]=0.2
        "Federal Taxes": 0.2 ,
        "State Taxes": 0.05,
        "Insurance": 0.1
    }
    "address": {                                     //結構Struct, address.city=”Chicago”
        "street": "1 Michigan Ave." ,
        "city": "Chicago" ,
        "state": "IL" ,
        "zip": 60600
    }
}

基於上述數據結構，我們在Hive里創建對應的表，並導入數據。

創建本地測試文件6_1.txt

John Doe,100000.0,Mary Smith_Todd Jones,Federal Taxes:0.2_State Taxes:0.05_Insurance:0.1,1 Michigan Ave._Chicago_1L_60600
Tom Smith,90000.0,Jan_Hello Ketty,Federal Taxes:0.2_State Taxes:0.05_Insurance:0.1,Guang dong._China_0.5L_60661

註意，STRUCT和ARRAY里的元素間關係都可以用同一個字元表示，這裡用“_”。

Hive上創建測試表employees

CREATE  TABLE learn.employees(
name STRING,
sa1ary FLOAT,
subordinates ARRAY<STRING>,
deductions MAP<STRING, FLOAT>,
address STRUCT<street:STRING, city:STRING, state:STRING, zip:INT>
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','    -- 列分隔符
COLLECTION ITEMS TERMINATED BY '_'  -- STRUCT 和 ARRAY 的分隔符
MAP KEYS TERMINATED BY ':' -- MAP中的key與value的分隔符
LINES TERMINATED BY '\n';  -- 行分隔符

導入文本數據到測試表

load data local inpath "/home/hadoop/files/input/6_1.txt" overwrite into table learn.employees ;

訪問三種集合列里的數據，以下分別是ARRAY，MAP，STRUCT的訪問方式

hive> select subordinates[1], deductions['Federal Taxes'],address.city from learn.employees;
OK
Todd Jones     0.2    Chicago
Hello Ketty    0.2    China
Time taken: 0.123 seconds, Fetched: 2 row(s)

通過集合類型來定義列的好處是什麼？

在大數據系統中，不遵循標準格式的一個好處就是可以提供更高吞吐量的數據。
當處理的數據的數量級是T 或者P 時，以最少的"頭部定址"來從磁碟上掃描數據是非常必要的。按數據集進行封裝的話可以通過減少定址次數來提供查詢的速度。而如果根據外鍵關係關聯的話則需要進行磁碟間的定址操作，這樣會有非常高的性能消耗。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

自定義控制項詳解（四）：Paint 畫筆路徑效果

Paint 畫筆，即用來繪製圖形的"筆" 前面我們知道了Paint的一些基本用法：不過我們會發現，這樣畫出的線條都是筆筆直直的，能滿足需求，但是美觀上並不好看。這就需要使用到Paint類更多的一些方法了首先，看下最簡單設置的線條一、線條路徑樣式設置路徑樣式;取值類型是所有派生自Path ...
Install Qualcomm Development Environment

安裝 Android Development Environment http://www.cnblogs.com/youchihwang/p/6645880.html 2. answer : no 3. Installing Repo 4. ARM Compiler Tools 5.01 upda ...
安卓開源項目周報0405

由OpenDigg 出品的安卓開源項目周報第十五期來啦。我們的安卓開源周報集合了OpenDigg一周來新收錄的優質的安卓開源項目，方便安卓開發人員便捷的找到自己需要的項目工具。 ...
Android常用的圖片載入庫

圖片載入涉及到圖片的緩存、圖片的處理、圖片的顯示等。四種常用的圖片載入框架，分別是Fresco、ImageLoader、 Picasso、 Glide... ...
按首字母排序的json數據表

為了ios開發中tableview讀取數據的方便，先弄了一個只有字母的json表，再將未處理的數據添加到上面。僅用於將首字母作為section head。 [{"initial":"A","list":[]},{"initial":"B","list":[]},{"initial":"C","lis ...
cmake編譯方式安裝mysql5.6.12

安裝rz工具和wget工具：分別如下： sudo yum install lrzsz;yum install wget 安裝cmake編譯工具：rz -y 選擇下載的cmake工具上傳到伺服器中安裝c、c++：yum -y install gcc-c++ 環境參數：Linux:Centos6.5, ...
cassandra高級操作之JMX操作

需求場景項目中有這麼個需求：統計集群中各個節點的數據量存儲大小，不是記錄數。一開始有點無頭緒，後面查看cassandra官方文檔看到Monitoring章節，裡面說到：Cassandra中的指標使用Dropwizard Metrics庫進行管理。這些指標可以通過JMX查詢，也可以使用多個內置和 ...
MySQL flashback 功能

簡要介紹MySQL Flashback 的原理，安裝和使用。 ...