循序漸進,瞭解Hive是什麼!

来源:http://www.cnblogs.com/xing901022/archive/2016/08/30/5823811.html
-Advertisement-
Play Games

一直想抽個時間整理下最近的所學,斷斷續續接觸hive也有半個多月了,大體上瞭解了很多Hive相關的知識。那麼,一般對陌生事物的認知都會經歷下麵幾個階段: 為什麼會出現?解決了什麼問題? 如何搭建?如何使用? 如何精通? 我會在本篇粗略的介紹下前兩個問題,然後給一些相關的資料。第三個問題,就得慢慢靠實 ...


一直想抽個時間整理下最近的所學,斷斷續續接觸hive也有半個多月了,大體上瞭解了很多Hive相關的知識。那麼,一般對陌生事物的認知都會經歷下麵幾個階段:

  • 為什麼會出現?解決了什麼問題?
  • 如何搭建?如何使用?
  • 如何精通?

我會在本篇粗略的介紹下前兩個問題,然後給一些相關的資料。第三個問題,就得慢慢靠實踐和時間積累了。

如果有什麼問題,可以直接留言!

為什麼出現?解決了什麼問題?

背景

說到這個問題,還得先說個小故事,在很久很久以前....

有一個叫facebook的賊有名的公司,他們內部搭建了數據倉庫(你可以理解成把一大堆數據放到一個地方,然後做報表給老闆看!),是基於mysql的。後來隨著數據量的不斷增加,這種傳統的資料庫扛不住了...於是經過一系列的折騰換到了hadoop上(hadoop是個大數據體系,用的是裡面的hdfs,做存儲的。你可以理解成搞一堆破爛機器湊成個集群,然後存儲超級多的數據)。

問題來了!

以前基於資料庫的數據倉庫用sql就能做查詢,現在換到hdfs上面,得跑Mapreduce任務去做分析,這樣以前做分析的人還得學mapreduce,好難呀!

於是...他們就開發了一套框架就是用sql來做hdfs的查詢(用戶輸入的是sql,框架內部把sql轉成mapreduce的任務,然後再去跑分析)。

於是,Hive誕生了...看看上面同樣是wordcount,mapreduce和hive的區別,能看到效果了吧。

解決的問題

Hive基於類似SQL的語言完成對hdfs數據的查詢分析。

那麼它到底做了什麼呢?

  • 1 它支持各種命令,比如dfs的命令、腳本的執行
  • 2 如果你輸入的是sql,它會交給一個叫做Driver的東東,去編譯解析。
  • 3 把編譯出來的東西交給hadoop去跑...然後返回查詢結果。

說了這麼多,其實你就可以把hive理解成搭建在hadoop(hdfs和mapreduce)之上的語言殼子...

如何搭建?如何使用?

搭建的可以參考這篇,感覺已經寫的很詳細了

學習如何使用Hive還是個很重要的部分的!這裡就不詳細的說了,都舉個小例子,具體的還是去擼官網吧!

創建

在Hive裡面創建表和在普通的資料庫中創建表示類似的,都是先創建(或者使用預設的)資料庫,然後創建表。

create database xxx; -- 創建資料庫
use xxx; --使用資料庫
create table student(id string,name string,age int); --創建表

導入導出數據

數據的導入最常用的就是從hdfs的文件導入或者本地文件導入,也可以從某個查詢結果直接創建或者導入。

Hive還支持把查詢結果導出到文件...

數據的導入導出參考這篇文章,寫的很詳細了

查詢

最普通的查詢,就是select from句式了,Hive還是做得比較通用的

--普通查詢
select * from xxx;
--帶條件的查詢
select * from xxx where age>30;
--限制返回列
select name,age from xxx;
--內連接
select a.*,b.* from tablea a join tableb b on a.id=b.sid;
--左連接
select * from a left outer join b on a.id=b.sid;
--右連接
select * from a right outer join b on a.id=b.sid;

函數

Hive支持一大堆的函數,比如普通的函數UDF:

floor、ceil、rand、cast等等

還支持聚合類型的函數UDAF:

count、avg、min、max、sum

還支持生成多行的函數。

更厲害的是,支持自定義擴展~~ 比如你們公司有個mapreduce的專家,可以封裝很多的函數,然後別的會sql的分析人員,就可以使用這些函數做數據倉庫的分析了。

存儲

首先需要說明的是,Hive在存儲的時候是不做任何處理的。不像是資料庫,存進去的數據要先進行特定的解析,比如解析成一個一個的欄位,然後挨個存儲。每個資料庫的存儲引擎不同,解析的方式就不太一樣。

在Hive中的數據都是存儲在hdfs中的,如果沒有特殊的聲明,會以文本的形式存儲,即不會再存儲前做任何操作。簡直就相當於是原封不動的拷貝。當你執行查詢的時候,會按照預先指定的解析規則解析,然後返回。

舉個例子更好理解點:

你的文件:
1,a
2,b
3,c
那麼創建表的時候會這樣:

create table xxx(a string,b string) row format delimited fields terminated by ',';

這個fields terminated by ','就聲明瞭欄位按照逗號進行分割。
那麼當hive執行查詢的時候,就會遍歷文件,遇到逗號就分隔成一個欄位~最後把結果返回。

畢竟hdfs還是按照塊來存儲數據的....這也是為什麼Hive不支持局部的修改和刪除,只能整體的覆蓋、刪除。

除了前面說的文本格式(TextFile),Hive還支持SequenceFile、RCFile,各有各的優勢。sequenceFile相當於把數據切分了,然後可以局部的記錄或者塊進行壓縮。RCFile則是列式存儲,這樣可以提高壓縮比;還可以在查詢的時候跳過不必要的列。

分區

在Hive中資料庫和表其實都是hdfs中的一個目錄,比如你的a資料庫下的表b,存儲的路徑是這樣的:

/user/hive/warehouse/a.db/b
後面兩個部分a.db/b是很關鍵的,即“資料庫名.db/表名”

在Hive還支持分區的概念。即按照某個特定的欄位,對錶進行劃分。通常這個欄位都是虛擬的,比如時間....

create table aa(a string,b string) partitioned by(c string);

這樣就創建了分區表,如果c欄位有"aaa"和"bbb"兩個值,最終的目錄就是醬嬸的!

/user/hive/warehouse/a.db/b/c=aaa
/user/hive/warehouse/a.db/b/c=bbb

註意都是目錄哦!真正的文件在這些目錄下麵。

由於都是目錄,就很好理解,為什麼分區查詢會快了!因為在hive中所有的查詢,基本都相當於是全表的掃描,因此要是能通過分區欄位進行過濾,那麼可以跳過很多不必要的文件了。

在Hive中支持靜態分區(即你導數據的時候指定分區欄位的值)、動態分區(按照欄位的值來定分區的名稱)。需要註意的是,動態分區會有很多潛在的風險,比如太多了!所以一定要合理規劃你的表存儲的設計。

索引

在hive0.7.0+的版本中,也是支持索引的。比如:

CREATE INDEX table02_index ON TABLE table02 (column3) AS 'COMPACT' WITH DEFERRED REBUILD;

CREATE INDEX table03_index ON TABLE table03 (column4) AS 'BITMAP' WITH DEFERRED REBUILD;

你也可以自定義索引的實現類,只要替換AS ''裡面的東西,變成自己的包名類名就行。

不過一樣的,添加索引雖然會加快索引。可是也意味著增加了存儲的負擔...所以自己衡量吧!

資源共用

安利個論壇,自願傳播的東西才是好東西——about雲,加裡面的群,每天都有精華分享。

無論是學習什麼,官方文檔總是最好的材料。

另外推薦一本書,反正也沒其他的書可以看——《Hive編程指南》


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一:首先瞭解一下生命周期圖 二:UIViewController 生命周期介紹 1.通過alloc init 分配記憶體,初始化controller. 2.loadView loadView方法預設實現[super loadView] 如果在初始化controller時指定了xib文件名,就會根據傳入 ...
  • 一:首先查看一下關於UIGestureRecognizer的定義 UIGestureRecognizer是一個抽象類,定義了所有手勢的基本行為,使用它的子類才能處理具體的手勢 知識點1:關於UIGestureRecognizer的子類如下(下麵這些才是我們平常會直接運用到的類): 實例如下: 二:關 ...
  • 1.1 重新規劃android的項目結構 重新規劃android的目錄結構分兩步: 1.建立AndroidLib類庫,將與業務無關的邏輯轉移到AndroidLib。 acitivity存放的是跟業務無關的Activity基類 cache包存放的是緩存數據和圖片相關的處理 net包存放的是網路底層封裝 ...
  • 在項目中總是需要緩存一些網路請求數據以減輕伺服器壓力,業內也有許多優秀的開源的解決方案。通常的緩存方案都是由記憶體緩存和磁碟緩存組成的,記憶體緩存速度快容量小,磁碟緩存容量大速度慢可持久化。 1、PINCache概述 PINCache 是 Pinterest 的程式員在 Tumblr 的 TMCache ...
  • SQLite3是iOS內嵌的資料庫,SQLite3在存儲和檢索大量數據方面非常有效,它使得不必將每個對象都加到記憶體中。還能夠對數據進行負責的聚合,與使用對象執行這些操作相比,獲得結果的速度更快。 SQLite3使用SQL結構化查詢語言,SQL是與關係資料庫交互的標準語言。 SQLite3的使用: 1 ...
  • 一:首先查看一下關於UIEvent的定義 UIEvent是代表iOS系統中的一個事件,一個事件包含一個或多個的UITouch;UIEvent分為三類:UIEventTypeTouches觸摸事件(通過觸摸、手勢進行觸發,例如手指點擊、縮放)、UIEventTypeMotion運動事件,通過加速器進行 ...
  • 一、問題回顧 問題是git commit --amend 引起的。 一條commit已經push到遠端develop了,但是後來又在這條commit上進行了amend操作,導致這條commit的哈希碼發生了變化。並且後續又在這條commit之後進行了N條commit操作。 <Begin> 大概的情況 ...
  • 今天一同事反饋使用SQL Server 2012 Management Studio連接SQL Server 2014後,選擇資料庫中某個表,然後單擊右鍵時,就會遇到下麵錯誤: 這個錯誤初看以為是許可權問題,後面驗證、檢查、查找資料過後,發現這個是一個bug來的,需要升級或應用SQL Server M... ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...