Hive(一):架構及知識體系_ZenDei技術網路在線

Hive(一):架構及知識體系

-Advertisement-

Hive是一個基於Hadoop的數據倉庫，最初由Facebook提供，使用HQL作為查詢介面、HDFS作為存儲底層、mapReduce作為執行層，設計目的是讓SQL技能良好，但Java技能較弱的分析師可以查詢海量數據，2008年facebook把Hive項目貢獻給Apache。Hive提供了比較完整 ...

Hive是一個基於Hadoop的數據倉庫，最初由Facebook提供，使用HQL作為查詢介面、HDFS作為存儲底層、mapReduce作為執行層，設計目的是讓SQL技能良好，但Java技能較弱的分析師可以查詢海量數據，2008年facebook把Hive項目貢獻給Apache。Hive提供了比較完整的SQL功能（本質是將SQL轉換為MapReduce），自身最大的缺點就是執行速度慢。Hive有自身的元數據結構描述，可以使用MySql\ProstgreSql\oracle 等關係型資料庫來進行存儲，但請註意Hive中的所有數據都存儲在HDFS中。雖然 hive 可能存在這樣那樣的問題，但它作為後續研究 sparkSql 的基礎，值得重點研究。

解釋一下經常遇到的 hiveServer1、hiveServer2 ? 早期版本的 hiveServer(即 hiveServer1)因使用Thrift介面的限制，不能處理多於一個客戶端的併發請求，在hive-0.11.0版本中重寫了hiveServer代碼（即 hiveServer2)，支持了多客戶端的併發和認證，並且為開放API客戶端如JDBC、ODBC提供了更好的支持。

目錄：

hive 架構
知識體系
數據類型
Beeline

hive架構：

用戶介面主要有三個：CLI（command line interface)命令行，Client 和 Web UI, CLI是開發過程中常用的介面，在 hive Server2提供新的命令beeline，使用sqlline語法，會有單獨的章節來介紹
metaStore: hive 的元數據結構描述信息庫，可選用不同的關係型資料庫來存儲，通過配置文件修改、查看資料庫配置信息，如下圖（/etc/hive/2.4.2.0-258/0/hive-siet.xml)
Driver: 解釋器、編譯器、優化器完成HQL查詢語句從詞法分析、語法分析、編譯、優化以及查詢計劃的生成。生成的查詢計劃存儲在HDFS中，併在隨後由MapReduce調用執行
Hive的數據存儲在HDFS中，大部分的查詢、計算由MapReduce完成

知識體系：

包含shell命令語法、HiveQl語法、訪問方式等，如下圖：

數據類型：

hiveServer2支持以下數據類型，圖片來至（https://cwiki.apache.org/confluence/display/Hive/HiveServer2+Clients）

Beeline:

HiveServer2提供了一個新的命令行工具Beeline，它是基於SQLLine CLI的JDBC客戶端。
命令： cd /usr/hdp/2.4.2.0-258/hive/bin (切換至hive安裝bin目錄), 通過 beeline 命令進入beeline shell
beeline 啟動常用參數說明：
1. -u<database URL>：通過 JDBC 訪問資料庫的 Url 地址
2. -n <username>: 訪問資料庫的用戶名
3. -p <password> : 訪問資料庫密碼
4. -e <query>：Sql 語句執行參數 beeline -e "query_string"
5. -f <file>： sql文件執行參數， beeline -f filepath
6. --color=[true/false]：Control whether color is used for display. Default is false
7. --help：幫助
命令: beeline
進入 beeline 命令行後，連接資料庫： !connect jdbc:hive2://localhost:10000/default
輸入用戶名和密碼，進入 beeline shell
sqlline 語法：！quit 退出beeline （不要帶分號）
多行命令用 ";" 分隔，註釋： “ -- ” （在裡面執行的sql語句要帶分號）

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

資料庫SQL 多態

Sealed關鍵字：密封類該類無法被繼承部分類： Namespace 命名空間虛擬文件夾 Partial關鍵字可以將一個類拆分成多個部分，分別放在多個文件里多態： 1.編譯多態函數重載 2.運行多態概念：當父類引用指向子類實例的時候，由於子類對父類的方法進行了重寫。在調用該方法的時候表 ...
MySQL關於exists的一個bug

今天碰到一個很奇怪的問題，關於exists的，第一個語句如下：產生的結果是：89584 第二個語句如下：產生的結果是：432382 確實相當奇怪，對於exist子句來說，其判斷的是子查詢的值是否存在，也就是說，列名，和對列名求最大值沒什麼區別啊。包括MySQL官方文檔中也提到大意就是MyS ...
從傳統企業談大數據的戰略意義

當前全球正處在新一輪科技革命和產業變革的關鍵時期，以大數據為代表的信息技術產業變革，使各個企業在信息技術發展上處於新的起跑線上，如何充分挖掘利用大數據資源，是企業當前面臨的重大課題。 ...
屌炸天實戰 Mysql 系列教程（二）史上最屌、你不知道的資料庫操作

一、資料庫操作 1、查看資料庫 2、創建資料庫 3、使用資料庫 4、用戶管理 mysql> SELECT DISTINCT CONCAT('User: ''',user,'''@''',host,''';') AS query FROM mysql.user; + + | query | + + | ...
Oracle Like查詢

查詢方式：LIKE '%xx%' 普通： SELECT * FROM TABLE T WHERE T.COLUNM LIKE '%xx%' 優化：使用 INSTR SELECT * FROM TABLE T WHERE INSTR(T.COLUNM, xx)>0 在執行的時候，執行計劃顯示，消耗值， ...
Hive(四):c#通過odbc訪問hive

hive odbc 驅動配置成功後，通過c#訪問就變得比較簡單了，分為查詢與更新操作，直接附上測試代碼。在此過程中需要註意c#工程編譯的目標平臺讀寫訪問代碼示例： public class HiveOdbcClient { /// <summary> /// /// </summary> publ ...
Hive(三):SQuirrel連接hive配置

熟悉了Sqlserver的sqlserver management studio、Oracle的PL/SQL可視化資料庫查詢分析工具，在剛開始使用hive、phoenix等類sql組件時，一直在苦苦搜尋是否也有類似的工具，不負所望，SQuirrel Sql client 可視化資料庫工具基本可滿足要 ...
Hive(二):windows hive ODBC 安裝

針對Windows 32位和64位的系統對應有多個版本的 Hive ODBC Connector, 在安裝的過程中，版本必須完全匹配（即：32位的 connector 只能在32位的系統運行，64位的 connector 只能在 64位系統運行）參考資料： http://doc.mapr.com/ ...