Hive(一):架構及知識體系

来源:http://www.cnblogs.com/tgzhu/archive/2016/08/11/5759610.html
-Advertisement-
Play Games

Hive是一個基於Hadoop的數據倉庫,最初由Facebook提供,使用HQL作為查詢介面、HDFS作為存儲底層、mapReduce作為執行層,設計目的是讓SQL技能良好,但Java技能較弱的分析師可以查詢海量數據,2008年facebook把Hive項目貢獻給Apache。Hive提供了比較完整 ...


     Hive是一個基於Hadoop的數據倉庫,最初由Facebook提供,使用HQL作為查詢介面、HDFS作為存儲底層、mapReduce作為執行層,設計目的是讓SQL技能良好,但Java技能較弱的分析師可以查詢海量數據,2008年facebook把Hive項目貢獻給Apache。Hive提供了比較完整的SQL功能(本質是將SQL轉換為MapReduce),自身最大的缺點就是執行速度慢。Hive有自身的元數據結構描述,可以使用MySql\ProstgreSql\oracle 等關係型資料庫來進行存儲,但請註意Hive中的所有數據都存儲在HDFS中。雖然 hive 可能存在這樣那樣的問題,但它作為後續研究 sparkSql 的基礎,值得重點研究。

    解釋一下經常遇到的 hiveServer1、hiveServer2 ?  早期版本的 hiveServer(即 hiveServer1)因使用Thrift介面的限制,不能處理多於一個客戶端的併發請求,在hive-0.11.0版本中重寫了hiveServer代碼(即 hiveServer2),支持了多客戶端的併發和認證,並且為開放API客戶端如JDBC、ODBC提供了更好的支持。

目錄:

  • hive 架構
  • 知識體系
  • 數據類型
  • Beeline

hive架構:  

  • 用戶介面主要有三個:CLI(command line interface)命令行,Client 和 Web UI, CLI是開發過程中常用的介面,在 hive Server2提供新的命令beeline,使用sqlline語法,會有單獨的章節來介紹
  • metaStore: hive 的元數據結構描述信息庫,可選用不同的關係型資料庫來存儲,通過配置文件修改、查看資料庫配置信息,如下圖(/etc/hive/2.4.2.0-258/0/hive-siet.xml)
  • Driver: 解釋器、編譯器、優化器完成HQL查詢語句從詞法分析、語法分析、編譯、優化以及查詢計劃的生成。生成的查詢計劃存儲在HDFS中,併在隨後由MapReduce調用執行
  • Hive的數據存儲在HDFS中,大部分的查詢、計算由MapReduce完成

知識體系:

  •  包含shell命令語法、HiveQl語法、訪問方式等,如下圖:

數據類型:

  • hiveServer2支持以下數據類型,圖片來至 (https://cwiki.apache.org/confluence/display/Hive/HiveServer2+Clients)

Beeline:

  • HiveServer2提供了一個新的命令行工具Beeline,它是基於SQLLine CLI的JDBC客戶端。
  • 命令: cd  /usr/hdp/2.4.2.0-258/hive/bin   (切換至hive安裝bin目錄), 通過 beeline 命令進入beeline shell
  • beeline 啟動常用參數說明:
    1.  -u<database URL>:  通過 JDBC 訪問資料庫的 Url 地址
    2.  -n <username>: 訪問資料庫的用戶名
    3.  -p <password> : 訪問資料庫密碼
    4.  -e <query>:Sql 語句執行參數  beeline -e "query_string"
    5.  -f <file>: sql文件執行參數, beeline -f filepath
    6. --color=[true/false]:Control whether color is used for display. Default is false
    7. --help:幫助
  • 命令: beeline
  • 進入 beeline 命令行後,連接資料庫 : !connect jdbc:hive2://localhost:10000/default 
  • 輸入用戶名和密碼,進入 beeline shell
  • sqlline 語法: !quit  退出beeline (不要帶分號)
  • 多行命令用 ";" 分隔, 註釋: “ -- ”  (在裡面執行的sql語句要帶分號)

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Sealed關鍵字:密封類 該類無法被繼承 部分類: Namespace 命名空間 虛擬文件夾 Partial關鍵字 可以將一個類拆分成多個部分,分別放在多個文件里 多態: 1.編譯多態 函數重載 2.運行多態 概念:當父類引用指向子類實例的時候,由於子類對父類的方法進行了重寫。在調用該方法的時候表 ...
  • 今天碰到一個很奇怪的問題,關於exists的, 第一個語句如下: 產生的結果是:89584 第二個語句如下: 產生的結果是:432382 確實相當奇怪,對於exist子句來說,其判斷的是子查詢的值是否存在,也就是說,列名,和對列名求最大值沒什麼區別啊。 包括MySQL官方文檔中也提到 大意就是MyS ...
  • 當前全球正處在新一輪科技革命和產業變革的關鍵時期,以大數據為代表的信息技術產業變革,使各個企業在信息技術發展上處於新的起跑線上,如何充分挖掘利用大數據資源,是企業當前面臨的重大課題。 ...
  • 一、資料庫操作 1、查看資料庫 2、創建資料庫 3、使用資料庫 4、用戶管理 mysql> SELECT DISTINCT CONCAT('User: ''',user,'''@''',host,''';') AS query FROM mysql.user; + + | query | + + | ...
  • 查詢方式:LIKE '%xx%' 普通: SELECT * FROM TABLE T WHERE T.COLUNM LIKE '%xx%' 優化:使用 INSTR SELECT * FROM TABLE T WHERE INSTR(T.COLUNM, xx)>0 在執行的時候,執行計劃顯示,消耗值, ...
  • hive odbc 驅動配置成功後,通過c#訪問就變得比較簡單了,分為查詢與更新操作,直接附上測試代碼。在此過程中需要註意c#工程編譯的目標平臺 讀寫訪問代碼示例: public class HiveOdbcClient { /// <summary> /// /// </summary> publ ...
  • 熟悉了Sqlserver的sqlserver management studio、Oracle的PL/SQL可視化資料庫查詢分析工具,在剛開始使用hive、phoenix等類sql組件時,一直在苦苦搜尋是否也有類似的工具,不負所望,SQuirrel Sql client 可視化資料庫工具基本可滿足要 ...
  • 針對Windows 32位和64位的系統對應有多個版本的 Hive ODBC Connector, 在安裝的過程中,版本必須完全匹配(即:32位的 connector 只能在32位的系統運行,64位的 connector 只能在 64位系統運行) 參考資料: http://doc.mapr.com/ ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...