Hive的一些學習內容

来源:https://www.cnblogs.com/bytAya/archive/2019/07/02/MBP2090.html
-Advertisement-
Play Games

Hive相關 metadata是元數據,包含資料庫、表、欄位、分區等信息。作用:客戶端連接MetaStore服務,metastore再去連接MySQL資料庫存儲元數據,有了metastore服務可以實現多客戶端同時連接MySQL。 metastore三種配置:內嵌(Derby)、本地元存儲、遠程元存 ...


Hive相關

  1. 什麼是metastore?
  • metadata是元數據,包含資料庫、表、欄位、分區等信息。作用:客戶端連接MetaStore服務,metastore再去連接MySQL資料庫存儲元數據,有了metastore服務可以實現多客戶端同時連接MySQL。
  • metastore三種配置:內嵌(Derby)、本地元存儲、遠程元存儲
  • Hive的元數據預設存儲在Derby資料庫,建議存儲在像MySQL這種關係型資料庫中。
  • [為什麼建議存儲在關係型資料庫中?]:預設的Derby資料庫只能建立一個客戶端連接,不能實現多客戶端同時訪問。不適合生產環境。
  1. metastore安裝方式有什麼區別?
  • 內嵌:使用自帶的Derby資料庫存儲元數據,不需要額外的MetaStore服務。一次僅能有一個客戶端連接,適合實驗環境,不適合生產環境
  • 本地元存儲:本地安裝MySQL來存儲元數據,hive服務和metastore服務運行在同一個進程中。
  • 遠程元存儲:Hive服務和MetaStore服務在不同的進程中。
  1. 什麼是Managed Table和External Table?
  • Hive中有兩種類型的表:Managed Table(內部表)和External Table(外部表)
  • 內部表:hive的預設表類型,內部表的數據通常存放在/user/root/warehouse下
  • 使用describe formatted 表名 來查看是內部表還是外部表
  • 刪除內部表時,存放在HDFS上的真實數據也一併刪除。
  • 外部表:適合於在hive之外使用表的數據的情況,刪除外部表時,只是刪除了元數據,真是數據並沒有刪除
  1. 什麼時候使用Managed Table和External Table
  • 內部表適用於臨時創建的中間表
  • 外部表數據多部門共用
  1. hive有哪些複合數據類型
    Map:key-value
    Struct:不同數據類型的集合
    Array:同類型元素的集合
    UnionType:代表一個可以具有屬於所選擇的任何數據類型的值的列

  2. hive分區有哪些好處

  • 加速查詢
  • 使用分區列的名稱來創建子目錄,當使用where子句執行查詢操作時,只會掃描特定的子目錄,而不用掃描全表。還是加速查詢
  1. hive分區和分桶的區別
  • 分區:以欄位的形式在表結構中存在,使用describe table_name 來查看欄位是否存在,但是該欄位不存放真實數據,僅僅是分區的表示(偽列)
  • 分桶:一種細粒度的數據劃分操作。實際生產中使用較少。[採用對列值哈希,然後除以桶的個數求餘]
  1. hive如何動態分區
  • 靜態分區:載入數據時(顯式)指定分區列
  • 動態分區:將數據推送到Hive,Hive決定哪個值進入哪個分區。需要啟動動態分區[hive.exec.dynamic.parition.mode=nostrict]
  1. map join優化手段
  • Join時大表放在後面[執行join時,需要選擇哪個表被流式傳輸,哪個表被緩存。Hive將Join語句中最後一個表用於流式傳輸,所以要確該表在兩者之間是大的一方]
  • Sort-Merge-Bucket(SMB) Map Join[使用前提:所有的表必須是桶分區(bucket)和已經排序的(sort)]
  1. 如何創建bucket表
  • Hive預設是禁用分桶功能的,設置屬性來強制使用分桶功能[hive.enforce.bucketing=true]
  1. hive有哪些file formats
  • Text File Format:預設格式,不壓縮數據,磁碟開銷大。
  • Sequence File Format:SF是Hadoop API提供的一種二進位文件支持。使用方便、可分割、可壓縮。
    SF支持3中壓縮格式:NONE、RECORD、BLOCK,建議使用BLOCK壓縮。
  • RC File Format:RC是一種行列存儲相結合的存儲方式。
  • Parquet:列式數據存儲
  • AVRO:avro Schema數據序列化
  • ORC:對RCFile做了優化,支持各種複雜的數據類型。
  1. hive最優的file formates是什麼
    ORC
  • ORC將行的集合存儲在一個文件中,且集合內的行數據將以列式存儲。採用列式格式是為了壓縮,從而降低存儲成本。
  • 查詢:查詢的是指定列而不是行,記錄以列式存儲
  • ORC基於列創建索引,查詢效率高。
  1. hive傳參
  • 使用--hivevar傳入
  1. orderby 和 sortby的區別
  • order by:全局排序,但是只能有一個partition
  • sort by:局部排序,全局無序,partition內部有序,partition與partition之間沒有關係。
  1. hive和hbase的區別
    • hive支持SQL查詢,Hbase不支持。
    • hive不支持Record級別和刪除操作。
    • hive定義為數倉,HBase定義為NOSQL資料庫。

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 參考文章:https://www.jianshu.com/p/97c35d569aa3 因為Ubuntu自帶的源伺服器在國外,下載和更新軟體的時候速度很慢,不穩定,所以需要將源更新為國內的源。國內的源比較多,常用的就是阿裡的源。 1.備份原有源文件,方便在替換出問題時回滾 2.更改sources.l ...
  • 作用 實現對不同伺服器時間的同步校準 NTP時間服務 第一步 安裝 第二步 設置 進入配置文件 然後刪除裡面的所有內容。並插入以下代碼 第三部 重啟NTP服務 第四部 檢查NTP服務狀態 第五部 客戶端下載NTP客戶端服務 第六步 啟動測試 [root@localhost ~]# date -s " ...
  • 一 Kubernetes證書 1.1 TLS Kubernetes系統的各個組件需要使用TLS證書對其通信加密以及授權認證,建議在部署之前先生成相關的TLS證書。 1.2 CA證書創建方式 kubernetes 系統各個組件需要使用TLS證書對通信進行加密,通常可通過以下工具生產自建證書: open ...
  • 顯示屏幕(LCD)模塊提供屏幕相關功能介面,調用者為上層應用模塊(含 init、狀態機、ui),上下文依賴關係,如圖 3 7 所示。 系統框架為 linux+Huawei LiteOS 雙系統架構,媒體業務部署在 Huawei LiteOS 端,為了上電快速預覽,需要屏幕需部署在 Huawei Li ...
  • 本博客代碼運行環境 什麼是MQ 本教程pdf及代碼下載地址:代碼:https://download.csdn.net/download/zpcandzhj/10585077教程:https://download.csdn.net/download/zpcandzhj/10585092 RabbitM ...
  • 1、整數類型 I.有符號整型 (1) Tinyint:單位元組整形,系統採用一個位元組來保存的整形:一個位元組 = 8位,最大能表示的數值是0-255. (2) Smallint:雙位元組整形,系統採用兩個位元組來保存的整形:能表示0-65535之間 (3) Mediumint:三位元組整形,採用三個位元組來保存 ...
  • 一、Oracle歷史 於1977年拉里埃里森和他三個朋友成立了軟體研發公司,併在之後給中央情報局開發了命名為Oracle而出名,併在之後將公司名改為Oracle。1989年以甲骨文命名進入中國。 Oracle以數據存儲量大、處理速度快、安全性高一級容錯性強等特點。 二、Oracle的安裝(windo ...
  • 問題: 在資料庫編程開發中,有時會遇到數據量比較大的情況,如果直接大批量進行添加數據、修改數據、刪除數據,就會是比較大的事務,事務日誌也比較大,耗時久的話會對正常操作造成一定的阻塞。雖不至於達到刪庫跑路的程度,但也嚴重影響了用戶體驗,老是卡巴死機的感覺。這時我們可以對這個大批量操作進行分小批事務操作 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...