Hive的一些學習內容

来源:https://www.cnblogs.com/bytAya/archive/2019/07/02/MBP2090.html
-Advertisement-
Play Games

Hive相關 metadata是元數據,包含資料庫、表、欄位、分區等信息。作用:客戶端連接MetaStore服務,metastore再去連接MySQL資料庫存儲元數據,有了metastore服務可以實現多客戶端同時連接MySQL。 metastore三種配置:內嵌(Derby)、本地元存儲、遠程元存 ...


Hive相關

  1. 什麼是metastore?
  • metadata是元數據,包含資料庫、表、欄位、分區等信息。作用:客戶端連接MetaStore服務,metastore再去連接MySQL資料庫存儲元數據,有了metastore服務可以實現多客戶端同時連接MySQL。
  • metastore三種配置:內嵌(Derby)、本地元存儲、遠程元存儲
  • Hive的元數據預設存儲在Derby資料庫,建議存儲在像MySQL這種關係型資料庫中。
  • [為什麼建議存儲在關係型資料庫中?]:預設的Derby資料庫只能建立一個客戶端連接,不能實現多客戶端同時訪問。不適合生產環境。
  1. metastore安裝方式有什麼區別?
  • 內嵌:使用自帶的Derby資料庫存儲元數據,不需要額外的MetaStore服務。一次僅能有一個客戶端連接,適合實驗環境,不適合生產環境
  • 本地元存儲:本地安裝MySQL來存儲元數據,hive服務和metastore服務運行在同一個進程中。
  • 遠程元存儲:Hive服務和MetaStore服務在不同的進程中。
  1. 什麼是Managed Table和External Table?
  • Hive中有兩種類型的表:Managed Table(內部表)和External Table(外部表)
  • 內部表:hive的預設表類型,內部表的數據通常存放在/user/root/warehouse下
  • 使用describe formatted 表名 來查看是內部表還是外部表
  • 刪除內部表時,存放在HDFS上的真實數據也一併刪除。
  • 外部表:適合於在hive之外使用表的數據的情況,刪除外部表時,只是刪除了元數據,真是數據並沒有刪除
  1. 什麼時候使用Managed Table和External Table
  • 內部表適用於臨時創建的中間表
  • 外部表數據多部門共用
  1. hive有哪些複合數據類型
    Map:key-value
    Struct:不同數據類型的集合
    Array:同類型元素的集合
    UnionType:代表一個可以具有屬於所選擇的任何數據類型的值的列

  2. hive分區有哪些好處

  • 加速查詢
  • 使用分區列的名稱來創建子目錄,當使用where子句執行查詢操作時,只會掃描特定的子目錄,而不用掃描全表。還是加速查詢
  1. hive分區和分桶的區別
  • 分區:以欄位的形式在表結構中存在,使用describe table_name 來查看欄位是否存在,但是該欄位不存放真實數據,僅僅是分區的表示(偽列)
  • 分桶:一種細粒度的數據劃分操作。實際生產中使用較少。[採用對列值哈希,然後除以桶的個數求餘]
  1. hive如何動態分區
  • 靜態分區:載入數據時(顯式)指定分區列
  • 動態分區:將數據推送到Hive,Hive決定哪個值進入哪個分區。需要啟動動態分區[hive.exec.dynamic.parition.mode=nostrict]
  1. map join優化手段
  • Join時大表放在後面[執行join時,需要選擇哪個表被流式傳輸,哪個表被緩存。Hive將Join語句中最後一個表用於流式傳輸,所以要確該表在兩者之間是大的一方]
  • Sort-Merge-Bucket(SMB) Map Join[使用前提:所有的表必須是桶分區(bucket)和已經排序的(sort)]
  1. 如何創建bucket表
  • Hive預設是禁用分桶功能的,設置屬性來強制使用分桶功能[hive.enforce.bucketing=true]
  1. hive有哪些file formats
  • Text File Format:預設格式,不壓縮數據,磁碟開銷大。
  • Sequence File Format:SF是Hadoop API提供的一種二進位文件支持。使用方便、可分割、可壓縮。
    SF支持3中壓縮格式:NONE、RECORD、BLOCK,建議使用BLOCK壓縮。
  • RC File Format:RC是一種行列存儲相結合的存儲方式。
  • Parquet:列式數據存儲
  • AVRO:avro Schema數據序列化
  • ORC:對RCFile做了優化,支持各種複雜的數據類型。
  1. hive最優的file formates是什麼
    ORC
  • ORC將行的集合存儲在一個文件中,且集合內的行數據將以列式存儲。採用列式格式是為了壓縮,從而降低存儲成本。
  • 查詢:查詢的是指定列而不是行,記錄以列式存儲
  • ORC基於列創建索引,查詢效率高。
  1. hive傳參
  • 使用--hivevar傳入
  1. orderby 和 sortby的區別
  • order by:全局排序,但是只能有一個partition
  • sort by:局部排序,全局無序,partition內部有序,partition與partition之間沒有關係。
  1. hive和hbase的區別
    • hive支持SQL查詢,Hbase不支持。
    • hive不支持Record級別和刪除操作。
    • hive定義為數倉,HBase定義為NOSQL資料庫。

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 參考文章:https://www.jianshu.com/p/97c35d569aa3 因為Ubuntu自帶的源伺服器在國外,下載和更新軟體的時候速度很慢,不穩定,所以需要將源更新為國內的源。國內的源比較多,常用的就是阿裡的源。 1.備份原有源文件,方便在替換出問題時回滾 2.更改sources.l ...
  • 作用 實現對不同伺服器時間的同步校準 NTP時間服務 第一步 安裝 第二步 設置 進入配置文件 然後刪除裡面的所有內容。並插入以下代碼 第三部 重啟NTP服務 第四部 檢查NTP服務狀態 第五部 客戶端下載NTP客戶端服務 第六步 啟動測試 [root@localhost ~]# date -s " ...
  • 一 Kubernetes證書 1.1 TLS Kubernetes系統的各個組件需要使用TLS證書對其通信加密以及授權認證,建議在部署之前先生成相關的TLS證書。 1.2 CA證書創建方式 kubernetes 系統各個組件需要使用TLS證書對通信進行加密,通常可通過以下工具生產自建證書: open ...
  • 顯示屏幕(LCD)模塊提供屏幕相關功能介面,調用者為上層應用模塊(含 init、狀態機、ui),上下文依賴關係,如圖 3 7 所示。 系統框架為 linux+Huawei LiteOS 雙系統架構,媒體業務部署在 Huawei LiteOS 端,為了上電快速預覽,需要屏幕需部署在 Huawei Li ...
  • 本博客代碼運行環境 什麼是MQ 本教程pdf及代碼下載地址:代碼:https://download.csdn.net/download/zpcandzhj/10585077教程:https://download.csdn.net/download/zpcandzhj/10585092 RabbitM ...
  • 1、整數類型 I.有符號整型 (1) Tinyint:單位元組整形,系統採用一個位元組來保存的整形:一個位元組 = 8位,最大能表示的數值是0-255. (2) Smallint:雙位元組整形,系統採用兩個位元組來保存的整形:能表示0-65535之間 (3) Mediumint:三位元組整形,採用三個位元組來保存 ...
  • 一、Oracle歷史 於1977年拉里埃里森和他三個朋友成立了軟體研發公司,併在之後給中央情報局開發了命名為Oracle而出名,併在之後將公司名改為Oracle。1989年以甲骨文命名進入中國。 Oracle以數據存儲量大、處理速度快、安全性高一級容錯性強等特點。 二、Oracle的安裝(windo ...
  • 問題: 在資料庫編程開發中,有時會遇到數據量比較大的情況,如果直接大批量進行添加數據、修改數據、刪除數據,就會是比較大的事務,事務日誌也比較大,耗時久的話會對正常操作造成一定的阻塞。雖不至於達到刪庫跑路的程度,但也嚴重影響了用戶體驗,老是卡巴死機的感覺。這時我們可以對這個大批量操作進行分小批事務操作 ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...