2023 Hive 面試大綱

来源:https://www.cnblogs.com/fx67ll/archive/2023/07/13/hive-interview-list.html
-Advertisement-
Play Games

總結一下Hive面試寶典中的要點,方便讀者快速過一遍Hive面試所需要的知識點。本文請搭配 2023 Hive 面試寶典 來食用更美味喲 ...


先說一些廢話

總結一下Hive面試寶典中的要點,方便讀者快速過一遍Hive面試所需要的知識點。
本文請搭配 Hive面試寶典 來食用更美味喲 ┗( ▔, ▔ )┛

方便自己系統性回憶,根據*的數量來標記重要性

* 簡單瞭解
** 熟悉掌握
*** 需要精通

  1. Hive的介紹(*)
    • Hive和Hadoop的關係
    • Hive的特點
    • Hive的缺點
    • Hive常見的應用場景
    • Hive和mysql的區別
  2. Hive的架構(*)
  3. Hive的數據(**)
    • Hive的數據模型
    • Hive的底層如何存儲Null值
    • Hive中元數據metadata和元數據商店metastore)`的作用
    • Hive有哪些保存元數據metadata的方式
    • Hive元數據存儲方式中,本地模式和遠程模式的區別
    • Hive的數據類型
    • Hive的隱式類型轉換規則
    • Hive數據存儲所使用的文件格式
    • Hive中使用的壓縮演算法
    • 什麼是數據可分割
    • 關於壓縮模式說明
  4. Hive的安裝與使用(*)
    • 如何在Hive中集成HBase
    • 如何通過 HiveSQL 來直接讀寫 HBase
  5. Hive的分區和分桶(**)
    • 什麼是Hive分區
    • Hive分區的優點
    • Hive分區的缺點
    • 什麼是Hive分桶
    • 關於Hive索引的說明
    • Hive分桶的優點
    • Hive分桶的缺點
    • Hive中靜態分區和動態分區的區別
    • Hive動態分區的參數設定
  6. Hive的內部表和外部表(*)
    • 什麼是Hive的內部表和外部表
    • Hive內部表和外部表的區別是什麼
    • 生產環境中為什麼建議使用外部表
  7. Hive SQL(***)
    • Hive中的SQL如何轉化成MapReduce任務的
    • 什麼情況下Hive不走MapReduce任務
    • Hive中如何查詢A表中B表不存在的數據
    • Hive中有哪些連接查詢以及如何使用
    • Hive中左連接和內連接的區別
    • Hive中左連接的底層原理
    • Hive查詢時候 ON 和 WHERE 有什麼區別
  8. Hive 函數(***)
    • 如何使用UDF/UDAF/UDTF
    • 為什麼使用UDF/UDAF/UDTF
    • 你寫過什麼樣的UDF/UDAF/UDT
    • Hive自定義函數實現了什麼函數什麼介面
    • Hive中如何去重
    • Hive中排序函數的使用方式及區別
    • 請說明以下常用函數 split / coalesce / collect list / collect set 的功能
    • 請描述工作中常用的Hive常用函數及使用場景
  9. Hive 運維(*)
    • 如何監控一個提交後的Hive狀態
  10. Hive 優化(***)
    • 請說明你在工作中如何進行Hive優化
    • HiveSQL優化 ———— Hive單表查詢優化
    • HiveSQL優化 ———— Hive多表查詢優化
    • HiveSQL優化 ———— Hive其他查詢優化
    • Hive數據傾斜 ———— 單表攜帶了 Group By 欄位的查詢
    • Hive數據傾斜 ———— 兩表或多表的 join 關聯時,其中一個表較小,但是 key 集中
    • Hive數據傾斜 ———— 兩表或多表的 join 關聯時,有 Null值 或 無意義值
    • Hive數據傾斜 ———— 兩表或多表的 join 關聯時,數據類型不統一
    • Hive數據傾斜 ———— 單獨處理傾斜key
    • HiveJob優化 ———— HiveMap優化方案
    • HiveJob優化 ———— HiveReduce優化方案
    • Hive整體優化方案

我是 fx67ll.com,如果您發現本文有什麼錯誤,歡迎在評論區討論指正,感謝您的閱讀!
如果您喜歡這篇文章,歡迎訪問我的 本文github倉庫地址,為我點一顆Star,Thanks~

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 今天檢查前同事留下的一個shell腳本時,其中一個腳本中有一個業務邏輯處理:要判斷Oracle資料庫實例是否啟動,如果資料庫實例處於OPEN狀態的話,則執行/運行一些業務邏輯操作。腳本大體如下(腳本做了一下混淆和精簡收縮) up_flag=`${SCRIPT_DIR}/chkdbup.sh ${OR ...
  • 本文介紹在**Windows 10**操作系統中,進行**用戶變數**、**系統變數**等兩種**環境變數**的新建、修改與刪除的詳細方法。 在很多時候,我們需要對**Windows**電腦的**環境變數**加以修改,例如安裝一些專業軟體、配置一些代碼環境等等;這裡就具體介紹一下這一操作的方法。 首 ...
  • # 一、Python學習兩大道具 ## 1. dir()工具 - 作用:支持打開package,看到裡面的工具函數 - 示例: (1) 輸出torch庫包含的函數 ```python dir(torch) ``` (2) 輸出torch.AVG函數中的參數 ```python dir(torch.A ...
  • 博客推行版本更新,成果積累制度,已經寫過的博客還會再次更新,不斷地琢磨,高質量高數量都是要追求的,工匠精神是學習必不可少的精神。因此,大家有何建議歡迎在評論區踴躍發言,你們的支持是我最大的動力,你們敢投,我就敢肝 ...
  • ![file](https://img2023.cnblogs.com/other/2685289/202307/2685289-20230713175218878-1267873030.png) 近期,Apache DolphinScheduler 將迎來 3.2.0 版本的到來。本次發版為大版本 ...
  • 2023年已過半,袋鼠雲開發團隊和產品團隊對[數棧產品](https://www.dtstack.com/dtinsight?src=szsm=05)本身以及客戶反饋的問題和痛點進行了持續性的更新和優化,包括對 [EasyMR 監控告警](https://www.dtstack.com/dtengi ...
  • 摘要:華為開發者大會2023(Cloud)期間,華為雲面向全球行業領袖、技術專家、社區大咖,舉辦“99%安全事件5分鐘內閉環——華為雲安全運營創新與實踐”專題論壇。 在華為開發者大會2023(Cloud)期間,華為雲面向全球行業領袖、技術專家、社區大咖,舉辦“99%安全事件5分鐘內閉環——華為雲安全 ...
  • 摘要:GaussDB (for Redis)通過賬號管理、許可權隔離、高危命令禁刪/重命名、安全IP免密登錄、實例回收站等企業級特性,保障用戶資料庫數據和信息安全。 本文分享自華為雲社區《數據安全沒保證?GaussDB(for Redis)為你保駕護航》,作者: GaussDB 資料庫。 近日,一些用 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...