總結一下Hive面試寶典中的要點,方便讀者快速過一遍Hive面試所需要的知識點。本文請搭配 2023 Hive 面試寶典 來食用更美味喲 ...
先說一些廢話
總結一下Hive面試寶典中的要點,方便讀者快速過一遍Hive面試所需要的知識點。
本文請搭配 Hive面試寶典 來食用更美味喲 ┗( ▔, ▔ )┛
方便自己系統性回憶,根據*
的數量來標記重要性
*
簡單瞭解
**
熟悉掌握
***
需要精通
- Hive的介紹(*)
- Hive和Hadoop的關係
- Hive的特點
- Hive的缺點
- Hive常見的應用場景
- Hive和mysql的區別
- Hive的架構(*)
- Hive的數據(**)
- Hive的數據模型
- Hive的底層如何存儲Null值
- Hive中元數據
metadata
和元數據商店metastore
)`的作用 - Hive有哪些保存元數據
metadata
的方式 - Hive元數據存儲方式中,本地模式和遠程模式的區別
- Hive的數據類型
- Hive的隱式類型轉換規則
- Hive數據存儲所使用的文件格式
- Hive中使用的壓縮演算法
- 什麼是數據可分割
- 關於壓縮模式說明
- Hive的安裝與使用(*)
- 如何在Hive中集成HBase
- 如何通過 HiveSQL 來直接讀寫 HBase
- Hive的分區和分桶(**)
- 什麼是Hive分區
- Hive分區的優點
- Hive分區的缺點
- 什麼是Hive分桶
- 關於Hive索引的說明
- Hive分桶的優點
- Hive分桶的缺點
- Hive中靜態分區和動態分區的區別
- Hive動態分區的參數設定
- Hive的內部表和外部表(*)
- 什麼是Hive的內部表和外部表
- Hive內部表和外部表的區別是什麼
- 生產環境中為什麼建議使用外部表
- Hive SQL(***)
- Hive中的SQL如何轉化成MapReduce任務的
- 什麼情況下Hive不走MapReduce任務
- Hive中如何查詢A表中B表不存在的數據
- Hive中有哪些連接查詢以及如何使用
- Hive中左連接和內連接的區別
- Hive中左連接的底層原理
- Hive查詢時候 ON 和 WHERE 有什麼區別
- Hive 函數(***)
- 如何使用UDF/UDAF/UDTF
- 為什麼使用UDF/UDAF/UDTF
- 你寫過什麼樣的UDF/UDAF/UDT
- Hive自定義函數實現了什麼函數什麼介面
- Hive中如何去重
- Hive中排序函數的使用方式及區別
- 請說明以下常用函數
split
/coalesce
/collect list
/collect set
的功能 - 請描述工作中常用的Hive常用函數及使用場景
- Hive 運維(*)
- 如何監控一個提交後的Hive狀態
- Hive 優化(***)
- 請說明你在工作中如何進行Hive優化
- HiveSQL優化 ———— Hive單表查詢優化
- HiveSQL優化 ———— Hive多表查詢優化
- HiveSQL優化 ———— Hive其他查詢優化
- Hive數據傾斜 ———— 單表攜帶了 Group By 欄位的查詢
- Hive數據傾斜 ———— 兩表或多表的 join 關聯時,其中一個表較小,但是 key 集中
- Hive數據傾斜 ———— 兩表或多表的 join 關聯時,有 Null值 或 無意義值
- Hive數據傾斜 ———— 兩表或多表的 join 關聯時,數據類型不統一
- Hive數據傾斜 ———— 單獨處理傾斜key
- HiveJob優化 ———— HiveMap優化方案
- HiveJob優化 ———— HiveReduce優化方案
- Hive整體優化方案
我是 fx67ll.com,如果您發現本文有什麼錯誤,歡迎在評論區討論指正,感謝您的閱讀!
如果您喜歡這篇文章,歡迎訪問我的 本文github倉庫地址,為我點一顆Star,Thanks~