大數據面試題集錦-Hadoop面試題(一)

你準備好面試了嗎?這裡有一些面試中可能會問到的問題以及相對應的答案。 1、集群的最主要瓶頸磁碟IO 2、Hadoop運行模式單機版、偽分散式模式、完全分散式模式 3、Hadoop生態圈的組件並做簡要描述 Zookeeper：是一個開源的分散式應用程式協調服務,基於zookeeper可以實現同步服 ...

1、集群的最主要瓶頸
2、Hadoop運行模式
3、Hadoop生態圈的組件並做簡要描述
4、解釋“hadoop”和“hadoop 生態系統”兩個概念
5、請列出正常工作的Hadoop集群中Hadoop都分別需要啟動哪些進程，它們的作用分別是什麼?
6、基於 Hadoop 生態系統對比傳統數據倉庫有何優勢？
7、如何選擇不同的文件格式存儲和處理數據

你準備好面試了嗎?這裡有一些面試中可能會問到的問題以及相對應的答案。

1、集群的最主要瓶頸

磁碟IO

2、Hadoop運行模式

單機版、偽分散式模式、完全分散式模式

3、Hadoop生態圈的組件並做簡要描述

Zookeeper：是一個開源的分散式應用程式協調服務,基於zookeeper可以實現同步服務，配置維護，命名服務。
Flume：一個高可用的，高可靠的，分散式的海量日誌採集、聚合和傳輸的系統。 Hbase：是一個分散式的、面向列的開源資料庫,利用Hadoop HDFS作為其存儲系統。
Hive：基於Hadoop的一個數據倉庫工具，可以將結構化的數據檔映射為一張資料庫表，並提供簡單的sql查詢功能，可以將sql語句轉換為MapReduce任務進行運行。
Sqoop：將一個關係型資料庫中的數據導進到Hadoop的HDFS中，也可以將HDFS的數據導進到關係型資料庫中。

4、解釋“hadoop”和“hadoop 生態系統”兩個概念

Hadoop是指Hadoop框架本身；hadoop生態系統，不僅包含hadoop，還包括保證hadoop框架正常高效運行其他框架，比如zookeeper、Flume、Hbase、Hive、Sqoop等輔助框架。

Hadoop 包括以下內容：

HDFS(Hadoop Distributed File System，Hadoop 分散式文件系統)：HDFS 允許你以一種分散式和冗餘的方式存儲大量數據。例如，1 GB(即 1024 MB)文本文件可以拆分為 16 * 128MB 文件，並存儲在 Hadoop 集群中的 8 個不同節點上。每個分裂可以複製 3 次，以實現容錯，以便如果 1 個節點故障的話，也有備份。HDFS 適用於順序的“一次寫入、多次讀取”的類型訪問。
MapReduce：一個計算框架。它以分散式和並行的方式處理大量的數據。當你對所有年齡> 18 的用戶在上述 1 GB 文件上執行查詢時，將會有“8 個映射”函數並行運行，以在其 128 MB 拆分文件中提取年齡> 18 的用戶，然後“reduce”函數將運行以將所有單獨的輸出組合成單個最終結果。
YARN(Yet Another Resource Nagotiator，又一資源定位器)：用於作業調度和集群資源管理的框架。

Hadoop 生態系統，擁有 15 多種框架和工具，如 Sqoop，Flume，Kafka，Pig，Hive，Spark，Impala 等，以便將數據攝入 HDFS，在 HDFS 中轉移數據(即變換，豐富，聚合等)，並查詢來自 HDFS 的數據用於商業智能和分析。某些工具(如 Pig 和 Hive)是 MapReduce 上的抽象層，而 Spark 和 Impala 等其他工具則是來自 MapReduce 的改進架構/設計，用於顯著提高的延遲以支持近實時(即 NRT)和實時處理。

5、請列出正常工作的Hadoop集群中Hadoop都分別需要啟動哪些進程，它們的作用分別是什麼?

NameNode：它是hadoop中的主伺服器，管理文件系統名稱空間和對集群中存儲的文件的訪問，保存有metadate。
SecondaryNameNode：它不是namenode的冗餘守護進程，而是提供周期檢查點和清理任務。幫助NN合併editslog，減少NN啟動時間。
DataNode：它負責管理連接到節點的存儲（一個集群中可以有多個節點）。每個存儲數據的節點運行一個datanode守護進程。
ResourceManager（JobTracker）：JobTracker負責調度DataNode上的工作。每個DataNode有一個TaskTracker，它們執行實際工作。
NodeManager：（TaskTracker）執行任務。
DFSZKFailoverController：高可用時它負責監控NN的狀態，並及時的把狀態信息寫入ZK。它通過一個獨立線程周期性的調用NN上的一個特定介面來獲取NN的健康狀態。FC也有選擇誰作為Active NN的權利，因為最多只有兩個節點，目前選擇策略還比較簡單（先到先得，輪換）。
JournalNode：高可用情況下存放namenode的editlog文件。

6、基於 Hadoop 生態系統對比傳統數據倉庫有何優勢？

傳統數據基礎設施：主要使用存儲在高端和昂貴硬體中的“structured data，結構化數據”主要處理為 ETL 批處理作業，用於將數據提取到 RDBMS 和數據倉庫系統中進行數據挖掘，分析和報告，以進行關鍵業務決策。主要處理以千兆位元組到兆位元組為單位的數據量。
基於 Hadoop 的數據基礎設施：其中結構化(例如 RDBMS)，非結構化(例如 images，PDF，docs )和半結構化(例如 logs，XMLs)的數據可以以可擴展和容錯的方式存儲在較便宜的商品機器中。可以通過批處理作業和近實時(即，NRT，200 毫秒至 2 秒)流(例如 Flume 和 Kafka)來攝取數據。數據可以使用諸如 Spark 和 Impala 之類的工具以低延遲(即低於 100 毫秒)的能力查詢。可以存儲以兆兆位元組到千兆位元組為單位的較大數據量。這使得能夠使用更強大的工具來做出更好的業務決策，這些更強大的工具用於獲取數據，轉移存儲的數據(例如聚合，豐富，變換等)，以及使用低延遲的報告功能和商業智能。

所以有下麵幾個優點：

擴展更便宜，更高效地並行處理大數據。隨著數據量和複雜性的增加，提高了整體 SLA(即服務水平協議)。例如，“Shared Nothing”架構，並行處理，記憶體密集型處理框架，如 Spark 和 Impala，以及 YARN 容量調度程式中的資源搶占。添加額外的高端硬體容量以及獲取數據倉庫工具的許可證可能會顯著增加成本。基於 Hadoop生態系統不僅在商品硬體節點和開源工具方面更便宜，而且還可以通過將數據轉換卸載到 Hadoop 工具(如 Spark 和 Impala)來補足數據倉庫解決方案，從而更高效地並行處理大數據。這也將釋放數據倉庫資源。
探索新的渠道和線索。Hadoop 可以為數據科學家提供探索性的沙盒，以從社交媒體，日誌文件，電子郵件等地方發現潛在的有價值的數據，這些數據通常在傳統數據倉庫中不可得。
更好的靈活性。通常業務需求的改變，也需要對架構和報告進行更改。基於 Hadoop 的解決方案不僅可以靈活地處理不斷發展的模式，還可以處理來自不同來源，如社交媒體，應用程式日誌文件，image，PDF 和文檔文件的半結構化和非結構化數據。

7、如何選擇不同的文件格式存儲和處理數據

選擇何種文件格式的關鍵之一是基於以下方面：

使用模式，例如訪問 50 列中的 5 列，而不是訪問大多數列
可並行處理的可分裂性
塊壓縮節省存儲空間 vs 讀/寫/傳輸性能模式演化以添加欄位
修改欄位和重命名欄位

CSV 文件

CSV 文件通常用於在 Hadoop 和外部系統之間交換數據。CSV 是可讀和可解析的。 CSV 可以方便地用於從資料庫到 Hadoop 或到分析資料庫的批量載入。在 Hadoop 中使用 CSV 文件時，不包括頁眉或頁腳行。文件的每一行都應包含記錄。CSV 文件對模式評估的支持是有限的，因為新欄位只能附加到記錄的結尾，並且現有欄位不能受到限制。CSV 文件不支持塊壓縮，因此壓縮 CSV 文件會有明顯的讀取性能成本。

JSON 文件

JSON 記錄與 JSON 文件不同;每一行都是其 JSON 記錄。由於 JSON 將模式和數據一起存儲在每個記錄中，因此它能夠實現完整的模式演進和可拆分性。此外，JSON 文件不支持塊級壓縮。
序列文件
序列文件以與 CSV 文件類似的結構用二進位格式存儲數據。像 CSV 一樣，序列文件不存儲元數據，因此只有模式進化才將新欄位附加到記錄的末尾。與 CSV 文件不同，序列文件確實支持塊壓縮。序列文件也是可拆分的。序列文件可以用於解決“小文件問題”，方式是通過組合較小的通過存儲文件名作為鍵和文件內容作為值的 XML 文件。由於讀取序列文件的複雜性，它們更適合用於在飛行中的(即中間的)數據存儲。
註意：序列文件是以 Java 為中心的，不能跨平臺使用。

Avro 文件

適合於有模式的長期存儲。Avro 文件存儲具有數據的元數據，但也允許指定用於讀取文件的獨立模式。啟用完全的模式進化支持，允許你通過定義新的獨立模式重命名、添加和刪除欄位以及更改欄位的數據類型。Avro 文件以 JSON 格式定義模式，數據將採用二進位 JSON 格式。Avro 文件也是可拆分的，並支持塊壓縮。更適合需要行級訪問的使用模式。這意味著查詢該行中的所有列。不適用於行有 50+ 列，但使用模式只需要訪問 10 個或更少的列。Parquet 文件格式更適合這個列訪問使用模式。

Columnar 格式，例如 RCFile，ORC

RDBM 以面向行的方式存儲記錄，因為這對於需要在獲取許多列的記錄的情況下是高效的。如果在向磁碟寫入記錄時已知所有列值，則面向行的寫也是有效的。但是這種方法不能有效地獲取行中的僅 10% 的列或者在寫入時所有列值都不知道的情況。這是 Columnar 文件更有意義的地方。所以Columnar 格式在以下情況下工作良好：

在不屬於查詢的列上跳過 I / O 和解壓縮
用於僅訪問列的一小部分的查詢。
用於數據倉庫型應用程式，其中用戶想要在大量記錄上聚合某些列。
RC 和 ORC 格式是專門用 Hive 寫的而不是通用作為 Parquet。

Parquet 文件

Parquet 文件是一個 columnar 文件，如 RC 和 ORC。Parquet 文件支持塊壓縮並針對查詢性能進行了優化，可以從 50 多個列記錄中選擇 10 個或更少的列。Parquet 文件寫入性能比非 columnar 文件格式慢。Parquet 通過允許在最後添加新列，還支持有限的模式演變。Parquet 可以使用 Avro API 和 Avro 架構進行讀寫。

總之，相對於其他，你應該會更喜歡序列，Avro 和 Parquet 文件格式;序列文件用於原始和中間存儲，Avro 和 Parquet 文件用於處理。

本文來自博客園，作者：張飛的豬，轉載請註明原文鏈接：https://www.cnblogs.com/the-pig-of-zf/p/17300348.html

公眾號：張飛的豬大數據分享，不定期分享大數據學習的總結和相關資料，歡迎關註。

個人網站"張飛的豬編程工作室"鏈接: https://zhangfeidezhu.com