大數據面試題集錦-Hadoop面試題(二)-HDFS

> 你準備好面試了嗎?這裡有一些面試中可能會問到的問題以及相對應的答案。如果你需要更多的面試經驗和麵試題，關註一下"張飛的豬大數據分享"吧，公眾號會不定時的分享相關的知識和資料。 [TOC] ## 1、 HDFS 中的 block 預設保存幾份？預設保存3份 ## 2、HDFS 預設 BlockS ...

你準備好面試了嗎?這裡有一些面試中可能會問到的問題以及相對應的答案。如果你需要更多的面試經驗和麵試題，關註一下"張飛的豬大數據分享"吧，公眾號會不定時的分享相關的知識和資料。

1、 HDFS 中的 block 預設保存幾份？
2、HDFS 預設 BlockSize 是多大？
3、負責HDFS數據存儲的是哪一部分？
4、SecondaryNameNode的目的是什麼？
5、文件大小設置，增大有什麼影響？
6、hadoop的塊大小，從哪個版本開始是128M
7、HDFS的存儲機制（☆☆☆☆☆）
8、secondary namenode工作機制（☆☆☆☆☆）
9、NameNode與SecondaryNameNode 的區別與聯繫？（☆☆☆☆☆）
10、HDFS組成架構（☆☆☆☆☆）
11、HAnamenode 是如何工作的? （☆☆☆☆☆）

1、 HDFS 中的 block 預設保存幾份？

預設保存3份

2、HDFS 預設 BlockSize 是多大？

預設64MB

3、負責HDFS數據存儲的是哪一部分？

DataNode負責數據存儲

4、SecondaryNameNode的目的是什麼？

他的目的使幫助NameNode合併編輯日誌，減少NameNode 啟動時間

5、文件大小設置，增大有什麼影響？

HDFS中的文件在物理上是分塊存儲（block），塊的大小可以通過配置參數( dfs.blocksize)來規定，預設大小在hadoop2.x版本中是128M，老版本中是64M。
思考：為什麼塊的大小不能設置的太小，也不能設置的太大？
HDFS的塊比磁碟的塊大，其目的是為了最小化定址開銷。如果塊設置得足夠大，從磁碟傳輸數據的時間會明顯大於定位這個塊開始位置所需的時間。因而，傳輸一個由多個塊組成的文件的時間取決於磁碟傳輸速率。
如果定址時間約為10ms，而傳輸速率為100MB/s，為了使定址時間僅占傳輸時間的1%，我們要將塊大小設置約為100MB。預設的塊大小128MB。
塊的大小：10ms×100×100M/s = 100M，如圖
在這裡插入圖片描述
增加文件塊大小，需要增加磁碟的傳輸速率。

6、hadoop的塊大小，從哪個版本開始是128M

Hadoop1.x都是64M，hadoop2.x開始都是128M。

7、HDFS的存儲機制（☆☆☆☆☆）

HDFS存儲機制，包括HDFS的寫入數據過程和讀取數據過程兩部分

HDFS寫數據過程
在這裡插入圖片描述
1）客戶端通過Distributed FileSystem模塊向NameNode請求上傳文件，NameNode檢查目標文件是否已存在，父目錄是否存在。
2）NameNode返回是否可以上傳。
3）客戶端請求第一個 block上傳到哪幾個datanode伺服器上。
4）NameNode返回3個datanode節點，分別為dn1、dn2、dn3。
5）客戶端通過FSDataOutputStream模塊請求dn1上傳數據，dn1收到請求會繼續調用dn2，然後dn2調用dn3，將這個通信管道建立完成。
6）dn1、dn2、dn3逐級應答客戶端。
7）客戶端開始往dn1上傳第一個block（先從磁碟讀取數據放到一個本地記憶體緩存），以packet為單位，dn1收到一個packet就會傳給dn2，dn2傳給dn3；
dn1每傳一個packet會放入一個應答隊列等待應答。
8）當一個block傳輸完成之後，客戶端再次請求NameNode上傳第二個block的伺服器。（重覆執行3-7步）。

HDFS讀數據過程
在這裡插入圖片描述
1）客戶端通過Distributed FileSystem向NameNode請求下載文件，NameNode通過查詢元數據，找到文件塊所在的DataNode地址。
2）挑選一臺DataNode（就近原則，然後隨機）伺服器，請求讀取數據。
3）DataNode開始傳輸數據給客戶端（從磁碟裡面讀取數據輸入流，以packet為單位來做校驗）。
4）客戶端以packet為單位接收，先在本地緩存，然後寫入目標文件。

8、secondary namenode工作機制（☆☆☆☆☆）

在這裡插入圖片描述
1）第一階段：NameNode啟動
（1）第一次啟動NameNode格式化後，創建fsimage和edits文件。如果不是第一次啟動，直接載入編輯日誌和鏡像文件到記憶體。
（2）客戶端對元數據進行增刪改的請求。
（3）NameNode記錄操作日誌，更新滾動日誌。
（4）NameNode在記憶體中對數據進行增刪改查。

2）第二階段：Secondary NameNode工作
（1）Secondary NameNode詢問NameNode是否需要checkpoint。直接帶回NameNode是否檢查結果。
（2）Secondary NameNode請求執行checkpoint。
（3）NameNode滾動正在寫的edits日誌。
（4）將滾動前的編輯日誌和鏡像文件拷貝到Secondary NameNode。
（5）Secondary NameNode載入編輯日誌和鏡像文件到記憶體，併合並。
（6）生成新的鏡像文件fsimage.chkpoint。
（7）拷貝fsimage.chkpoint到NameNode。
（8）NameNode將fsimage.chkpoint重新命名成fsimage。

9、NameNode與SecondaryNameNode 的區別與聯繫？（☆☆☆☆☆）

機制流程看第7題

1）區別
（1）NameNode負責管理整個文件系統的元數據，以及每一個路徑（文件）所對應的數據塊信息。
（2）SecondaryNameNode主要用於定期合併命名空間鏡像和命名空間鏡像的編輯日誌。

2）聯繫：
（1）SecondaryNameNode中保存了一份和namenode一致的鏡像文件（fsimage）和編輯日誌（edits）。
（2）在主namenode發生故障時（假設沒有及時備份數據），可以從SecondaryNameNode恢複數據。

10、HDFS組成架構（☆☆☆☆☆）

架構主要由四個部分組成，分別為HDFS Client、NameNode、DataNode和Secondary NameNode。下麵我們分別介紹這四個組成部分。
在這裡插入圖片描述
1）Client：就是客戶端。
（1）文件切分。文件上傳HDFS的時候，Client將文件切分成一個一個的Block，然後進行存儲；
（2）與NameNode交互，獲取文件的位置信息；
（3）與DataNode交互，讀取或者寫入數據；
（4）Client提供一些命令來管理HDFS，比如啟動或者關閉HDFS；
（5）Client可以通過一些命令來訪問HDFS；
2）NameNode：就是Master，它是一個主管、管理者。
（1）管理HDFS的名稱空間；
（2）管理數據塊（Block）映射信息；
（3）配置副本策略；
（4）處理客戶端讀寫請求。
3）DataNode：就是Slave。NameNode下達命令，DataNode執行實際的操作。
（1）存儲實際的數據塊；
（2）執行數據塊的讀/寫操作。
4）Secondary NameNode：並非NameNode的熱備。當NameNode掛掉的時候，它並不能馬上替換NameNode並提供服務。
（1）輔助NameNode，分擔其工作量；
（2）定期合併Fsimage和Edits，並推送給NameNode；
（3）在緊急情況下，可輔助恢復NameNode。

11、HAnamenode 是如何工作的? （☆☆☆☆☆）

在這裡插入圖片描述
ZKFailoverController主要職責
1）健康監測：周期性的向它監控的NN發送健康探測命令，從而來確定某個NameNode是否處於健康狀態，如果機器宕機，心跳失敗，那麼zkfc就會標記它處於一個不健康的狀態。
2）會話管理：如果NN是健康的，zkfc就會在zookeeper中保持一個打開的會話，如果NameNode同時還是Active狀態的，那麼zkfc還會在Zookeeper中占有一個類型為短暫類型的znode，當這個NN掛掉時，這個znode將會被刪除，然後備用的NN，將會得到這把鎖，升級為主NN，同時標記狀態為Active。
3）當宕機的NN新啟動時，它會再次註冊zookeper，發現已經有znode鎖了，便會自動變為Standby狀態，如此往複迴圈，保證高可靠，需要註意，目前僅僅支持最多配置2個NN。
4）master選舉：如上所述，通過在zookeeper中維持一個短暫類型的znode，來實現搶占式的鎖機制，從而判斷那個NameNode為Active狀態