大數據面試題集錦-Hadoop面試題(三)-MapReduce

> 你準備好面試了嗎?這裡有一些面試中可能會問到的問題以及相對應的答案。如果你需要更多的面試經驗和麵試題，關註一下"張飛的豬大數據分享"吧，公眾號會不定時的分享相關的知識和資料。 [TOC] ## 1、談談Hadoop序列化和反序列化及自定義bean對象實現序列化? 1）序列化和反序列化（1）序列 ...

你準備好面試了嗎?這裡有一些面試中可能會問到的問題以及相對應的答案。如果你需要更多的面試經驗和麵試題，關註一下"張飛的豬大數據分享"吧，公眾號會不定時的分享相關的知識和資料。

1、談談Hadoop序列化和反序列化及自定義bean對象實現序列化?
2、FileInputFormat切片機制
3、在一個Hadoop 任務中，什麼是InputSplit（切片），以及切片是用來做什麼的，切片與block有什麼區別？
4、如何判定一個job的map和reduce的數量?
5、 Maptask的個數由什麼決定？
6、MapTask和ReduceTask工作機制或工作原理
7、描述mapReduce有幾種排序及排序發生的階段
8、描述mapReduce中shuffle階段的工作流程，如何優化shuffle階段
9、描述mapReduce中combiner的作用是什麼，一般使用情景，以及和reduce的區別？
10、如果沒有定義partitioner，那數據在被送達reducer前是如何被分區的？
11、MapReduce 出現單點負載多大，怎麼負載平衡？
12、MapReduce 怎麼實現 TopN？
13、Hadoop的緩存機制（Distributedcache）是怎麼樣的？
14、mapReduce如何實現兩個表的join?
15、什麼樣的計算不適用mr來提速？
16、更多大數據面試集錦

1、談談Hadoop序列化和反序列化及自定義bean對象實現序列化?

1）序列化和反序列化
（1）序列化就是把記憶體中的對象，轉換成位元組序列（或其他數據傳輸協議）以便於存儲（持久化）和網路傳輸。
（2）反序列化就是將收到位元組序列（或其他數據傳輸協議）或者是硬碟的持久化數據，轉換成記憶體中的對象。
（3）Java的序列化是一個重量級序列化框架（Serializable），一個對象被序列化後，會附帶很多額外的信息（各種校驗信息，header，繼承體系等），不便於在網路中高效傳輸。所以，hadoop自己開發了一套序列化機制（Writable），精簡、高效。

2）自定義bean對象要想序列化傳輸步驟及註意事項：

（1）必須實現Writable介面
（2）反序列化時，需要反射調用空參構造函數，所以必須有空參構造
（3）重寫序列化方法
（4）重寫反序列化方法
（5）註意反序列化的順序和序列化的順序完全一致
（6）要想把結果顯示在文件中，需要重寫toString()，且用"\t"分開，方便後續用
（7）如果需要將自定義的bean放在key中傳輸，則還需要實現comparable介面，因為mapreduce框中的shuffle過程一定會對key進行排序

2、FileInputFormat切片機制

job提交流程源碼詳解

 waitForCompletion()
  submit();
  // 1、建立連接
    connect();
      // 1）創建提交job的代理
      new Cluster(getConfiguration());
        // （1）判斷是本地yarn還是遠程
        initialize(jobTrackAddr, conf);
  // 2、提交job
  submitter.submitJobInternal(Job.this, cluster)
    // 1）創建給集群提交數據的Stag路徑
    Path jobStagingArea = JobSubmissionFiles.getStagingDir(cluster, conf);
    // 2）獲取jobid ，並創建job路徑
    JobID jobId = submitClient.getNewJobID();
    // 3）拷貝jar包到集群
    copyAndConfigureFiles(job, submitJobDir);
    rUploader.uploadFiles(job, jobSubmitDir);
    // 4）計算切片，生成切片規劃文件
    writeSplits(job, submitJobDir);
    maps = writeNewSplits(job, jobSubmitDir);
    input.getSplits(job);
    // 5）向Stag路徑寫xml配置文件
    writeConf(conf, submitJobFile);
    conf.writeXml(out);
    // 6）提交job,返回提交狀態
    status = submitClient.submitJob(jobId, submitJobDir.toString(), job.getCredentials());

3、在一個Hadoop 任務中，什麼是InputSplit（切片），以及切片是用來做什麼的，切片與block有什麼區別？

FileInputFormat源碼解析(input.getSplits(job))
（1）找到你數據存儲的目錄。
（2）開始遍歷處理（規劃切片）目錄下的每一個文件。
（3）遍歷第一個文件xx.txt。
a）獲取文件大小fs.sizeOf(xx.txt);。
b）計算切片大小
computeSliteSize(Math.max(minSize,Math.min(maxSize,blocksize)))。
c）預設情況下，切片大小=blocksize。
d）開始切，形成第1個切片：xx.txt—0:128M 第2個切片xx.txt—128:256M 第3個切片xx.txt—256M:300M（每次切片時，都要判斷切完剩下的部分是否大於塊的1.1倍，不大於1.1倍就劃分一塊切片）。
e）將切片信息寫到一個切片規劃文件中。
f）整個切片的核心過程在getSplit()方法中完成。
g）數據切片只是在邏輯上對輸入數據進行分片，並不會再磁碟上將其切分成分片進行存儲。InputSplit只記錄了分片的元數據信息，比如起始位置、長度以及所在的節點列表等。
h）註意：block是HDFS上物理上存儲的存儲的數據，切片是對數據邏輯上的劃分。
（4）提交切片規劃文件到yarn上，yarn上的MrAppMaster就可以根據切片規劃文件計算開啟maptask個數。

4、如何判定一個job的map和reduce的數量?

1）map數量
splitSize=max{minSize,min{maxSize,blockSize}}
map數量由處理的數據分成的block數量決定default_num = total_size / split_size;
2）reduce數量
reduce的數量job.setNumReduceTasks(x);x 為reduce的數量。不設置的話預設為 1。

5、 Maptask的個數由什麼決定？

一個job的map階段MapTask並行度（個數），由客戶端提交job時的切片個數決定。

6、MapTask和ReduceTask工作機制或工作原理

MapTask工作機制

（1）Read階段：Map Task通過用戶編寫的RecordReader，從輸入InputSplit中解析出一個個key/value。
（2）Map階段：該節點主要是將解析出的key/value交給用戶編寫map()函數處理，並產生一系列新的key/value。
（3）Collect收集階段：在用戶編寫map()函數中，當數據處理完成後，一般會調用OutputCollector.collect()輸出結果。在該函數內部，它會將生成的key/value分區（調用Partitioner），並寫入一個環形記憶體緩衝區中。
（4）Spill階段：即“溢寫”，當環形緩衝區滿後，MapReduce會將數據寫到本地磁碟上，生成一個臨時文件。需要註意的是，將數據寫入本地磁碟之前，先要對數據進行一次本地排序，併在必要時對數據進行合併、壓縮等操作。
（5）Combine階段：當所有數據處理完成後，MapTask對所有臨時文件進行一次合併，以確保最終只會生成一個數據文件。

ReduceTask工作機制
（1）Copy階段：ReduceTask從各個MapTask上遠程拷貝一片數據，並針對某一片數據，如果其大小超過一定閾值，則寫到磁碟上，否則直接放到記憶體中。
（2）Merge階段：在遠程拷貝數據的同時，ReduceTask啟動了兩個後臺線程對記憶體和磁碟上的文件進行合併，以防止記憶體使用過多或磁碟上文件過多。
（3）Sort階段：按照MapReduce語義，用戶編寫reduce()函數輸入數據是按key進行聚集的一組數據。為了將key相同的數據聚在一起，Hadoop採用了基於排序的策略。由於各個MapTask已經實現對自己的處理結果進行了局部排序，因此，ReduceTask只需對所有數據進行一次歸併排序即可。
（4）Reduce階段：reduce()函數將計算結果寫到HDFS上。

7、描述mapReduce有幾種排序及排序發生的階段

1）排序的分類：
（1）部分排序：
MapReduce根據輸入記錄的鍵對數據集排序。保證輸出的每個文件內部排序。
（2）全排序：
如何用Hadoop產生一個全局排序的文件？最簡單的方法是使用一個分區。但該方法在處理大型文件時效率極低，因為一臺機器必須處理所有輸出文件，從而完全喪失了MapReduce所提供的並行架構。
替代方案：首先創建一系列排好序的文件；其次，串聯這些文件；最後，生成一個全局排序的文件。主要思路是使用一個分區來描述輸出的全局排序。例如：可以為待分析文件創建3個分區，在第一分區中，記錄的單詞首字母a-g，第二分區記錄單詞首字母h-n, 第三分區記錄單詞首字母o-z。
（3）輔助排序：（GroupingComparator分組）
Mapreduce框架在記錄到達reducer之前按鍵對記錄排序，但鍵所對應的值並沒有被排序。甚至在不同的執行輪次中，這些值的排序也不固定，因為它們來自不同的map任務且這些map任務在不同輪次中完成時間各不相同。一般來說，大多數MapReduce程式會避免讓reduce函數依賴於值的排序。但是，有時也需要通過特定的方法對鍵進行排序和分組等以實現對值的排序。
（4）二次排序：
在自定義排序過程中，如果compareTo中的判斷條件為兩個即為二次排序。
2）自定義排序WritableComparable
bean對象實現WritableComparable介面重寫compareTo方法，就可以實現排序
@Override
public int compareTo(FlowBean o) {
// 倒序排列，從大到小
return this.sumFlow > o.getSumFlow() ? -1 : 1;
}
3）排序發生的階段：
（1）一個是在map side發生在spill後partition前。
（2）一個是在reduce side發生在copy後 reduce前。

8、描述mapReduce中shuffle階段的工作流程，如何優化shuffle階段

分區，排序，溢寫，拷貝到對應reduce機器上，增加combiner，壓縮溢寫的文件。

9、描述mapReduce中combiner的作用是什麼，一般使用情景，以及和reduce的區別？

1）Combiner的意義就是對每一個maptask的輸出進行局部彙總，以減小網路傳輸量。
2）Combiner能夠應用的前提是不能影響最終的業務邏輯，而且，Combiner的輸出kv應該跟reducer的輸入kv類型要對應起來。
3）Combiner和reducer的區別在於運行的位置。
Combiner是在每一個maptask所在的節點運行；
Reducer是接收全局所有Mapper的輸出結果。

10、如果沒有定義partitioner，那數據在被送達reducer前是如何被分區的？

如果沒有自定義的 partitioning，則預設的 partition 演算法，即根據每一條數據的 key 的 hashcode 值摸運算（%）reduce 的數量，得到的數字就是“分區號“。

11、MapReduce 出現單點負載多大，怎麼負載平衡？

通過Partitioner實現

12、MapReduce 怎麼實現 TopN？

可以自定義groupingcomparator，對結果進行最大值排序，然後再reduce輸出時，控制只輸出前n個數。就達到了topn輸出的目的。

13、Hadoop的緩存機制（Distributedcache）是怎麼樣的？

分散式緩存一個最重要的應用就是在進行join操作的時候，如果一個表很大，另一個表很小，我們就可以將這個小表進行廣播處理，即每個計算節點上都存一份，然後進行map端的連接操作，經過我的實驗驗證，這種情況下處理效率大大高於一般的reduce端join，廣播處理就運用到了分散式緩存的技術。
DistributedCache將拷貝緩存的文件到Slave節點在任何Job在節點上執行之前，文件在每個Job中只會被拷貝一次，緩存的歸檔文件會被在Slave節點中解壓縮。將本地文件複製到HDFS中去，接著Client會通過addCacheFile() 和addCacheArchive()方法告訴DistributedCache在HDFS中的位置。當文件存放到文地時，JobClient同樣獲得DistributedCache來創建符號鏈接，其形式為文件的URI加fragment標識。當用戶需要獲得緩存中所有有效文件的列表時，JobConf 的方法 getLocalCacheFiles() 和getLocalArchives()都返回一個指向本地文件路徑對象數組。

14、mapReduce如何實現兩個表的join?

1）reduce side join : 在map階段，map函數同時讀取兩個文件File1和File2，為了區分兩種來源的key/value數據對，對每條數據打一個標簽（tag）,比如：tag=0 表示來自文件File1，tag=2 表示來自文件File2。
2）map side join : Map side join 是針對以下場景進行的優化：兩個待連接表中，有一個表非常大，而另一個表非常小，以至於小表可以直接存放到記憶體中。這樣，我們可以將小表複製多份，讓每個map task 記憶體中存在一份（比如存放到hash table 中），然後只掃描大表：對於大表中的每一條記錄key/value，在hash table 中查找是否有相同的key 的記錄，如果有，則連接後輸出即可。

15、什麼樣的計算不適用mr來提速？

1）數據量很小
2）特別多的小文件
3）特別頻繁的讀的時候，索引是更好的存取機制的時候
4）需要使用事務的時候
5）只有一臺機器的時候

16、更多大數據面試集錦

本文來自博客園，作者：張飛的豬，轉載請註明原文鏈接：https://www.cnblogs.com/the-pig-of-zf/p/17517755.html

公眾號：張飛的豬大數據分享，不定期分享大數據學習的總結和相關資料，歡迎關註。

個人網站"張飛的豬編程工作室"鏈接: https://zhangfeidezhu.com