大數據面試題集錦-Hadoop面試題(三)-MapReduce

来源:https://www.cnblogs.com/the-pig-of-zf/archive/2023/06/30/17517755.html
-Advertisement-
Play Games

> 你準備好面試了嗎?這裡有一些面試中可能會問到的問題以及相對應的答案。如果你需要更多的面試經驗和麵試題,關註一下"張飛的豬大數據分享"吧,公眾號會不定時的分享相關的知識和資料。 [TOC] ## 1、談談Hadoop序列化和反序列化及自定義bean對象實現序列化? 1)序列化和反序列化 (1)序列 ...


你準備好面試了嗎?這裡有一些面試中可能會問到的問題以及相對應的答案。如果你需要更多的面試經驗和麵試題,關註一下"張飛的豬大數據分享"吧,公眾號會不定時的分享相關的知識和資料。

目錄

1、談談Hadoop序列化和反序列化及自定義bean對象實現序列化?

1)序列化和反序列化
  (1)序列化就是把記憶體中的對象,轉換成位元組序列(或其他數據傳輸協議)以便於存儲(持久化)和網路傳輸。
  (2)反序列化就是將收到位元組序列(或其他數據傳輸協議)或者是硬碟的持久化數據,轉換成記憶體中的對象。
  (3)Java的序列化是一個重量級序列化框架(Serializable),一個對象被序列化後,會附帶很多額外的信息(各種校驗信息,header,繼承體系等),不便於在網路中高效傳輸。所以,hadoop自己開發了一套序列化機制(Writable),精簡、高效。

2)自定義bean對象要想序列化傳輸步驟及註意事項:

(1)必須實現Writable介面
  (2)反序列化時,需要反射調用空參構造函數,所以必須有空參構造
  (3)重寫序列化方法
  (4)重寫反序列化方法
  (5)註意反序列化的順序和序列化的順序完全一致
  (6)要想把結果顯示在文件中,需要重寫toString(),且用"\t"分開,方便後續用
  (7)如果需要將自定義的bean放在key中傳輸,則還需要實現comparable介面,因為mapreduce框中的shuffle過程一定會對key進行排序

2、FileInputFormat切片機制

job提交流程源碼詳解

 waitForCompletion()
  submit();
  // 1、建立連接
    connect();
      // 1)創建提交job的代理
      new Cluster(getConfiguration());
        // (1)判斷是本地yarn還是遠程
        initialize(jobTrackAddr, conf);
  // 2、提交job
  submitter.submitJobInternal(Job.this, cluster)
    // 1)創建給集群提交數據的Stag路徑
    Path jobStagingArea = JobSubmissionFiles.getStagingDir(cluster, conf);
    // 2)獲取jobid ,並創建job路徑
    JobID jobId = submitClient.getNewJobID();
    // 3)拷貝jar包到集群
    copyAndConfigureFiles(job, submitJobDir);
    rUploader.uploadFiles(job, jobSubmitDir);
    // 4)計算切片,生成切片規劃文件
    writeSplits(job, submitJobDir);
    maps = writeNewSplits(job, jobSubmitDir);
    input.getSplits(job);
    // 5)向Stag路徑寫xml配置文件
    writeConf(conf, submitJobFile);
    conf.writeXml(out);
    // 6)提交job,返回提交狀態
    status = submitClient.submitJob(jobId, submitJobDir.toString(), job.getCredentials());

3、在一個Hadoop 任務中,什麼是InputSplit(切片),以及切片是用來做什麼的,切片與block有什麼區別?

FileInputFormat源碼解析(input.getSplits(job))
(1)找到你數據存儲的目錄。
(2)開始遍歷處理(規劃切片)目錄下的每一個文件。
(3)遍歷第一個文件xx.txt。
  a)獲取文件大小fs.sizeOf(xx.txt);。
  b)計算切片大小
computeSliteSize(Math.max(minSize,Math.min(maxSize,blocksize)))。
  c)預設情況下,切片大小=blocksize。
  d)開始切,形成第1個切片:xx.txt—0:128M 第2個切片xx.txt—128:256M 第3個切片xx.txt—256M:300M(每次切片時,都要判斷切完剩下的部分是否大於塊的1.1倍,不大於1.1倍就劃分一塊切片)。
  e)將切片信息寫到一個切片規劃文件中。
  f)整個切片的核心過程在getSplit()方法中完成。
  g)數據切片只是在邏輯上對輸入數據進行分片,並不會再磁碟上將其切分成分片進行存儲。InputSplit只記錄了分片的元數據信息,比如起始位置、長度以及所在的節點列表等。
  h)註意:block是HDFS上物理上存儲的存儲的數據,切片是對數據邏輯上的劃分。
(4)提交切片規劃文件到yarn上,yarn上的MrAppMaster就可以根據切片規劃文件計算開啟maptask個數。

4、如何判定一個job的map和reduce的數量?

1)map數量
  splitSize=max{minSize,min{maxSize,blockSize}}
  map數量由處理的數據分成的block數量決定default_num = total_size / split_size;
2)reduce數量
  reduce的數量job.setNumReduceTasks(x);x 為reduce的數量。不設置的話預設為 1。

5、 Maptask的個數由什麼決定?

一個job的map階段MapTask並行度(個數),由客戶端提交job時的切片個數決定。

6、MapTask和ReduceTask工作機制或工作原理

MapTask工作機制

(1)Read階段:Map Task通過用戶編寫的RecordReader,從輸入InputSplit中解析出一個個key/value。
(2)Map階段:該節點主要是將解析出的key/value交給用戶編寫map()函數處理,並產生一系列新的key/value。
(3)Collect收集階段:在用戶編寫map()函數中,當數據處理完成後,一般會調用OutputCollector.collect()輸出結果。在該函數內部,它會將生成的key/value分區(調用Partitioner),並寫入一個環形記憶體緩衝區中。
(4)Spill階段:即“溢寫”,當環形緩衝區滿後,MapReduce會將數據寫到本地磁碟上,生成一個臨時文件。需要註意的是,將數據寫入本地磁碟之前,先要對數據進行一次本地排序,併在必要時對數據進行合併、壓縮等操作。
(5)Combine階段:當所有數據處理完成後,MapTask對所有臨時文件進行一次合併,以確保最終只會生成一個數據文件。

ReduceTask工作機制
(1)Copy階段:ReduceTask從各個MapTask上遠程拷貝一片數據,並針對某一片數據,如果其大小超過一定閾值,則寫到磁碟上,否則直接放到記憶體中。
(2)Merge階段:在遠程拷貝數據的同時,ReduceTask啟動了兩個後臺線程對記憶體和磁碟上的文件進行合併,以防止記憶體使用過多或磁碟上文件過多。
(3)Sort階段:按照MapReduce語義,用戶編寫reduce()函數輸入數據是按key進行聚集的一組數據。為了將key相同的數據聚在一起,Hadoop採用了基於排序的策略。 由於各個MapTask已經實現對自己的處理結果進行了局部排序,因此,ReduceTask只需對所有數據進行一次歸併排序即可。
(4)Reduce階段:reduce()函數將計算結果寫到HDFS上。

7、描述mapReduce有幾種排序及排序發生的階段

1)排序的分類:
  (1)部分排序:
    MapReduce根據輸入記錄的鍵對數據集排序。保證輸出的每個文件內部排序。
  (2)全排序:
    如何用Hadoop產生一個全局排序的文件?最簡單的方法是使用一個分區。但該方法在處理大型文件時效率極低,因為一臺機器必須處理所有輸出文件,從而完全喪失了MapReduce所提供的並行架構。
    替代方案:首先創建一系列排好序的文件;其次,串聯這些文件;最後,生成一個全局排序的文件。主要思路是使用一個分區來描述輸出的全局排序。例如:可以為待分析文件創建3個分區,在第一分區中,記錄的單詞首字母a-g,第二分區記錄單詞首字母h-n, 第三分區記錄單詞首字母o-z。
  (3)輔助排序:(GroupingComparator分組)
    Mapreduce框架在記錄到達reducer之前按鍵對記錄排序,但鍵所對應的值並沒有被排序。甚至在不同的執行輪次中,這些值的排序也不固定,因為它們來自不同的map任務且這些map任務在不同輪次中完成時間各不相同。一般來說,大多數MapReduce程式會避免讓reduce函數依賴於值的排序。但是,有時也需要通過特定的方法對鍵進行排序和分組等以實現對值的排序。
  (4)二次排序:
    在自定義排序過程中,如果compareTo中的判斷條件為兩個即為二次排序。
2)自定義排序WritableComparable
  bean對象實現WritableComparable介面重寫compareTo方法,就可以實現排序
    @Override
    public int compareTo(FlowBean o) {
      // 倒序排列,從大到小
      return this.sumFlow > o.getSumFlow() ? -1 : 1;
    }
3)排序發生的階段:
  (1)一個是在map side發生在spill後partition前。
  (2)一個是在reduce side發生在copy後 reduce前。

8、描述mapReduce中shuffle階段的工作流程,如何優化shuffle階段

分區,排序,溢寫,拷貝到對應reduce機器上,增加combiner,壓縮溢寫的文件。

9、描述mapReduce中combiner的作用是什麼,一般使用情景,以及和reduce的區別?

1)Combiner的意義就是對每一個maptask的輸出進行局部彙總,以減小網路傳輸量。
2)Combiner能夠應用的前提是不能影響最終的業務邏輯,而且,Combiner的輸出kv應該跟reducer的輸入kv類型要對應起來。
3)Combiner和reducer的區別在於運行的位置。
  Combiner是在每一個maptask所在的節點運行;
  Reducer是接收全局所有Mapper的輸出結果。

10、如果沒有定義partitioner,那數據在被送達reducer前是如何被分區的?

如果沒有自定義的 partitioning,則預設的 partition 演算法,即根據每一條數據的 key 的 hashcode 值摸運算(%)reduce 的數量,得到的數字就是“分區號“。

11、MapReduce 出現單點負載多大,怎麼負載平衡?

通過Partitioner實現

12、MapReduce 怎麼實現 TopN?

可以自定義groupingcomparator,對結果進行最大值排序,然後再reduce輸出時,控制只輸出前n個數。就達到了topn輸出的目的。

13、Hadoop的緩存機制(Distributedcache)是怎麼樣的?

分散式緩存一個最重要的應用就是在進行join操作的時候,如果一個表很大,另一個表很小,我們就可以將這個小表進行廣播處理,即每個計算節點上都存一份,然後進行map端的連接操作,經過我的實驗驗證,這種情況下處理效率大大高於一般的reduce端join,廣播處理就運用到了分散式緩存的技術。
  DistributedCache將拷貝緩存的文件到Slave節點在任何Job在節點上執行之前,文件在每個Job中只會被拷貝一次,緩存的歸檔文件會被在Slave節點中解壓縮。將本地文件複製到HDFS中去,接著Client會通過addCacheFile() 和addCacheArchive()方法告訴DistributedCache在HDFS中的位置。當文件存放到文地時,JobClient同樣獲得DistributedCache來創建符號鏈接,其形式為文件的URI加fragment標識。當用戶需要獲得緩存中所有有效文件的列表時,JobConf 的方法 getLocalCacheFiles() 和getLocalArchives()都返回一個指向本地文件路徑對象數組。

14、mapReduce如何實現兩個表的join?

1)reduce side join : 在map階段,map函數同時讀取兩個文件File1和File2,為了區分兩種來源的key/value數據對,對每條數據打一個標簽(tag),比如:tag=0 表示來自文件File1,tag=2 表示來自文件File2。
  2)map side join : Map side join 是針對以下場景進行的優化:兩個待連接表中,有一個表非常大,而另一個表非常小,以至於小表可以直接存放到記憶體中。這樣,我們可以將小表複製多份,讓每個map task 記憶體中存在一份(比如存放到hash table 中),然後只掃描大表:對於大表中的每一條記錄key/value,在hash table 中查找是否有相同的key 的記錄,如果有,則連接後輸出即可。

15、什麼樣的計算不適用mr來提速?

1)數據量很小
2)特別多的小文件
3)特別頻繁的讀的時候,索引是更好的存取機制的時候
4)需要使用事務的時候
5)只有一臺機器的時候

16、更多大數據面試集錦

  1. 大數據書籍資料分享
  2. 大數據面試題集錦

本文來自博客園,作者:張飛的豬,轉載請註明原文鏈接:https://www.cnblogs.com/the-pig-of-zf/p/17517755.html

公眾號:張飛的豬大數據分享,不定期分享大數據學習的總結和相關資料,歡迎關註。

個人網站"張飛的豬編程工作室"鏈接: https://zhangfeidezhu.com


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • # 個人博客-添加RSS訂閱功能 # 前言 個人博客系列已經完成了 - [x] 留言板 - [x] 文章歸檔 - [x] 推薦文章優化 - [x] 推薦文章排序 博客地址:https://pljzy.top 然後博客開源的原作者也是百忙之中添加了一個名為**RSS訂閱**的功能,那麼我就來簡述一下這 ...
  • .NET本身就是一個基於中間件(middleware)的框架,它通過一系列的中間件組件來處理HTTP請求和響應。在之前的文章[《.NET源碼解讀kestrel伺服器及創建HttpContext對象流程》](https://www.cnblogs.com/Z7TS/p/17459777.html)中, ...
  • ## 一:背景 ### 1. 講故事 經常有朋友跟我反饋,說看你的文章就像看天書一樣,有沒有一些簡單入手的dump 讓我們先找找感覺,哈哈,今天就給大家帶來一篇入門級的案例,這裡的入門是從 WinDbg 的角度來闡述的,這個問題如果你通過 記日誌,分析代碼 的方式,可能真的無法解決,不信的話繼續往下 ...
  • 我們接觸一個新事物的時候,如果一個事物能夠給我們帶來非常直觀的感官認識,那麼我們就很容易接受,反之可能需要很長時間的潛移默化的瞭解認識才能接受。萬物化繁為簡,透過本質看表象,往往也是一個認知迭代深入的過程。在我介紹很多篇隨筆《SqlSugar開發框架》,能夠看完的肯定不會是一開始就學習的人員,畢竟技... ...
  • 繼上篇:Taurus .Net Core 微服務開源框架:Admin 插件【3】 - 指標統計管理,本篇繼續介紹下一個內容:系統配置節點:App - Config 界面... ...
  • 本文分享自天翼雲開發者社區《雲存儲環境下的容災關鍵技術》,作者:王兆龍 雲存儲的出現解決了現有容災系統的幾個顯著問題:一是面對大量的備份數據,管理系統不夠完善的問題;二是面對大規模的數據容災靈活性和效率不高的問題;三是在數據加密保護方面依然存在的安全隱患問題。那麼,雲存儲解決這些問題主要依靠的技術原 ...
  • 在研究Quark-n的時候,利用Windows自帶的遠程桌面連接,實現了在Windows上看到Linux的GUI,但是很快就發現了好多問題,比如想用Tab補全命令的時候,它不靈,只能Shitf+Tab,有悖於傳統操作按鍵,而且GUI有延時,拖動終端時有拖影,圖形操作體驗很差。為瞭解決這個問題,便在網 ...
  • 1、常規聯表查詢 創建兩張資料庫表如下: mysql> select * from dept; + + + | id | deptName | + + + | 3 | 教學部 | + + + 1 row in set (0.00 sec) mysql> select * from employee; ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...