面試了10為大數據開發者,總結了幾道常見面試題

来源:https://www.cnblogs.com/fenghuo9527/archive/2018/07/21/9347402.html
-Advertisement-
Play Games

前言 金三銀四,金三已經過去,到了銀四,根據統計,很多人都會選擇在7月8月跳槽,原因有很多,企業年後會有大量員工離職,員工覺得老公司待遇不怎麼樣?薪資不夠高,想換個新環境等等原因,所以,7月份就變成了招聘與跳槽的旺季 前面一段時間給公司面試了10個大數據開發的人,自己總結了50道面試題,在此,我分享 ...


前言

金三銀四,金三已經過去,到了銀四,根據統計,很多人都會選擇在7月8月跳槽,原因有很多,企業年後會有大量員工離職,員工覺得老公司待遇不怎麼樣?薪資不夠高,想換個新環境等等原因,所以,7月份就變成了招聘與跳槽的旺季

前面一段時間給公司面試了10個大數據開發的人,自己總結了50道面試題,在此,我分享給大家,希望大家在7月份要找工作的朋友,我的這篇文章能給你有所幫助。

大綱

kafka的message包括哪些信息

 

怎麼查看kafka的offset

 

一、Map端的shuffle

 

二、Reduce端的shuffle

 

spark集群運算的模式

 

讀:

1、跟namenode通信查詢元數據,找到文件塊所在的datanode伺服器

2、挑選一臺datanode(就近原則,然後隨機)伺服器,請求建立socket流

3、datanode開始發送數據(從磁碟裡面讀取數據放入流,以packet為單位來做校驗)

4、客戶端以packet為單位接收,現在本地緩存,然後寫入目標文件

寫:

1、根namenode通信請求上傳文件,namenode檢查目標文件是否已存在,父目錄是否存在

2、namenode返回是否可以上傳

3、client請求第一個 block該傳輸到哪些datanode伺服器上

4、namenode返回3個datanode伺服器ABC

5、client請求3台dn中的一臺A上傳數據(本質上是一個RPC調用,建立pipeline),A收到請求會繼續調用B,然後B調用C,將真個pipeline建立完成,逐級返回客戶端

6、client開始往A上傳第一個block(先從磁碟讀取數據放到一個本地記憶體緩存),以packet為單位,A收到一個packet就會傳給B,B傳給C;A每傳一個packet會放入一個應答隊列等待應答

7、當一個block傳輸完成之後,client再次請求namenode上傳第二個block的伺服器。

RDD中reduceBykey與groupByKey哪個性能好,為什麼

reduceByKey:reduceByKey會在結果發送至reducer之前會對每個mapper在本地進行merge,有點類似於在MapReduce中的combiner。這樣做的好處在於,在map端進行一次reduce之後,數據量會大幅度減小,從而減小傳輸,保證reduce端能夠更快的進行結果計算。

groupByKey:groupByKey會對每一個RDD中的value值進行聚合形成一個序列(Iterator),此操作發生在reduce端,所以勢必會將所有的數據通過網路進行傳輸,造成不必要的浪費。同時如果數據量十分大,可能還會造成OutOfMemoryError。

通過以上對比可以發現在進行大量數據的reduce操作時候建議使用reduceByKey。不僅可以提高速度,還是可以防止使用groupByKey造成的記憶體溢出問題。

spark sql怎麼取數據的差集

 

spark2.0的瞭解

 

rdd 怎麼分區寬依賴和窄依賴

 

spark streaming 讀取kafka數據的兩種方式

這兩種方式分別是:

 

kafka的數據存在記憶體還是磁碟

 

怎麼解決kafka的數據丟失

 

答案

 

由於答案太多,我做了一個word文檔,由於博客園不能上傳文件,需要答案可以加小編的qq交流群531629188在裡面直接獲取文檔,也歡迎招聘者,找工作的來,提供一個更大的平臺

 

 
您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • rm命令Remove,功能:1)刪除目錄,2)刪除文件。 (可以遞歸的刪除指定目錄的所有文件及子目錄) 註意:rm是一個危險的命令,使用的時候要特別當心,尤其對於初學者來說。 1、用法 rm [選項] [參數] (參數為目錄或文件) 2、命令選項 -f:不提示,強制刪除文件或目錄;-i:刪除已有文件 ...
  • mkdir用來創建具有指定名稱的目錄,該目錄不能已存在,且當前用戶對工作目錄具有寫許可權 1、用法: mkdir [選項] [目錄..] 2、選項 -m: --mode=模式,為目錄指定訪問許可權,與chmod類似-p: --parents 當目錄的父級目錄不存在時,創建父級目錄,該選項常用於創建級聯目 ...
  • 前言:該文章是基於 Hadoop2.7.6_01_部署 進行的。 1. Hive基本概念 1.1. 什麼是Hive Hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張資料庫表,並提供類SQL查詢功能。 1.2. 為什麼使用Hive 直接使用hadoop所面臨的問題 人員學 ...
  • CMD下進入MYSQL的命令 mysql -h localhost -u root -p 切到MYSQL的bin目錄下,輸入上面命令,回車 然後輸入密碼 回車 ...
  • 最近下載新的MySQL8.0 來使用的時候, 通過sqlyog、或者程式中連接資料庫時,提示:Authentication plugin 'caching_sha2_password' cannot be loaded 的錯誤,經查看發現,8.0改變了 身份驗證插件 , 打開 my.ini (或者m ...
  • mysql的字元集和字元序: 字元序:字元序(Collation)是指在同一字元集內字元之間的比較規則 一個字元序唯一對應一種字元集,但一個字元集可以對應多種字元序,其中有一個是預設字元序(Default Collation) mysql的字元集和字元序有四個級別的預設設置:伺服器級,資料庫級,數據 ...
  • 1、事務(Transaction): 事務是將一系列數據操作綁成一個整體進行統一管理。 如果一事務執行成功,則咋子該事務中進行的所有數據更改均會提交,稱為資料庫中的永久成部分。 如果事務執行是遇到錯誤且必須取消或回滾,則數據將全部恢復到操作前的狀態,所有數據的更改均被清除。 定義: 事務是一種機制、 ...
  • 1、 修改表: (1)修改表名語法: ALTER TABLE <舊表名> RENAME [ TO ] <新表名>; 註意:其中[TO]為可選參數,使用與否不影響結果,僅修改表名,表結構不變; (2)添加欄位語法: ALTER TABLE 表名 ADD 欄位名 數據類型 [屬性]; (3)修改欄位語法 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...