大數據面試題集錦-Hadoop面試題(一)

来源:https://www.cnblogs.com/the-pig-of-zf/archive/2023/04/09/17300348.html
-Advertisement-
Play Games

你準備好面試了嗎?這裡有一些面試中可能會問到的問題以及相對應的答案。 1、集群的最主要瓶頸 磁碟IO 2、Hadoop運行模式 單機版、偽分散式模式、完全分散式模式 3、Hadoop生態圈的組件並做簡要描述 Zookeeper:是一個開源的分散式應用程式協調服務,基於zookeeper可以實現同步服 ...


目錄

你準備好面試了嗎?這裡有一些面試中可能會問到的問題以及相對應的答案。

1、集群的最主要瓶頸

磁碟IO

2、Hadoop運行模式

單機版、偽分散式模式、完全分散式模式

3、Hadoop生態圈的組件並做簡要描述

  • Zookeeper:是一個開源的分散式應用程式協調服務,基於zookeeper可以實現同步服務,配置維護,命名服務。
  • Flume:一個高可用的,高可靠的,分散式的海量日誌採集、聚合和傳輸的系統。   Hbase:是一個分散式的、面向列的開源資料庫,利用Hadoop HDFS作為其存儲系統。
  • Hive:基於Hadoop的一個數據倉庫工具,可以將結構化的數據檔映射為一張資料庫表,並提供簡單的sql查詢功能,可以將sql語句轉換為MapReduce任務進行運行。
  • Sqoop:將一個關係型資料庫中的數據導進到Hadoop的HDFS中,也可以將HDFS的數據導進到關係型資料庫中。

4、解釋“hadoop”和“hadoop 生態系統”兩個概念

Hadoop是指Hadoop框架本身;hadoop生態系統,不僅包含hadoop,還包括保證hadoop框架正常高效運行其他框架,比如zookeeper、Flume、Hbase、Hive、Sqoop等輔助框架。

Hadoop 包括以下內容:

  • HDFS(Hadoop Distributed File System,Hadoop 分散式文件系統):HDFS 允許你以一種分散式和冗餘的方式存儲大量數據。例如,1 GB(即 1024 MB)文本文件可以拆分為 16 * 128MB 文件,並存儲在 Hadoop 集群中的 8 個不同節點上。每個分裂可以複製 3 次,以實現容錯,以便如果 1 個節點故障的話,也有備份。HDFS 適用於順序的“一次寫入、多次讀取”的類型訪問。
  • MapReduce:一個計算框架。它以分散式和並行的方式處理大量的數據。當你對所有年齡> 18 的用戶在上述 1 GB 文件上執行查詢時,將會有“8 個映射”函數並行運行,以在其 128 MB 拆分文件中提取年齡> 18 的用戶,然後“reduce”函數將運行以將所有單獨的輸出組合成單個最終結果。
  • YARN(Yet Another Resource Nagotiator,又一資源定位器):用於作業調度和集群資源管理的框架。

Hadoop 生態系統,擁有 15 多種框架和工具,如 Sqoop,Flume,Kafka,Pig,Hive,Spark,Impala 等,以便將數據攝入 HDFS,在 HDFS 中轉移數據(即變換,豐富,聚合等),並查詢來自 HDFS 的數據用於商業智能和分析。某些工具(如 Pig 和 Hive)是 MapReduce 上的抽象層,而 Spark 和 Impala 等其他工具則是來自 MapReduce 的改進架構/設計,用於顯著提高的延遲以支持近實時(即 NRT)和實時處理。

5、請列出正常工作的Hadoop集群中Hadoop都分別需要啟動哪些進程,它們的作用分別是什麼?

  • NameNode:它是hadoop中的主伺服器,管理文件系統名稱空間和對集群中存儲的文件的訪問,保存有metadate。
  • SecondaryNameNode:它不是namenode的冗餘守護進程,而是提供周期檢查點和清理任務。幫助NN合併editslog,減少NN啟動時間。
  • DataNode:它負責管理連接到節點的存儲(一個集群中可以有多個節點)。每個存儲數據的節點運行一個datanode守護進程。
  • ResourceManager(JobTracker):JobTracker負責調度DataNode上的工作。每個DataNode有一個TaskTracker,它們執行實際工作。
  • NodeManager:(TaskTracker)執行任務。
  • DFSZKFailoverController:高可用時它負責監控NN的狀態,並及時的把狀態信息寫入ZK。它通過一個獨立線程周期性的調用NN上的一個特定介面來獲取NN的健康狀態。FC也有選擇誰作為Active NN的權利,因為最多只有兩個節點,目前選擇策略還比較簡單(先到先得,輪換)。
  • JournalNode:高可用情況下存放namenode的editlog文件。

6、基於 Hadoop 生態系統對比傳統數據倉庫有何優勢?

傳統數據基礎設施:主要使用存儲在高端和昂貴硬體中的“structured data,結構化數據”主要處理為 ETL 批處理作業,用於將數據提取到 RDBMS 和數據倉庫系統中進行數據挖掘,分析和報告,以進行關鍵業務決策。主要處理以千兆位元組到兆位元組為單位的數據量。
基於 Hadoop 的數據基礎設施:其中結構化(例如 RDBMS),非結構化(例如 images,PDF,docs )和半結構化(例如 logs,XMLs)的數據可以以可擴展和容錯的方式存儲在較便宜的商品機器中。可以通過批處理作業和近實時(即,NRT,200 毫秒至 2 秒)流(例如 Flume 和 Kafka)來攝取數據。數據可以使用諸如 Spark 和 Impala 之類的工具以低延遲(即低於 100 毫秒)的能力查詢。可以存儲以兆兆位元組到千兆位元組為單位的較大數據量。這使得能夠使用更強大的工具來做出更好的業務決策,這些更強大的工具用於獲取數據,轉移存儲的數據(例如聚合,豐富,變換等),以及使用低延遲的報告功能和商業智能。

所以有下麵幾個優點

  1. 擴展更便宜,更高效地並行處理大數據。隨著數據量和複雜性的增加,提高了整體 SLA(即服務水平協議)。例如,“Shared Nothing”架構,並行處理,記憶體密集型處理框架,如 Spark 和 Impala,以及 YARN 容量調度程式中的資源搶占。添加額外的高端硬體容量以及獲取數據倉庫工具的許可證可能會顯著增加成本。基於 Hadoop生態系統不僅在商品硬體節點和開源工具方面更便宜,而且還可以通過將數據轉換卸載到 Hadoop 工具(如 Spark 和 Impala)來補足數據倉庫解決方案,從而更高效地並行處理大數據。這也將釋放數據倉庫資源。
  2. 探索新的渠道和線索。Hadoop 可以為數據科學家提供探索性的沙盒,以從社交媒體,日誌文件,電子郵件等地方發現潛在的有價值的數據,這些數據通常在傳統數據倉庫中不可得。
  3. 更好的靈活性。通常業務需求的改變,也需要對架構和報告進行更改。基於 Hadoop 的解決方案不僅可以靈活地處理不斷發展的模式,還可以處理來自不同來源,如社交媒體,應用程式日誌文件,image,PDF 和文檔文件的半結構化和非結構化數據。

7、如何選擇不同的文件格式存儲和處理數據

選擇何種文件格式的關鍵之一是基於以下方面:

  1. 使用模式,例如訪問 50 列中的 5 列,而不是訪問大多數列
  2. 可並行處理的可分裂性
  3. 塊壓縮節省存儲空間 vs 讀/寫/傳輸性能模式演化以添加欄位
  4. 修改欄位和重命名欄位

CSV 文件

CSV 文件通常用於在 Hadoop 和外部系統之間交換數據。CSV 是可讀和可解析的。 CSV 可以方便地用於從資料庫到 Hadoop 或到分析資料庫的批量載入。在 Hadoop 中使用 CSV 文件時,不包括頁眉或頁腳行。文件的每一行都應包含記錄。CSV 文件對模式評估的支持是有限的,因為新欄位只能附加到記錄的結尾,並且現有欄位不能受到限制。CSV 文件不支持塊壓縮,因此壓縮 CSV 文件會有明顯的讀取性能成本。

JSON 文件

JSON 記錄與 JSON 文件不同;每一行都是其 JSON 記錄。由於 JSON 將模式和數據一起存儲在每個記錄中,因此它能夠實現完整的模式演進和可拆分性。此外,JSON 文件不支持塊級壓縮。
序列文件
序列文件以與 CSV 文件類似的結構用二進位格式存儲數據。像 CSV 一樣,序列文件不存儲元數據,因此只有模式進化才將新欄位附加到記錄的末尾。與 CSV 文件不同,序列文件確實支持塊壓縮。序列文件也是可拆分的。序列文件可以用於解決“小文件問題”,方式是通過組合較小的通過存儲文件名作為鍵和文件內容作為值的 XML 文件。由於讀取序列文件的複雜性,它們更適合用於在飛行中的(即中間的)數據存儲。
註意:序列文件是以 Java 為中心的,不能跨平臺使用。

Avro 文件

適合於有模式的長期存儲。Avro 文件存儲具有數據的元數據,但也允許指定用於讀取文件的獨立模式。啟用完全的模式進化支持,允許你通過定義新的獨立模式重命名、添加和刪除欄位以及更改欄位的數據類型。Avro 文件以 JSON 格式定義模式,數據將採用二進位 JSON 格式。Avro 文件也是可拆分的,並支持塊壓縮。更適合需要行級訪問的使用模式。這意味著查詢該行中的所有列。不適用於行有 50+ 列,但使用模式只需要訪問 10 個或更少的列。Parquet 文件格式更適合這個列訪問使用模式。

Columnar 格式,例如 RCFile,ORC

RDBM 以面向行的方式存儲記錄,因為這對於需要在獲取許多列的記錄的情況下是高效的。如果在向磁碟寫入記錄時已知所有列值,則面向行的寫也是有效的。但是這種方法不能有效地獲取行中的僅 10% 的列或者在寫入時所有列值都不知道的情況。這是 Columnar 文件更有意義的地方。所以Columnar 格式在以下情況下工作良好:

  1. 在不屬於查詢的列上跳過 I / O 和解壓縮
  2. 用於僅訪問列的一小部分的查詢。
  3. 用於數據倉庫型應用程式,其中用戶想要在大量記錄上聚合某些列。
  4. RC 和 ORC 格式是專門用 Hive 寫的而不是通用作為 Parquet。

Parquet 文件

Parquet 文件是一個 columnar 文件,如 RC 和 ORC。Parquet 文件支持塊壓縮並針對查詢性能進行了優化,可以從 50 多個列記錄中選擇 10 個或更少的列。Parquet 文件寫入性能比非 columnar 文件格式慢。Parquet 通過允許在最後添加新列,還支持有限的模式演變。Parquet 可以使用 Avro API 和 Avro 架構進行讀寫。

總之,相對於其他,你應該會更喜歡序列,Avro 和 Parquet 文件格式;序列文件用於原始和中間存儲,Avro 和 Parquet 文件用於處理。

本文來自博客園,作者:張飛的豬,轉載請註明原文鏈接:https://www.cnblogs.com/the-pig-of-zf/p/17300348.html

公眾號:張飛的豬大數據分享,不定期分享大數據學習的總結和相關資料,歡迎關註。

個人網站"張飛的豬編程工作室"鏈接: https://zhangfeidezhu.com


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 雲伺服器開啟埠 CentOS開啟埠 防火牆添加埠 firewall-cmd --zone=public --add-port=埠/tcp --permanent 命令含義: –zone #作用域 –add-port=1935/tcp #添加埠,格式為:埠/通訊協議 –permanent ...
  • Ubuntu系統Flameshot使用問題 系統:Ubuntu22.04 問題:使用Flameshot,每次都會先截取整個屏幕,提示需要先分享,再使用Flameshot的功能 安裝Flameshot sudo apt install flameshot 先說解決方案 開機用戶登錄時,右下角有設置桌面 ...
  • 前言 這個任務調度模塊的實現是形成於畢設項目中的,用在STM32中,斷斷續續跨度2個月實現了一些基本功能,可能後面再做其他項目時會一點點完善起來,也會多學習相關知識來強化模塊的實用性和高效性,畢竟用自己自主實現出來的功能還是蠻舒心的。 任務調度模式結構 整體上的結構屬於線性結構,結合鏈表和定時器來實 ...
  • Win(WD 512G)+ Fedora(Lexar 256G),在Fedora Linux中無法顯示Windows的硬碟,排除SCSI匯流排的問題後確認是傲騰Optane without Raid的問題,通過BIOS更改為ACHI得到解決 ...
  • 一、基礎知識 1.1 Linux系統的文件結構 /bin 二進位文件,系統常規命令 /boot 系統啟動分區,系統啟動時讀取的文件 /dev 設備文件 /etc 大多數配置文件 /home 普通用戶的家目錄 /lib 32位函數庫 /lib64 64位庫 /media 手動臨時掛載點 /mnt 手動 ...
  • 痞子衡嵌入式半月刊: 第 75 期 這裡分享嵌入式領域有用有趣的項目/工具以及一些熱點新聞,農曆年分二十四節氣,希望在每個交節之日準時發佈一期。 本期刊是開源項目(GitHub: JayHeng/pzh-mcu-bi-weekly),歡迎提交 issue,投稿或推薦你知道的嵌入式那些事兒。 上期回顧 ...
  • 無論是Window,MacOs,Linux均採用多用戶的管理模式進行許可權管理。 在Linux系統中,擁有最大許可權的賬戶名為:root(超級管理員)。 root用戶擁有最大的系統操作許可權,而普通用戶在許多地方的許可權是受限的。 普通用戶一般在HOME目錄是不受限制的,一旦出了HOME目錄,大多地方,僅有 ...
  • 鎖屏面試題百日百刷,每個工作日堅持更新面試題。請看到最後就能獲取你想要的,接下來的是今日的面試題: 1.Hbase中的memstore是用來做什麼的? hbase為了保證隨機讀取的性能,所以hfile裡面的rowkey是有序的。當客戶端的請求在到達regionserver之後,為了保證寫入rowke ...
一周排行
    -Advertisement-
    Play Games
  • 前言 本文介紹一款使用 C# 與 WPF 開發的音頻播放器,其界面簡潔大方,操作體驗流暢。該播放器支持多種音頻格式(如 MP4、WMA、OGG、FLAC 等),並具備標記、實時歌詞顯示等功能。 另外,還支持換膚及多語言(中英文)切換。核心音頻處理採用 FFmpeg 組件,獲得了廣泛認可,目前 Git ...
  • OAuth2.0授權驗證-gitee授權碼模式 本文主要介紹如何筆者自己是如何使用gitee提供的OAuth2.0協議完成授權驗證並登錄到自己的系統,完整模式如圖 1、創建應用 打開gitee個人中心->第三方應用->創建應用 創建應用後在我的應用界面,查看已創建應用的Client ID和Clien ...
  • 解決了這個問題:《winForm下,fastReport.net 從.net framework 升級到.net5遇到的錯誤“Operation is not supported on this platform.”》 本文內容轉載自:https://www.fcnsoft.com/Home/Sho ...
  • 國內文章 WPF 從裸 Win 32 的 WM_Pointer 消息獲取觸摸點繪製筆跡 https://www.cnblogs.com/lindexi/p/18390983 本文將告訴大家如何在 WPF 裡面,接收裸 Win 32 的 WM_Pointer 消息,從消息裡面獲取觸摸點信息,使用觸摸點 ...
  • 前言 給大家推薦一個專為新零售快消行業打造了一套高效的進銷存管理系統。 系統不僅具備強大的庫存管理功能,還集成了高性能的輕量級 POS 解決方案,確保頁面載入速度極快,提供良好的用戶體驗。 項目介紹 Dorisoy.POS 是一款基於 .NET 7 和 Angular 4 開發的新零售快消進銷存管理 ...
  • ABP CLI常用的代碼分享 一、確保環境配置正確 安裝.NET CLI: ABP CLI是基於.NET Core或.NET 5/6/7等更高版本構建的,因此首先需要在你的開發環境中安裝.NET CLI。這可以通過訪問Microsoft官網下載並安裝相應版本的.NET SDK來實現。 安裝ABP ...
  • 問題 問題是這樣的:第三方的webapi,需要先調用登陸介面獲取Cookie,訪問其它介面時攜帶Cookie信息。 但使用HttpClient類調用登陸介面,返回的Headers中沒有找到Cookie信息。 分析 首先,使用Postman測試該登陸介面,正常返回Cookie信息,說明是HttpCli ...
  • 國內文章 關於.NET在中國為什麼工資低的分析 https://www.cnblogs.com/thinkingmore/p/18406244 .NET在中國開發者的薪資偏低,主要因市場需求、技術棧選擇和企業文化等因素所致。歷史上,.NET曾因微軟的閉源策略發展受限,儘管後來推出了跨平臺的.NET ...
  • 在WPF開發應用中,動畫不僅可以引起用戶的註意與興趣,而且還使軟體更加便於使用。前面幾篇文章講解了畫筆(Brush),形狀(Shape),幾何圖形(Geometry),變換(Transform)等相關內容,今天繼續講解動畫相關內容和知識點,僅供學習分享使用,如有不足之處,還請指正。 ...
  • 什麼是委托? 委托可以說是把一個方法代入另一個方法執行,相當於指向函數的指針;事件就相當於保存委托的數組; 1.實例化委托的方式: 方式1:通過new創建實例: public delegate void ShowDelegate(); 或者 public delegate string ShowDe ...