HADOOP背景介紹

来源:http://www.cnblogs.com/burningmyself/archive/2017/06/17/7040076.html
-Advertisement-
Play Games

1. HADOOP背景介紹 1.1 什麼是HADOOP 1. HADOOP是apache旗下的一套開源軟體平臺 2. HADOOP提供的功能:利用伺服器集群,根據用戶的自定義業務邏輯,對海量數據進行分散式處理 3. HADOOP的核心組件有 A. HDFS(分散式文件系統) B. YARN(運算資源 ...


1. HADOOP背景介紹

1.1 什麼是HADOOP

1. HADOOPapache旗下的一套開源軟體平臺

2. HADOOP提供的功能:利用伺服器集群,根據用戶的自定義業務邏輯,對海量數據進行分散式處理

3. HADOOP的核心組件有

A. HDFS(分散式文件系統)

B. YARN(運算資源調度系統)

C. MAPREDUCE(分散式運算編程框架)

4. 廣義上來說,HADOOP通常是指一個更廣泛的概念——HADOOP生態圈

1.2 HADOOP產生背景

1. HADOOP最早起源於NutchNutch的設計目標是構建一個大型的全網搜索引擎,包括網頁抓取、索引、查詢等功能,但隨著抓取網頁數量的增加,遇到了嚴重的可擴展性問題——如何解決數十億網頁的存儲和索引問題。

2. 2003年、2004谷歌發表的兩篇論文為該問題提供了可行的解決方案

——分散式文件系統(GFS),可用於處理海量網頁的存儲

——分散式計算框架MAPREDUCE,可用於處理海量網頁的索引計算問題。

3. Nutch的開發人員完成了相應的開源實現HDFSMAPREDUCE,並從Nutch中剝離成為獨立項目HADOOP,到20081月,HADOOP成為Apache頂級項目,迎來了它的快速發展期。

1.3 HADOOP在大數據、雲計算中的位置和關係

1. 雲計算是分散式計算、並行計算、網格計算、多核計算、網路存儲、虛擬化、負載均衡等傳統電腦技術和互聯網技術融合發展的產物。藉助IaaS(基礎設施即服務)PaaS(平臺即服務)SaaS(軟體即服務)等業務模式,把強大的計算能力提供給終端用戶。

 

2. 現階段,雲計算的兩大底層支撐技術虛擬化”和“大數據技術

 

3. HADOOP則是雲計算的PaaS層的解決方案之一,並不等同於PaaS,更不等同於雲計算本身。

 

 

 

 

1.4 國內外HADOOP應用案例介紹

1HADOOP應用於數據服務基礎平臺建設

 

 

 

2/HADOOP用於用戶畫像

 

 

 

3HADOOP用於網站點擊流日誌數據挖掘

 

 

1.5 國內HADOOP的就業情況分析

1、 HADOOP就業整體情況

A. 大數據產業已納入國家十三五規劃

B. 各大城市都在進行智慧城市項目建設,而智慧城市的根基就是大數據綜合平臺

C. 互聯網時代數據的種類,增長都呈現爆髮式增長,各行業對數據的價值日益重視

D. 相對於傳統JAVAEE技術領域來說,大數據領域的人才相對稀缺

E. 隨著現代社會的發展,數據處理和數據挖掘的重要性只會增不會減,因此,大數據技術是一個尚在蓬勃發展且具有長遠前景的領域

 

 

2、 HADOOP就業職位要求

大數據是個複合專業,包括應用開發、軟體平臺、演算法、數據挖掘等,因此,大數據技術領域的就業選擇是多樣的,但就HADOOP而言,通常都需要具備以下技能或知識:

A. HADOOP分散式集群的平臺搭建

B. HADOOP分散式文件系統HDFS的原理理解及使用

C. HADOOP分散式運算框架MAPREDUCE的原理理解及編程

D. Hive數據倉庫工具的熟練應用

E. Flumesqoopoozie等輔助工具的熟練使用

F. Shell/python等腳本語言的開發能力

 

3、 HADOOP相關職位的薪資水平

大數據技術或具體到HADOOP的就業需求目前主要集中在北上廣深一線城市,薪資待遇普遍高於傳統JAVAEE開發人員,以北京為例:

 

 

 

 

1.6 HADOOP生態圈以及各組成部分的簡介

 

 

各組件簡介

 

 

重點組件:

HDFS:分散式文件系統

MAPREDUCE:分散式運算程式開發框架

HIVE:基於大數據技術(文件系統+運算框架)的SQL數據倉庫工具

HBASE:基於HADOOP的分散式海量資料庫

ZOOKEEPER:分散式協調服務基礎組件

Mahout:基於mapreduce/spark/flink等分散式運算框架的機器學習演算法庫

Oozie:工作流調度框架

Sqoop:數據導入導出工具

Flume:日誌數據採集框架


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 題目背景 嘛,這道非常簡單的給大家提供信心的省選題洛谷居然沒有! 這麼簡單的題怎麼可以沒有! 給大家提升士氣是義不容辭的責任! 所以我就來補一下啦.. 值得一提的是,標程是我自己做的.. 很渣,因為數據很水所以能AC.. 大神勿噴.. 題目描述 有 m 個小組, n 個元素,每個元素屬於且僅屬於一個 ...
  • 數學操作符 字元串操作符 3種基本數據類型及其轉換函數 其他函數 ...
  • 題目描述 現在有一堆數字共N個數字(N<=10^6),以及一個大小為k的視窗。現在這個從左邊開始向右滑動,每次滑動一個單位,求出每次滑動後視窗中的最大值和最小值。 例如: The array is [1 3 -1 -3 5 3 6 7], and k = 3. 輸入輸出格式 輸入格式: 輸入一共有兩 ...
  • 介紹一下scrapy 爬蟲框架 安裝方法 pip install scrapy 就可以實現安裝了。我自己用anaconda 命令為conda install scrapy。 1 Engine從Spider處獲得爬取請求(Request)2Engine將爬取請求轉發給Scheduler,用於調度 3 ...
  • spring boot 已經支持多數據源配置了,無需網上好多那些編寫什麼類的,特別麻煩,看看如下解決方案,官方的,放心! 1.首先定義數據源配置 3.Repository數據持久層 ...
  • 1.pom添加依賴 2.添加數據源配置(DataSource啥的,一系列對象spring boot 都會給你註入的,配置配置即可!) 3.新建實體 4.dao層 5.service層 6.controller層 7. spring data jpa新使用方式,更高級 8.註入jdbcTemplate ...
  • spring boot日誌預設採用logback進行輸出,你可以對logback進行定製化,方法如下: 在resources文件夾下建立logback.xml配置文件 具體配置,可以定位到spring-boot.jar裡面去看看 日誌文件路徑配置在application.properties裡面配置 ...
  • 1. 官網下載 wget http://mirror.bit.edu.cn/apache/hadoop/common /hadoop-3.0.0-alpha3/hadoop-3.0.0-alpha3.tar.gz ..註意下載二進位(省時間) 1解壓 tar -zxvf hadoop-3.0.0-a ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...