Apache Hadoop簡介

来源:http://www.cnblogs.com/helion/archive/2016/04/26/5435725.html
-Advertisement-
Play Games

Apache Hadoop簡介 對Hadoop感興趣,寫點東西記錄一下學習之路。 (不跟風,合適的才是最好的,並不是全部企業都會用Hadoop,學習每樣東西最重要的是學習他的思維) Apache Hadoop是一個分析和處理大數據的軟體平臺,允許大型數據集使用簡單的編程模型在電腦集群進行分散式處理 ...


Apache Hadoop簡介

對Hadoop感興趣,寫點東西記錄一下學習之路。

(不跟風,合適的才是最好的,並不是全部企業都會用Hadoop,學習每樣東西最重要的是學習他的思維)

  1. 什麼是Apache Hadoop

  Apache Hadoop是一個分析和處理大數據的軟體平臺,允許大型數據集使用簡單的編程模型在電腦集群進行分散式處理。傳統無法解決大型數據集帶來的存儲和計算問題,Hadoop最核心的設計就是:HDFSMapReduce,使用HDFS分散式文件系統解決大數據存儲問題,使用MapReduce並行計算框架解決大數據分析計算問題。

  學習第一手資料當然是上官網找資料,Apache Hadoop官網:http://hadoop.apache.org/

2.Hadoop版本區別(簡單說明)

  hadoop1.x跟2.x的區別

  在Hadoop版本中,區別比較明顯的有兩個大方向的版本:1.X跟2.X。

  1.X版本中主要有HDFS跟MapReduce兩個框架組成,Hadoop1.X的MapReduce框架也叫MRv1,。

  2.X版本中,由於MRv1在擴展性、可靠性、資源利用率和多框架方面存在明顯不足,MRv2將資源管理功能抽象成YARN資源調度作業管理系統,也導致單一的MapReduce框架變成支持多框架支持(MapReduce比較適合離線計算)。所以Hadoop2.X版本變成了HDFS+MapReduce+YARN

  其實在Hadoop2.x版本還對HDFS進行了優化,NameNode可以橫向擴展不過對於MapReduce的變化相對沒那麼突出。

3.版本選擇問題

  老樣子,就項目遺留舊版本,老公司比較多用Hadoop1.0,新公司新項目比較多用Hadoop2.0,厲害的公司自己開發自己的。所以個人覺得兩個版本都要學。

4.學習計劃

  對於Hadoop學習計劃,我是這樣計劃的,Hadoop設計理念與基本架構(理論知識)-->環境準備-->HDFS學習-->MapReduce學習-->YARN學習

  前期知識儲備:

    (1)由於Hadoop大部分搭建在linux,所以要有基本的linux命令行知識,知道基本的ls,cd等等命令,(不會也沒事,同時學)

    (2)JavaSE基礎,不管做什麼,Java基礎都要學好,多線程,I/O,網路編程等等。

 

  本文用於挖坑,日後慢慢填坑,堅持每日一文填坑。

 

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Mysql其實是一個跨平臺的輕量級資料庫,平時開發會用到很多。有寫程式可能要跨平臺開發,接下來我就介紹一下如何跨平臺使用Mysql。 這裡所謂的跨平臺就是Windows,Linux,Mac共同用一套Mysql配置包括所有用戶和資料庫等等。 原理:其實很簡單,就是配置的時候使用同一個文件夾存放即可。由 ...
  • MySQL日誌: 查詢日誌:query log 慢查詢日誌: 查詢執行時長超過指定時長的查詢操作所記錄的日誌 slow query log 錯誤日誌:包含了伺服器啟動和關閉的正常信息 二進位日誌:包含了所有更新了數據或者已經潛在更新了數據(比如沒有匹配任何行的一個DELETE),主要目的是儘可能的將 ...
  • 最近將一個版本為4.0.18-Max的MySQL資料庫遷移到5.6.20-enterprise-commercial-advanced上。好吧,這是我迄今為止,見到過的最古老版本的MySQL資料庫,這個資料庫跑在一個512M上老古董PC上,已經存活了十多年了。使用mysqldump導出導入時,遇到了... ...
  • 回到目錄 對於SQLSERVER這個關係型資料庫來說,為了保持數據的安全,備份是必須的,當你的一個誤操作導致數據丟失,這可能是災難性的,是不被允許發生的,這時,我們必須要做好定期的備份工作,如我們可以每天0點為指定資料庫做一個完整的備份,每周未在0點去清理上一周的備份文件,這樣可以避免磁碟容量無窮的 ...
  • ...
  • 代碼: ...
  • .錯誤碼 ORA-12154相信作為ORACLE資料庫的開發人員沒有少碰到“ORA-12154: TNS: 無法解析指定的連接標識符”,今天我也又碰到了類似的情況,將我的解決方法進行小結,希望能對碰到同樣問題的友人們提供幫助。問題場景描述:伺服器端版本:oracle 10.2.0.10客戶端版本:o ...
  • 什麼是SQL SERVER實例 SQL SERVER實例的概念和“類與對象”的概念很相似。可以把SQL SERVER的安裝程式看做是一個類,安裝過程則是創建對象的過程,創建出來的對象稱為“SQL SERVER實例”——即“類與對象”中把類實例化的概念。 因此,所謂的“SQL SERVER實例”,實際 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...