大數據hadoop分散式系統

来源:http://www.cnblogs.com/xiaocheche/archive/2017/10/07/7635518.html
-Advertisement-
Play Games

1》hadoop簡介: Hadoop是一個開發和運行處理大規模數據的軟體平臺,是Apache的一個用java語言實現開源軟體框架,實現在大量電腦組成的集群中對海量數據進行 分散式計算.Hadoop框架中最核心設計就是:HDFS和MapReduce,HDFS提供了海量數據的存儲,MapReduce提 ...


1》hadoop簡介:

                Hadoop是一個開發和運行處理大規模數據的軟體平臺,是Apache的一個用java語言實現開源軟體框架,實現在大量電腦組成的集群中對海量數據進行      分散式計算.Hadoop框架中最核心設計就是:HDFS和MapReduce,HDFS提供了海量數據的存儲,MapReduce提供了對數據的計算;HDFS:Hadoop Distributed      File System,Hadoop的分散式文件系統.大文件被分成預設64M一塊的數據塊分佈存儲在集群機器中;MapReduce:Hadoop為每一個input split創建一個task調用        Map計算,在此task中依次處理此split中的一個個記錄(record),map會將結果以key--value的形式輸出,hadoop負責按key值將map的輸出整理後作為Reduce的輸       入,Reduce Task的輸出為整個job的輸出,保存在HDFS上.

            Hadoop的集群主要由 NameNode,DataNode,Secondary NameNode,JobTracker,TaskTracker組成.

     NameNode中記錄了文件是如何被拆分成block以及這些block都存儲到了哪些DateNode節點.

       NameNode同時保存了文件系統運行的狀態信息. 

       DataNode中存儲的是被拆分的blocks.

       Secondary NameNode幫助NameNode收集文件系統運行的狀態信息.

      JobTracker當有任務提交到Hadoop集群的時候負責Job的運行,負責調度多個TaskTracker.

      TaskTracker負責某一個map或者reduce任務.

           1>hdfs分散式文件系統

       Hadoop分散式文件系統(HDFS)被設計成適合運行在通用硬體(commodity hardware)上的分散式文件系統。它和現有的分散式文件系統有很多共同點。               但同時,它和其他的分散式文件系統的區別也是很明顯的。HDFS是一個高度容錯性的系統,適合部署在廉價的機器上。HDFS能提供高吞吐量的數據訪                 問,非常適合大規模數據集上的應用。

              HDFS的優點:

·            1)高容錯性 

           數據自動保存多個副本; 

           副本丟失後,自動恢復; 

    ·        2)適合批處理 

          移動計算而非數據;

          數據位置暴露給計算框架 ;

    ·         3)適合大數據處理 

           GB、TB、甚至PB級數據 ;

           百萬規模以上的文件數量 ;

           10K+節點規模;

      · 4)流式文件訪問 

           一次性寫入,多次讀取; 

           保證數據一致性 ;

    ·       5)可構建在廉價機器上 

           通過多副本提高可靠性 ;

           提供了容錯和恢復機制;

       2>mapreduce大規模數據集的並行運算

      MapReduce是一種編程模型,用於大規模數據集(大於1TB)的並行運算。概念"Map(映射)"和"Reduce(歸約)",是它們的主要思想,都是從函               數式編程語言里借來的,還有從矢量編程語言里借來的特性。它極大地方便了編程人員在不會分散式並行編程的情況下,將自己的程式運行在分散式系統              上。 當前的軟體實現是指定一個Map(映射)函數,用來把一組鍵值對映射成一組新的鍵值對,指定併發的Reduce(歸約)函數,用來保證所有映射的                鍵值對中的每一個共用相同的鍵組。

  2》安裝環境

    實驗需要3台虛擬機,一主兩從式,一臺主機master當協調節點處理多個slave節點,用戶能訪問master節點來管理整個hadoop集群

    硬體:3台虛擬機

    記憶體:至少512MB

    硬碟:至少20G

    操作系統:rhel6.4 64位 最小化安裝

                        

      1>安裝openssh

      在每台虛擬機上安裝openssh,最小化虛擬機預設沒有安裝,自行配置yum安裝openssh。3台虛擬機之間需要相互ssh登錄

      [root@master ~]#yum install openssh* -y

    2>配置主機名和IP

      為了方便管理,規範性命名,使用連續網段的IP的靜態IP

      [root@master ~]#vi /etc/sysconfig/network

          NETWORKING=yes

          HOSTNAME=hadoop-master

      [root@master ~]#vi /etc/sysconfig/network-scripts/ifcfg-eth0

          DEVICE=eth0

          TYPE=Ethernet

          ONBOOT=yes

          BOOTPROTO=static

          NAME="System eth0"

          HWADDR=B8:97:5A:00:4E:54

          IPADDR=10.0.200.200

          NETMASK=255.255.0.0

          GATEWAY=10.0.2.253

          DNS1=114.114.114.114

                     

      配置/etc/hosts,把/etc/hosts的IP信息分發到所有主機上

        [root@master ~]# vi /etc/hosts

          127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4

          ::1         localhost localhost.localdomain localhost6 localhost6.localdomain6

          10.0.200.200         hadoop-master

          10.0.200.201      hadoop-slave1

          10.0.200.202      hadoop-slave2

     3>安裝JDK

      安裝JDK參考百度,本實驗使用 jdk1.8.0_31版本,由於hadoop使用java語言編寫,所有運行hadoop的機器都要安裝jdk安裝JDK如下效果:

                      解壓之後在/etc/profile文件中添加如下內容:

                       export     JAVA_HOME=/usr/local/src/jdk1.8.0_31

        export     HADOOP_INSTALL=/home/hadoop/hadoop.2.6.0

             export     PATH=$PATH:$HADOOP_INSTALL/bin

                       更新文件:source  /etc/profile

      [root@master ~]# java -version

        java version "1.8.0_31"

        Java(TM) SE Runtime Environment (build 1.8.0_31-b13)

        Java HotSpot(TM) 64-Bit Server VM (build 25.31-b07, mixed mode)

     4>ssh無密登錄;

      在所有機器上創建hadoop用戶,統一密碼hadoop,在master上創建hadoop用戶的公鑰,改名authorized_keys分發到所有機器上,授予600許可權

      [root@master ~]#useradd hadoop

      [root@master ~]#passwd hadoop

      [root@master ~]#su - hadoop

      [hadoop@master ~]$ssh-keygen -t rsa

      [hadoop@master ~]$ cd .ssh

      [hadoop@master .ssh]$ mv id_rsa.pub authorized_keys

      [hadoop@master .shh]$ chmod 600 authorized_keys

      [hadoop@master .ssh]$ scp authorized_keys hadoop-slave1:~/.ssh/

      [hadoop@master .ssh]$ scp authorized_keys hadoop-slave2:~/.ssh/

    可以看到在master上可以無密登錄到slave1上,在後面數百台機器上運行hadoop集群;

                     註意:在客戶端創建的.ssh的許可權必須是700,否則不會成功;  

    5>hadoop安裝和配置

    在主節點上操作,解壓hadoop-2.6.0.tar.gz到hadoop用戶家目錄,編輯hadoop的配置文件,用hadoop用戶操作(編輯文件沒有許可權時記得用root用戶給予               許可權);

    hadoop官網下載:  http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.6.0/

    [hadoop@master ~]# su - hadoop

    [hadoop@master ~]$ tar zxvf hadoop-2.6.0.tar.gz

    [hadoop@master ~]$ cd hadoop-2.6.0/etc/hadoop/

    修改hadoop-env.sh和yarn-env.sh文件的JAVA_HOME來指定JDK的路徑

    [hadoop@master ~]$ vi hadoop-env.sh

    export JAVA_HOME=/usr/java/jdk1.8.0_31

    [hadoop@master ~]$ vi yarn-env.sh

    export JAVA_HOME=/usr/java/jdk1.8.0_31

    編輯從節點列表文件slaves

    [hadoop@master ~]$vi slaves

    hadoop-slvae1

    hadoop-slave2

    編輯core-site.xml,指定主節點的地址和埠

    [hadoop@master ~]$ vi core-site.xml

      <configuration>

      <property>

          <name>fs.default.FS</name>

          <value>hdfs://hadoop-master:9000</value>

       </property>

      </configuration>

    複製mapred-site.xml.template為mapred-site.xml,指定mapreduce工作方式

    [hadoop@master ~]$vi mapred-site.xml

    <configuration>

    <property>

         <name>mapreduce.framework.name</name>

         <value>yarn</value>

     </property>

    </configuration>

    編輯yarn-site.xml,指定yran的主節點和埠

    [hadoop@master ~]$vi yarn-site.xml

    <configuration>

        <!-- Site specific YARN configuration properties -->

    <property>

         <name>yarn.nodemanager.aux-services</name>

         <value>mapreduce_shuffle</value>

     </property>

      <property>

         <name>yarn.resourcemanager.hostname</name>

         <value>hadoop-master:9001</value>

      </property>

    </configuration>

    將hadoop-2.6.0文件夾分發到其他2台虛擬機上

      [hadoop@master ~]$scp -r hadoop-2.6.0 hadoop-slave1:~

      [hadoop@master ~]$scp -r hadoop-2.6.0 hadoop-slave2:~

3》運行測試

    格式化分散式文件系統

      [hadoop@master ~]$ hadoop-2.6.0/bin/hadoop namenode -fotmat

                                          

      [hadoop@master ~]$ hadoop-2.6.0/sbin/start-all.sh

                                   

    打開瀏覽器http://10.0.200.200:8088進行查看;

    運行mapreduce測試

    [hadoop@hadoop-master ~]$ hadoop jar hadoop-2.6.0/share/hadoop/mapreduce/hadoop- mapreduce-examples-2.6.0.jar pi 1 1000000000

Number of Maps  = 1

Samples per Map = 1000000000

16/08/20 22:59:09 WARN util.NativeCodeLoader: Unable to load native-hadoop librar                                                                                       y for your platform... using builtin-java classes where applicable

Wrote input for Map #0

Starting Job

16/08/20 22:59:13 INFO client.RMProxy: Connecting to ResourceManager at hadoop-ma                                                                                       ster/192.168.100.50:8032

16/08/20 22:59:15 INFO input.FileInputFormat: Total input paths to process : 1

16/08/20 22:59:16 INFO mapreduce.JobSubmitter: number of splits:1

16/08/20 22:59:17 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_147                                                                                       1704622640_0001

16/08/20 22:59:19 INFO impl.YarnClientImpl: Submitted application application_147                                                                                       1704622640_0001

16/08/20 22:59:20 INFO mapreduce.Job: The url to track the job: http://hadoop-mas                                                                                       ter:8088/proxy/application_1471704622640_0001/

16/08/20 22:59:20 INFO mapreduce.Job: Running job: job_1471704622640_0001

16/08/20 22:59:42 INFO mapreduce.Job: Job job_1471704622640_0001 running in uber                                                                                        mode : false

16/08/20 22:59:42 INFO mapreduce.Job:  map 0% reduce 0%

16/08/20 23:00:07 INFO mapreduce.Job:  map 67% reduce 0%

16/08/20 23:00:46 INFO mapreduce.Job:  map 100% reduce 0%

16/08/20 23:01:20 INFO mapreduce.Job:  map 100% reduce 100%

16/08/20 23:01:24 INFO mapreduce.Job: Job job_1471704622640_0001 completed successfully

16/08/20 23:01:24 INFO mapreduce.Job: Counters: 49

        File System Counters

                FILE: Number of bytes read=28

                FILE: Number of bytes written=211893

                FILE: Number of read operations=0

                FILE: Number of large read operations=0

                FILE: Number of write operations=0

                HDFS: Number of bytes read=270

                HDFS: Number of bytes written=215

                HDFS: Number of read operations=7

                HDFS: Number of large read operations=0

                HDFS: Number of write operations=3

        Job Counters

                Launched map tasks=1

                Launched reduce tasks=1

                Data-local map tasks=1

                Total time spent by all maps in occupied slots (ms)=58521

                Total time spent by all reduces in occupied slots (ms)=31620

                Total time spent by all map tasks (ms)=58521

                Total time spent by all reduce tasks (ms)=31620

                Total vcore-seconds taken by all map tasks=58521

                Total vcore-seconds taken by all reduce tasks=31620

                Total megabyte-seconds taken by all map tasks=59925504

                Total megabyte-seconds taken by all reduce tasks=32378880

        Map-Reduce Framework

                Map input records=1

                Map output records=2

                Map output bytes=18

                Map output materialized bytes=28

                Input split bytes=152

                Combine input records=0

                Combine output records=0

                Reduce input groups=2

                Reduce shuffle bytes=28

                Reduce input records=2

                Reduce output records=0

                Spilled Records=4

                Shuffled Maps =1

                Failed Shuffles=0

                Merged Map outputs=1

                GC time elapsed (ms)=519

                CPU time spent (ms)=50240

                Physical memory (bytes) snapshot=263278592

                Virtual memory (bytes) snapshot=4123402240

                Total committed heap usage (bytes)=132087808

        Shuffle Errors

                BAD_ID=0

                CONNECTION=0

                IO_ERROR=0

                WRONG_LENGTH=0

                WRONG_MAP=0

                WRONG_REDUCE=0

        File Input Format Counters

                Bytes Read=118

        File Output Format Counters

                Bytes Written=97

Job Finished in 131.664 seconds

Estimated value of Pi is 3.14159272000000000000

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 陸陸續續做了一個半月左右的「喵嗚天氣」終於在今天下午成功提交到應用商店(騰訊應用寶)。期間遇到兩個小問題,記錄如下: 1、上傳安裝包失敗,提示「無法獲取簽名信息,請上傳有效包(110506)」。 安裝包是通過 Android Studio 中的 Build Generate Signed APK.. ...
  • 這是一個朋友曾經給我的一個文件,這裡我新建了一個基於NSObject對象的一個ChineseToSpell,.m文件內容有點多 .h文件內容 // // ChineseToSpell.h // #import <Foundation/Foundation.h> @interface ChineseT ...
  • 前面提到AFNetworking是一個很強大的網路三方庫,首先你需要引入AFNetworking三方庫;如封裝的有誤還請指出,謝謝! 1.Get請求 /**Get請求 url 伺服器請求地址 success 伺服器響應返回的結果 faile 失敗的信息 */ + (void)getHttpReque ...
  • 生成二維碼圖片也是項目中常用到的,二維碼的掃描Git上有很多好用的,這裡主要說下二維碼的生成 1.普通二維碼 1.1 方法 /** 生成二維碼 QRStering:字元串 imageFloat:二維碼圖片大小 */ + (UIImage *)createQRCodeWithString:(NSStr ...
  • 去除navigationBar上那條線: ///隱藏navigationBar導航欄線(直接寫在UINavigationController-viewDidLoad方法裡面即可) UIView *backgroundView = [self.navigationBar subviews].first ...
  • 最近在做app,用的volley傳參,有一個地方傳中文參數不行(貌似是get方式),我又試了下post方式,成功了,記錄下,以後有用! ...
  • 參考資料:http://docs.oracle.com/database/122/SQLRF/Functions.htm#SQLRF006 Single-row functions return a single result row for every row of a queried table ...
  • 1、預編譯的好處 大家平時都使用過JDBC中的PreparedStatement介面,它有預編譯功能。什麼是預編譯功能呢?它有什麼好處呢? 當客戶發送一條SQL語句給伺服器後,伺服器總是需要校驗SQL語句的語法格式是否正確,然後把SQL語句編譯成可執行的函數,最後才是執行SQL語句。其中校驗語法,和 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...