大數據:Hadoop入門

来源:http://www.cnblogs.com/dkz1/archive/2017/12/23/8094557.html
-Advertisement-
Play Games

大數據:Hadoop入門 一:什麼是大數據 (1.)大數據是指在一定時間內無法用常規軟體對其內容進行抓取,管理和處理的數據集合,簡而言之就是數據量非常大,大到無法用常規工具進行處理,如關係型資料庫,數據倉庫等。這裡“大”是一個什麼量級呢?如在阿裡巴巴每天處理數據達到20PB(即20971520GB) ...


大數據:Hadoop入門

一:什麼是大數據

  1. 什麼是大數據:

(1.)大數據是指在一定時間內無法用常規軟體對其內容進行抓取,管理和處理的數據集合,簡而言之就是數據量非常大,大到無法用常規工具進行處理,如關係型資料庫,數據倉庫等。這裡“大”是一個什麼量級呢?如在阿裡巴巴每天處理數據達到20PB(即20971520GB).

2.大數據的特點:

    (1.)體量巨大。按目前的發展趨勢來看,大數據的體量已經到達PB級甚至EB級。

(2.)大數據的數據類型多樣,以非結構化數據為主,如網路雜誌,音頻,視屏,圖片,地理位置信息,交易數據,社交數據等。

(3.)價值密度低。有價值的數據僅占到總數據的一小部分。比如一段視屏中,僅有幾秒的信息是有價值的。

(4.)產生和要求處理速度快。這是大數據區與傳統數據挖掘最顯著的特征。

3.除此之外還有其他處理系統可以處理大數據。

Hadoop (開源)

Spark(開源)

Storm(開源)

MongoDB(開源)

IBM PureDate(商用)

Oracle Exadata(商用)

SAP Hana(商用)

Teradata  AsterData(商用)

EMC GreenPlum(商用)

HP Vertica(商用)

註:這裡我們只介紹Hadoop。

二:Hadoop體繫結構

  1. Hadoop來源:

Hadoop源於Google在2003到2004年公佈的關於GFS(Google File System),MapReduce和BigTable的三篇論文,創始人Doug  Cutting。Hadoop現在是Apache基金會頂級項目,“Hadoop”一個虛構的名字。由Doug  Cutting的孩子為其黃色玩具大象所命名。

  1. Hadoop的核心:

(1.)HDFS和MapReduce是Hadoop的兩大核心。通過HDFS來實現對分散式儲存的底層支持,達到高速並行讀寫與大容量的儲存擴展。

(2.)通過MapReduce實現對分散式任務進行處理程式支持,保證高速分區處理數據。

3.Hadoop子項目:

      

 

    (1.)HDFS:分散式文件系統,整個Hadoop體系的基石。

    (2.)MapReduce/YARN:並行編程模型。YARN是第二代的MapReduce框架,從Hadoop  0.23.01版本後,MapReduce被重構,通常也稱為MapReduce  V2,老MapReduce也稱為 MapReduce V1。

    (3.)Hive:建立在Hadoop上的數據倉庫,提供類似SQL語音的查詢方式,查詢Hadoop中的數據,

    (4.)Pig:一個隊大型數據進行分析和評估的平臺,主要作用類似於資料庫中儲存過程。

    (5.)HBase:全稱Hadoop  Database,Hadoop的分散式的,面向列的資料庫,來源於Google的關於BigTable的論文,主要用於隨機訪問,實時讀寫的大數據。

    (6.)ZooKeeper:是一個為分散式應用所設計的協調服務,主要為用戶提供同步,配置管理,分組和命名等服務,減輕分散式應用程式所承擔的協調任務。

       還有其它特別多其它項目這裡不做一一解釋了。

三:安裝Hadoop運行環境

  1. 用戶創建:

(1.)創建Hadoop用戶組,輸入命令:

           groupadd  hadoop

(2.)創建hduser用戶,輸入命令:

           useradd –p hadoop hduser

(3.)設置hduser的密碼,輸入命令:

           passwd  hduser

           按提示輸入兩次密碼

(4.)為hduser用戶添加許可權,輸入命令:

           #修改許可權

           chmod 777 /etc/sudoers

           #編輯sudoers

           Gedit /etc/sudoers

           #還原預設許可權

           chmod  440 /etc/sudoers

           先修改sudoers 文件許可權,併在文本編輯視窗中查找到行“root ALL=(ALL)”,緊跟後面更新加行“hduser  ALL=(ALL) ALL”,將hduser添加到sudoers。添加完成後切記還原預設許可權,否則系統將不允許使用sudo命令。

(5.)設置好後重啟虛擬機,輸入命令:

           Sudo  reboot

           重啟後切換到hduser用戶登錄

  1. 安裝JDK

(1.)下載jdk-7u67-linux-x64.rpm,併進入下載目錄。

(2.)運行安裝命令:

           Sudo rpm –ivh jdk-7u67-linux-x64.rpm

       完成後查看安裝路徑,輸入命令:

       Rpm –qa jdk –l

       記住該路徑,

(3.)配置環境變數,輸入命令:

    Sudo  gedit /etc/profile

    打開profile文件在文件最下麵加入如下內容

    export  JAVA_HOME=/usr/java/jdk.7.0.67

    export CLASSPATH=$ JAVA_HOME/lib:$ CLASSPATH

    export PATH=$ JAVA_HOME/bin:$PATH

    保存後關閉文件,然後輸入命令使環境變數生效:

    Source /etc/profile

(4.)驗證JDK,輸入命令:

    Java –version

    若出現正確的版本則安裝成功。

  1. 配置本機SSH免密碼登錄:

(1.)使用ssh-keygen 生成私鑰與公鑰文件,輸入命令:

           ssh-keygen –t rsa

      

(2.)私鑰留在本機,公鑰發給其它主機(現在是localhost)。輸入命令:

           ssh-copy-id localhost

(3.)使用公鑰來登錄輸入命令:

           ssh  localhost

  1. 配置其它主機SSH免密登錄

(1.)克隆兩次。在VMware左側欄中選中虛擬機右擊,在彈出的快捷鍵菜單中選中管理---克隆命令。在克隆類型時選中“創建完整克隆”,單擊“下一步”,按鈕直到完成。

(2.)分別啟動併進入三台虛擬機,使用ifconfig查詢個主機IP地址。

(3.)修改每台主機的hostname及hosts文件。

           步驟1:修改hostname,分別在各主機中輸入命令。

           Sudo gedit /etc/sysconfig/network

           步驟2:修改hosts文件:

           sudo gedit /etc/hosts

           步驟3:修改三台虛擬機的IP

                    第一臺對應node1虛擬機的IP:192.168.1.130

第二台對應node2虛擬機的IP:192.168.1.131

第三台對應node3虛擬機的IP:192.168.1.132

    (4.)由於已經在node1上生成過密鑰對,所有現在只要在node1上輸入命令:

           ssh-copy-id node2

           ssh-copy-id node3

       這樣就可以將node1的公鑰發佈到node2,node3。

    (5.)測試SSH,在node1上輸入命令:

       ssh node2

       #退出登錄

       exit

       ssh node3

exit

四:Hadoop完全分散式安裝

  1. 1.       Hadoop有三種運行方式:

(1.)單機模式:無須配置,Hadoop被視為一個非分散式模式運行的獨立Java進程

(2.)偽分散式:只有一個節點的集群,這個節點即是Master(主節點,主伺服器)也是Slave(從節點,從伺服器),可在此單節點上以不同的java進程模擬分散式中的各類節點

(3.)完全分散式:對於Hadoop,不同的系統會有不同的節點劃分方式。

2.安裝Hadoop

    (1.)獲取Hadoop壓縮包hadoop-2.6.0.tar.gz,下載後可以使用VMWare  Tools通過共用文件夾,或者使用Xftp工具傳到node1。進入node1 將壓縮包解壓到/home/hduser目錄下,輸入命令:

    #進入HOME目錄即:“/home/hduser”

    cd ~

    tar –zxvf hadoop-2.6.0.tar.gz

    (2.)重命名hadoop輸入命令:

       mv hadoop-2.6.0 hadoop

    (3.)配置Hadoop環境變數,輸入命令:

           Sudo gedit /etc/profile

       將以下腳本加到profile內:

       #hadoop

       export HADOOP_HOME=/home/hduser/hadoop

       export PATH=$HADOOP_HOME/bin:$PATH

       保存關閉,最後輸入命令使配置生效

       source /etc/profile

       註:node2,和node3都要按照以上配置進行配置。

3.配置Hadoop

    (1.)hadoop-env.sh文件用於指定JDK路徑。輸入命令:

       [hduser@node1 ~]$ cd ~/hadoop/etc/hadoop

       [hduser@node1 hadoop]$ gedit hadoop-env.sh

       然後增加如下內容指定jDK路徑。

       export JAVA_HOME=/usr/java/jdk1.7.0_67

    (2.)打開指定JDK路徑,輸入命令:

       export JAVA_HOME=/usr/java/jdk1.7.0_67

    (3.)slaves:用於增加slave節點即DataNode節點。

       [hduser@node1 hadoop]$ gedit slaves

       打開並清空原內容,然後輸入如下內容:

       node2

       node3

       表示node2,node3作為slave節點。

    (4.)core-site.xml:該文件是Hadoop全局配置,打開併在<configuration>元素中增加配置屬性如下:

    <configuration>

       <property>

           <name>fs.defaultFs</name>

           <value>hdfs://node1:9000</value>

       </property>

           <name>hadoop.tmp.dir</name>

           <value>file:/home/hduser/hadoop/tmp</value>

       </property>

    <configuration>

這裡給出了兩個常用的配置屬性,fs.defaultFS表示客戶端連接HDFS時,預設路徑首碼,9000是HDFS工作的埠。Hadoop.tmp.dir如不指定會保存到系統的預設臨時文件目錄/tmp中。

    (5.)hdfs-site.xml:該文件是hdfs的配置。打開併在<configuration>元素中增加配置屬性。

    (6.)mapred-site.xml:該文件是MapReduce的配置,可從模板文件mapred-site.xml.template中複製打開併在<configuration>元素中增加配置。

    (7.)yarn-site.xml:如果在mapred-site.xml配置了使用YARN框架,那麼YARN框架就使用此文件中的配置,打開併在<configuration>元素中增加配置屬性。

(8.)複製這七個命令到node2,node3。輸入命令如下:

scp –r /home/hduser/hadoop/etc/hadoop/ hduser@node2:/home/hduser/hadoop/etc/

 

scp –r /home/hduser/hadoop/etc/hadoop/ hduser@node3:/home/hduser/hadoop/etc/

4.驗證:

    下麵驗證hadoop是否正確

    (1.)在Master主機(node1)上格式化NameNode。輸入命令:

       [hduser@node1 ~]$ cd ~/hadoop

       [hduser@node1 hadoop]$ bin/hdfs namenode –format

    (2)關閉node1,node2 ,node3,系統防火牆並重啟虛擬機。輸入命令:

       service iptables stop

       sudo chkconfig iptables off

       reboot

    (3.)輸入以下啟動HDFS:

       [hduser@node1 ~]$ cd ~/hadoop

    (4.)啟動所有

[hduser@node1 hadoop]$ sbin/start-all.sh

(5.)查看集群狀態:

    [hduser@node1 hadoop]$ bin/hdfs dfsadmin –report

(6.)在瀏覽器中查看hdfs運行狀態,網址:http://node1:50070

(7.)停止Hadoop。輸入命令:

    [hduser@node1 hadoop]$ sbin/stop-all.sh

五:Hadoop相關的shell操作

(1.)在操作系統中/home/hduser/file目錄下創建file1.txt,file2.txt可使用圖形界面創建。

file1.txt輸入內容:

    Hello World hi HADOOP

file2.txt輸入內容

    Hello World hi CHIAN

(2.)啟動hdfs後創建目錄/input2

    [hduser@node1 hadoop]$ bin/hadoop fs –mkdir /input2

(3.)將file1.txt.file2.txt保存到hdfs中:

    [hduser@node1 hadoop]$ bin/hadoop fs –put -/file/file*.txt /input2/

(4.)[hduser@node1 hadoop]$ bin/hadoop fs –ls /input2

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • # 前言:為什麼要使用非root用戶運行tomcat root用戶啟動tomcat有一個嚴重的問題,那就是tomcat具有root許可權。 這意味著你的任何一個頁面腳本(html/js)都具有root許可權,所以可以輕易地用頁面腳本 修改整個硬碟里的文件! 所以最好不要使用root啟動tomcat。 # ...
  • 目錄 知識要求 搭建感想 搭建過程 參考 知識要求: 基礎知識 搭建感想 註:以下是我搭建 時的思考,需要 的基礎知識, 的基礎知識才容易理解,與下麵的搭建過程是獨立的,不感興趣可直接略過。 其實 已經搭建並用了一年多了,現在所有的項目管理都通過 完成。但是一直以來都有2個問題: 埠被系統的 占用 ...
  • Windows 7 命令終端 cmd和PowerShell增加字體,配色等基礎設置指南。 ...
  • 本次實驗採用騰訊雲伺服器:https://cloud.tencent.com/ 大學生身份的可以看看有沒有什麼活動購買 其他身份的78一個月 關於騰訊雲伺服器的使用可以看看騰訊雲的使用手冊 本博客涉及到的Linux相關知識自行谷歌~百度~ 開始操作~~~~~~~~~~~~~~~~~~~~~~~~~~ ...
  • 一.環境 1.1 jello@jello:~$ uname -a Linux jello 4.4.0-98-generic #121-Ubuntu SMP Tue Oct 10 14:24:03 UTC 2017 x86_64 x86_64 x86_64 GNU/Linux 1.2 jello@je ...
  • 幾款網路測試工具總結 ping命令以前是一個很好用並且常用的網路測試工具,它是基於ICMP協議,但是出於網路安全等因素,大部分網路環境以及雲環境可能都會禁止ICMP協議,所以在工作中,我們必須掌握一些其他比較流行的網路測試工具,下麵分別介紹tcpping、tcping、psping、hping、pa... ...
  • 入手個樹莓派3B 裝了 ubuntu 16.04 需要用到SSH 記錄下 0、先獲得樹莓派IP 樹莓派 使用網線連接路由器和樹莓派 在路由器設置頁面(一般是192.168.1.1具體看路由器的型號和設置)中獲得樹莓派ip地址 樹莓派的MAC地址很有特點 或者 進入系統後 連接wifi 在終端中 輸入 ...
  • 1.準備階段 1.1 環境 虛擬機A :192.168.0.130 虛擬機B :192.168.0.131 系統:Ubuntu 16.04 LTS JRE:OpenJDK 1.8.0_151(A、B都要安裝) DB:MySQL 5.7.20(A、B都要安裝) ZooKeeper:3.4.11(只裝A ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...