初識hadoop之分散式文件系統(HDFS)

来源:https://www.cnblogs.com/lybigdata/archive/2018/10/08/9753353.html
-Advertisement-
Play Games

Hadoop常用發行版: Apache Hadoop CDH Cloudera Distributed Hadoop HDP Hortonworks Data Platfrom 分散式文件系統(HDFS) HDFS架構 1個master(NameNode/NN)帶n個slaves(DataNode/ ...


Hadoop常用發行版:

Apache Hadoop

CDH  Cloudera Distributed Hadoop

HDP  Hortonworks Data Platfrom

分散式文件系統(HDFS)

HDFS架構

1個master(NameNode/NN)帶n個slaves(DataNode/DN)

HDFS/YARN/HBase都是類似結構

一個文件會被拆分成多個Block

blocksize:128M

130M ==> 2個Block:128M和2M

NN:
1)負責客戶端請求的響應

2)負責元數據(文件的名稱、副本繫數、Block存放的DN)的管理

DN:

1)存儲用戶的文件對應的數據塊(Block)

2)要定期向NN發送心跳信息,彙報本身及其所有的block信息,健康狀況

 

A typical deployment has a dedicated machine that runs only the NameNode software. Each of the other machines in the cluster runs one instance of the DataNode software.

NameNode + N個DataNode

建議:NN和DN部署在不同的節點上

replication factor:副本繫數、副本因數

 

HDFS環境搭建

使用版本:hadoop-2.6.0-cdh5.7.0

 

Hadoop偽分散式安裝步驟

1)  jdk安裝

解壓:tar –zxvf jdk-7u79-linux-x64.tar.gz –C ~/app

添加到系統環境變數:~/.bash_profile

export JAVA_HOME=/home/hadoop/app/jdk1.7.0_79

eport PATH=$JAVA_HOME/bin:$PATH

使得環境變數生效:source ~/.bash_profile

驗證java是否配置成功:java –version

 

2)  安裝ssh

sudo yum install ssh

ssh-keygen -t rsa

cp ~/.ssh/id_rsa.pub ~/.ssh/authorizes_keys

 

3)  下載並解壓hadoop

下載:直接在cdh網站下載

解壓:tar –zxvf Hadoop-2.6.0-cdh5.7.0.tar.gz –C ~/app

 

4)  hadoop配置文件的修改(hadoop_home/etc/hadoop)

hadoop-evn.sh

export JAVA_HOME=/home/Hadoop/app/jdk1.7.0_79

 

  core-site.xml

       <property>

                <name>fs.defaultFS</name>

                <value>hdfs://hadoop000:8020</value>

       </property>

       <property>

                <name>hadoop.tmp.dir</name>

                <value>/home/hadoop/app/tmp</value>

        </property>

 

hdfs-site.xml

<property>

                <name>dfs.replication</name>

                <value>1</value>

        </property>

 

slaves(配置DN的個數)添加主機名稱

 

5)  啟動hfds

格式化文件系統(僅第一次執行即可,不要重覆執行,在bin目錄下執行,即在客戶端執行):

hdfs namenode –format

啟動hdfs:sbin/start-dfs.sh

 

驗證是否啟動成功:

jps

     DataNode

     SecondaryNameNode

     NameNode

瀏覽器訪問方式:http://hadoop000:50070

 

6)  停止hdfs

sbin/stop-dfs.sh

 

將hadoop的bin目錄配置到環境變數當中

vi ~/.bash_profile

export HADOOP_HOME=/root/app/hadoop-2.6.0-cdh5.7.0

export PATH=$HADOOP_HOME/bin:$PATH

 

環境變數生效:

source ~/.bash_profile

查看環境變數:

echo $HADOOP_HOME

 

hdfs常用操作命令

hdfs dfs(hadoop fs)  +

-ls + / 查看根目錄下的文件和文件夾

-mkdir + /test 在根目錄下創建test文件夾

-put 文件名 + / 將文件上傳到根目錄當中(拷貝文件)

-copyFromLocal hello.txt + /test/a/b/h.txt 將文件拷貝到指定路徑中

-text(-cat) + /文件名 查看文件的內容

-mkdir –p + /test/a/b 遞歸創建文件夾

-lsr + / 遞歸展示文件夾(-ls –R + /)

-get + /test/a/b/h.txt 將文件拷貝到本地

-rm + /hello.txt 刪除文件

-rm + -R /test 刪除文件夾


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • mysql提供了一個特別的explain語句,用來分析查詢語句的性能 : explain select ... 1.在所有用於where,order by,group by的列上添加索引 創建索引 2.用union優化like語句 當or關鍵字在where子句中使用頻率過高時,它可能會使mysql優 ...
  • 玩北京賽車不僅心態要好,還需要註意投註的精確計算與風險測試,有了這些數據支持之後,再加上我自己獨特的投註技巧,現在在玩賽車的過程中已經能做到贏多輸少,贏大輸小,長期下來持續穩定盈利,創造了很多記錄。這套方法是我玩彩到現在以來見過的、用過的最穩妥的方法,也有自己很多的技術成分在裡面。想玩好北京賽車,我... ...
  • 轉自:http://www.maomao365.com/?p=7141 摘要: 下文講述sql腳本編寫中,將 特定值排在最前面的方法分享, 實驗環境:sqlserver 2008 R2 例:將數據表中指定值為0的行排在最前面呈現給用戶 ...
  • 作者:天山老妖S 鏈接:http://blog.51cto.com/9291927 一、數據完整性簡介 1、數據完整性簡介 數據冗餘是指資料庫中存在一些重覆的數據,數據完整性是指資料庫中的數據能夠正確反應實際情況。數據的完整性是指數據的可靠性和準確性,數據完整性類型有四種:A、實體完整性:實體的完整 ...
  • 觸發器定義 觸發器是資料庫伺服器中發生事件時自動執行的一種特殊存儲過程。SQLServer允許為任何特定語句創建多個觸發器。它的執行不是由程式調用,也不是手工啟動,而是由事件來觸發,當對資料庫進行操作時就會激活它執行。 觸發器分類 分為DML觸發器、DDL觸發器、登錄觸發器、嵌套觸發器、遞歸觸發器。 ...
  • 針對於已查詢出數據結果, 且在程式中執行Sql命令, 而非資料庫中的存儲過程 INSERT INTO TableName (Column1, Column2, Column3, Column4, Column5)SELECT Value1, Value2, Value3, Value4, Value ...
  • 目前,全球數據呈現爆發增長、海量集聚的特點。國家大力推動實施大數據發展戰略,推進數據資源整合和開放共用,加快建設數字中國。大數據行業政策環境良好,發展機遇空前。 但隨著國家的重視,企業的轉型,對大數據技術人才的要求也是越來越高,不是掌握一點皮毛就能就業了。畢竟現在的競爭壓力還是很大的,企業的擇優錄取 ...
  • QuorumPeerMain,ResourceManager都沒有起來 resourcemanager.log如下 發現連接不上zookeeer,從 中得知s103,s104的QuorumPeerMain沒啟動,去s103的~/zookeeper/zookeeper.out查看日誌,發現 //快照日 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...