Hadoop偽分佈安裝搭建 搭建Hadoop的環境 一、準備工作 1、安裝Linux、JDK、關閉防火牆、配置主機名 解壓:tar -zxvf hadoop-2.7.3.tar.gz -C ~/traning/ 設置Hadoop的環境變數: vi ~/.bash_profile HADOOP_HOM ...
Hadoop偽分佈安裝搭建
搭建Hadoop的環境
======================================
一、準備工作
1、安裝Linux、JDK、關閉防火牆、配置主機名
解壓:tar -zxvf hadoop-2.7.3.tar.gz -C ~/traning/
設置Hadoop的環境變數: vi ~/.bash_profile
HADOOP_HOME=/root/training/hadoop-2.7.3
export HADOOP_HOME
PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export PATH
環境變數生效
source ~/.bash_profile
=============== 偽分佈模式:一臺(bigdata111)
特點:是在單機上,模擬一個分散式的環境
具備Hadoop的主要功能
HDFS: namenode+datanode+secondarynamenode
Yarn: resourcemanager + nodemanager
hdfs-site.xml
原則:一般數據塊的冗餘度跟數據節點(DataNode)的個數一致;最大不超過3
<!--表示數據塊的冗餘度,預設:3-->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
先不設置
<!--是否開啟HDFS的許可權檢查,預設true-->
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
core-site.xml
<!--配置NameNode地址,9000是RPC通信埠-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://bigdata111:9000</value>
</property>
<!--HDFS數據保存在Linux的哪個目錄,預設值是Linux的tmp目錄-->
<property>
<name>hadoop.tmp.dir</name>
<value>/root/training/hadoop-2.7.3/tmp</value>
</property>
mapred-site.xml 預設沒有 cp mapred-site.xml.template mapred-site.xml
<!--MR運行的框架-->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
yarn-site.xml
<!--Yarn的主節點RM的位置-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>bigdata111</value>
</property>
<!--MapReduce運行方式:shuffle洗牌-->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
格式化:HDFS(NameNode)
hdfs namenode -format
日誌:
Storage directory /root/training/hadoop-2.7.3/tmp/dfs/name has been successfully formatted.
啟動停止Hadoop的環境
start-all.sh
stop-all.sh
訪問:通過Web界面
HDFS: http://192.168.153.111:50070
Yarn: http://192.168.153.111:8088
運行
例子:/root/training/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar
hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /input/data.txt /output/0407
(*)一定配置免密碼登錄:原理、配置