hadoop 開源軟體,可靠的、分散式、可伸縮的框架。 分佈在不同主機上的進程協同在一起構成的應用。 大數據解決了兩個問題 1T = 1024G1P = 1024T1E = 1024P1Z = 1024E1Y = 1024Z1N = 1024Y 1.存儲 分散式存儲 2.計算 分散式計算分散式 由分 ...
hadoop 開源軟體,可靠的、分散式、可伸縮的框架。
分佈在不同主機上的進程協同在一起構成的應用。
大數據解決了兩個問題
----------------------
1T = 1024G
1P = 1024T
1E = 1024P
1Z = 1024E
1Y = 1024Z
1N = 1024Y
1.存儲
分散式存儲
2.計算
分散式計算
分散式
----------------------
由分佈在不同主機上的進程協同在一起,才能構成整個應用。
B/S
-----------
Browser / http server:瘦客戶端.
failure over //容災
fault over //容錯
大數據的四個V特征
-----------------
1.volume //體量大
2.variety //樣式多.
3.velocity //速度快
4.valueless //價值密度低
hadoop四個模塊
-------------------
1.common
2.hdfs
3.hadoop yarn
4.hadooop mapreduce(mr)
1.安裝jdk 大同小異
a)下載jdk-8u65-linux-x64.tar.gz
b)tar開
$>su centos ; cd ~
$>mkdir downloads
$>cp /mnt/hdfs/downloads/bigdata/jdk-8u65-linux-x64.tar.gz ~/downlooads
$>tar -xzvf jdk-8u65-linux-x64.tar.gz
c)創建/soft文件夾
$>sudo mkdir /soft
$>sudo chown centos:centos /soft
d)移動tar開的文件到/soft下
$>mv ~/downloads/jdk-1.8.0_65 /soft/
e)創建符號連接
$>ln -s /soft/jdk-1.8.0_65 /soft/jdk
f)驗證jdk安裝是否成功
$>cd /soft/jdk/bin
$>./java -version
centos配置環境變數
------------------------
1.編輯/etc/profile
$>sudo nano /etc/profile
...
export JAVA_HOME=/soft/jdk
exprot PATH=$PATH:$JAVA_HOME/bin
2.使環境變數即刻生效
$>source /etc/profile
3.進入任意目錄下,測試是否ok
$>cd ~
$>java -version
安裝hadoop
下載 https://hadoop.apache.org/releases.html
1.安裝hadoop
a)下載hadoop-2.7.3.tar.gz
b)tar開
$>su centos ; cd ~
$>cp /mnt/hdfs/downloads/bigdata/hadoop-2.7.3.tar.gz ~/downloads
$>tar -xzvf hadoop-2.7.3.tar.gz
c)無
d)移動tar開的文件到/soft下
$>mv ~/downloads/hadoop-2.7.3 /soft/
e)創建符號連接
$>ln -s /soft/hadoop-2.7.3 /soft/hadoop
f)驗證jdk安裝是否成功
$>cd /soft/hadoop/bin
$>./hadoop version
hadoop 查看版本沒有 '-' 只需要 ./hadoop version
2.配置hadoop環境變數
$>sudo nano /etc/profile
...
export JAVA_HOME=/soft/jdk
exprot PATH=$PATH:$JAVA_HOME/bin
export HADOOP_HOME=/soft/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
3.生效
$>source /etc/profile
配置hadoop 本人本地是客戶端也是服務端在一臺機器上 配置免密登錄時可體現
獨立模式下
1.standalone(local)
nothing !
不需要啟用單獨的hadoop進程。
/usr/local/hadoop/hadoop-2.7.3/bin hdfs dfs -ls /
偽分佈模式。
2.Pseudodistributed mode
a)進入${HADOOP_HOME}/etc/hadoop目錄
b)編輯core-site.xml
<?xml version="1.0"?>
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost/</value>
</property>
</configuration>
c)編輯hdfs-site.xml
<?xml version="1.0"?>
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
d)編輯mapred-site.xml
註意:cp mapred-site.xml.template mapred-site.xml
<?xml version="1.0"?>
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
e)編輯yarn-site.xml
<?xml version="1.0"?>
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>localhost</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
f)配置SSH
1)檢查是否安裝了ssh相關軟體包(openssh-server + openssh-clients + openssh)
$yum list installed | grep ssh
2)檢查是否啟動了sshd進程
$>ps -Af | grep sshd
3)在client側生成公私秘鑰對。
$>ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
4)生成~/.ssh文件夾,裡面有id_rsa(私鑰) + id_rsa.pub(公鑰)
5)追加公鑰到~/.ssh/authorized_keys文件中(文件名、位置固定)
$>cd ~/.ssh
$>cat id_rsa.pub >> authorized_keys
如果有.ssh可刪除 重新生成
6)測試
$>ssh localhost
註意:第一次需要輸入密碼 再次登陸如果登陸不進去 修改目錄許可權 為644
7)修改authorized_keys的許可權為644.
$>chmod 644 authorized_keys