一.準備教程 1.jdk:版本在1.7.x以上就可以(因為hadoop2.x以上只支持1.7.x以上的jdk,我的是1.8的) 2.Hadoop:2.7.3 二.ssh的配置以及驗證 配置ssh: 1.確認mac的遠程登錄是否開啟 系統偏好設置->共用->勾選遠程登錄. 當遠程登錄狀態為打開且為綠燈 ...
一.準備教程
1.jdk:版本在1.7.x以上就可以(因為hadoop2.x以上只支持1.7.x以上的jdk,我的是1.8的)
2.Hadoop:2.7.3
二.ssh的配置以及驗證
配置ssh:
1.確認mac的遠程登錄是否開啟
系統偏好設置->共用->勾選遠程登錄.
當遠程登錄狀態為打開且為綠燈時,成功開啟,ok,進行下一步.
2.打開你的terminal,在終端執行如下命令:
ssh-keyagent -t
然後一直回車。當執行完這條指令之後你可以在前往到~/.ssh目錄下發現如下兩個文件
當出現這兩個文件之後,再在終端執行如下代碼(該代碼用於ssh免登錄設置):
cat ~/.ssh/id_rsa.pub > ~/.ssh/authorized_keys
ok,ssh免登錄配置完成。
驗證ssh
配置完ssh之後現在來驗證ssh是否配置成功
在終端輸入如下命令:
ssh localhost
如果出現如下信息,則免密碼登錄ssh配置成功。
三.安裝jdk
安裝jdk,在這裡就不用多啰嗦了.提醒一下的是,務必要安裝1.7以上的jdk。
JDK1.8下載地址: http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
四.安裝Hadoop
當jdk安裝完畢以及ssh配置都成功之後我們現在可以來著手進行Hadoop的安裝了。
Hadoop下載地址: https://archive.apache.org/dist/hadoop/common/hadoop-2.7.3/
下載如下圖片標記的文件即可:
將該文件解壓到你喜歡的地方。如果怕找不到解壓後的文件的路徑,那麼就將該文件標記一下顏色,下次輸入該文件的所在路徑的話,直接選擇你標記的顏色,找到該文件,然後拖到終端就能顯示該文件的絕對路徑了。ok,Hadoop安裝完成.
五.修改Hadoop的配置文件
所需要修改的配置文件都在hadoop-2.7.3/etc/hadoop目錄下。
hadoop-env.sh
加入以下代碼:
export JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_111.jdk/Contents/Home
core-site.xml
該配置文件用於指明namenode的主機名和埠,hadoop臨時目錄
<configuration> <!-- 指定HDFS老大(namenode)的通信地址 --> <property> <name>fs.defaultFS</name> <value>hdfs://0.0.0.0:9000</value> </property> <!-- 指定hadoop運行時產生文件的存儲路徑 --> <property> <name>hadoop.tmp.dir</name> <value>/Library/hadoop-2.7.3/temp</value> </property> </configuration>
hadfs-site.xml
預設副本數3,修改為1,dfs.namenode.name.dir指明fsimage存放目錄,多個目錄用逗號隔開。dfs.datanode.data.dir指定塊文件存放目錄,多個目錄逗號隔開
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property>
<property> <name>dfs.namenode.name.dir</name> <value>file:/Library/hadoop-2.7.3/tmp/hdfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/Library/hadoop-2.7.3/tmp/hdfs/data</value> </property> <property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property> <property> <name>dfs.http.address</name> <value>0.0.0.0:50070</value> </property> </configuration>
mapred-site.xml
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
yarn-site.xml
<configuration> <!-- Site specific YARN configuration properties --> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </configuration>
六.配置Hadoop環境變數
當你完成第五步之後那麼你離hadoop的使用就不遠啦。加下來我們要做的就是配置hadoop環境變數。
打開你的終端,執行以下命令。(如果有對sudo,vim命令不熟悉的同志們,建議你們先熟悉一下這些命令,瞭解一下如何編輯如何退出,如何使文件生效就可以了)
//在etc目錄下創建profile併進入編輯模式 sudo vim /etc/profile //=後面接的是你的hadoo目錄所在的路徑,不知道路徑的同學可以直接將文件拖到終端就可以顯示該目錄的絕對路徑了 export HADOOP_HOME=/Users/eleme/Documents/ProgramFiles/apache-software-foundation/hadoop-2.7.3/hadoop //然後退出編輯模式,這個操作自己去瞭解一下 //執行剛纔寫的profile,使profile生效 source /etc/profile
七.運行Hadoop
打開終端,跟著以下命令一步一步走就可以了。
//進入hadoop安裝目錄 cd $HADOOP_HOME //初始化namenode hdfs namenode -format //啟動hdfs sbin/start-dfs.sh //啟動yarn sbin/start-yarn.sh
當啟動完hdfs以及yarn可以打開瀏覽器,輸入以下地址看是否能進入對應的頁面
啟動完hdfs訪問: http://localhost:50070
對應的頁面:
啟動完yarn訪問: http://localhost:8088
對應的頁面:
如果你能進入這兩個頁面,ok,那麼你的hadoop以安裝成功!
八.運行Hadoop實例
同第七個步驟一樣,打開終端跟著以下命令一步一步執行。
//1.進入你的hadoop安裝目錄 cd $HADOOP_HOME //2.在hdfs上創建你的用戶目錄,其中中間那個需要你自己填啊別直接粘貼運行啊 hdfs dfs -mkdir -p /user/(你本機用戶名)/input //3.這個時候你可以執行以下命令來查看目錄是否在hdfs上創建成功 hadoop fs -ls /user/(你本機用戶名)/input
如果成功的話,那麼就會有如下圖的顯示:
//4.然後將需要統計的文件上傳到hdfs上,其中($HADOOP_HOME/etc/hadoop/*.xml)是要上傳的文件的路徑 後面有個空格 然後接你要上傳的目錄路徑(也就是你剛剛所創建的目錄) hdfs dfs -put $HADOOP_HOME/etc/hadoop/*.xml /user/(你本機用戶名)/input //同樣也可以用第3步的命令來查看文件是否上傳成功 //5.運行測試jar hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep input output ‘dfs[a-z.]+’ //6.然後查看運行之後的產生的output文件夾下的信息 hdfs dfs -cat output/part-r-00000
最後在終端顯示的output文件夾下的信息的結果如下圖:
如果跟上圖一致,那麼,恭喜你,你邁出了hadoop的一小步,繼續加油!