1.MapReduce(一個分散式運算框架)將數據分為數據塊,發送到不同的節點,並行方式處理。 2.NodeManager和DataNode在一個節點上,程式與數據在一個節點。 3.內容分為兩個部分 1) Map 讀取文件,將數據分塊,輸入輸出都是<key,value> 2) Reduce 輸入輸出 ...
1.MapReduce(一個分散式運算框架)將數據分為數據塊,發送到不同的節點,並行方式處理。
2.NodeManager和DataNode在一個節點上,程式與數據在一個節點。
3.內容分為兩個部分
1) Map
讀取文件,將數據分塊,輸入輸出都是<key,value>
2) Reduce
輸入輸出都是<key,value>,輸入的key是Map輸出的key,輸入的value是map輸出的所有key一樣的value
4.修改配置文件hadoop-2.6.0/etc/hadoop/mapred-site.xml
這個文件在Hadoop中沒有,需要複製一份,cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
5.修改配置文件hadoop-2.6.0/etc/hadoop/yarn-site.xml
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
6.啟動集群sbin/start-all.sh
一塊啟動了HDFS與MapReduce,依次執行了sbin/start-dfs.sh與sbin/start-yarn.sh
7.打開jps查看進程
32033 Jps
31718 SecondaryNameNode
31528 DataNode
31852 ResourceManager
31437 NameNode
31949 NodeManager
8.HDFS與MapReduce啟動成功,關閉集群:sbin/stop-all.sh