MapReduce簡介以及詳細配置

-Advertisement-

1.MapReduce(一個分散式運算框架)將數據分為數據塊，發送到不同的節點，並行方式處理。 2.NodeManager和DataNode在一個節點上，程式與數據在一個節點。 3.內容分為兩個部分 1) Map 讀取文件，將數據分塊，輸入輸出都是<key，value> 2) Reduce 輸入輸出 ...

1.MapReduce(一個分散式運算框架)將數據分為數據塊，發送到不同的節點，並行方式處理。

2.NodeManager和DataNode在一個節點上，程式與數據在一個節點。

3.內容分為兩個部分

1) Map

讀取文件，將數據分塊，輸入輸出都是<key，value>

2) Reduce

輸入輸出都是<key，value>，輸入的key是Map輸出的key，輸入的value是map輸出的所有key一樣的value

4.修改配置文件hadoop-2.6.0/etc/hadoop/mapred-site.xml

這個文件在Hadoop中沒有，需要複製一份，cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml

<name>mapreduce.framework.name</name>

</property>

5.修改配置文件hadoop-2.6.0/etc/hadoop/yarn-site.xml

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

6.啟動集群sbin/start-all.sh

一塊啟動了HDFS與MapReduce，依次執行了sbin/start-dfs.sh與sbin/start-yarn.sh

7.打開jps查看進程

32033 Jps

31718 SecondaryNameNode

31528 DataNode

31852 ResourceManager

31437 NameNode

31949 NodeManager

8.HDFS與MapReduce啟動成功，關閉集群：sbin/stop-all.sh

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

多表查詢

多表查詢 1. 分類： * 合併結果集(瞭解) * 連接查詢 * 子查詢合併結果集 * 要求被合併的表中，列的類型和列數相同 * UNION，去除重覆行 * UNION ALL，不去除重覆行連接查詢 1. 分類 * 內連接 * 外連接 > 左外連接 > 右外連接 > 全外連接(MySQL不支持) ...
安裝SQL sever2008時顯示重新啟動電腦規則失敗，應該怎麼解決？

1.刪除註冊表：在HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Session Manager中找到 PendingFileRenameOperations 項目，並刪除它。 ...
Ubuntu Mysql 常用指令

mysql 常用指令及中文亂碼解決 Mysql 系統管理指令登陸本地 Mysql mysql -u username -p # 回車輸入密碼或者 mysql -u username -p passswd; 登陸遠程 Mysql mysql -h address -u username -p # ...
清楚資料庫日誌的方法

轉載自http://www.jb51.net/article/30811.htm 謝謝！方法一： 1、打開查詢分析器，輸入命令 BACKUP LOG database_name WITH NO_LOG 2、再打開企業管理器--右鍵要壓縮的資料庫--所有任務--收縮資料庫--收縮文件--選擇日誌文件 ...
Homebrew安裝Mysql設置開機啟動

安裝啟動Mysql服務設置開機啟動 ...
2.sparkSQL--DataFrames與RDDs的相互轉換

Spark SQL支持兩種RDDs轉換為DataFrames的方式使用反射獲取RDD內的Schema 當已知類的Schema的時候，使用這種基於反射的方法會讓代碼更加簡潔而且效果也很好。通過編程介面指定Schema 通過Spark SQL的介面創建RDD的Schema，這種方式會讓代碼比較冗長。 ...
記一次由於缺少外鍵索引導致的血案

外鍵加索引！外鍵加索引！外鍵加索引! 重要的事情說三遍。最近在.Net開發中通過Remoting向服務端發送一個請求後，就開始在資料庫里通過存儲過程來進行大量的DML操作，其中大量數據來源於DBLINK，建立物化視圖後效率提升了不少。但是用戶還是會抱怨速度太慢，經常還會蹦出一個異常，如下圖：起初 ...
SaaS模式應用之多租戶系統開發（單資料庫多Schema設計）

SaaS是Software-as-a-Service（軟體即服務）的簡稱，這邊具體的解釋不介紹。多租戶的系統可以應用這種模式的思想，將思想融入到系統的設計之中。一、多租戶的系統，目前在資料庫存儲上，一般有三種解決方案： 1.獨立資料庫 2.共用資料庫，隔離數據架構 3.共用資料庫，共用數據架構 ...