1. Java 下載Java 1.8 64位版本https://java.com/en/download/. 如果不是64位java,在啟動資源節點管理器時會出現錯誤 Java 安裝自選目錄, 必須是中間不帶空格的目錄結構:比如 C:\java64 安裝完成後,使用“java -version”命令 ...
1. Java
- 下載Java 1.8 64位版本https://java.com/en/download/. 如果不是64位java,在啟動資源節點管理器時會出現錯誤
- Java 安裝自選目錄, 必須是中間不帶空格的目錄結構:比如 C:\java64
- 安裝完成後,使用“java -version”命令在命令行中確認運行了正確的版本
C:\Users>java -version java version "1.8.0_251" Java(TM) SE Runtime Environment (build 1.8.0_251-b08) Java HotSpot(TM) 64-Bit Server VM (build 25.251-b08, mixed mode)
2. WinRAR/7-ZIP
- 下載並安裝WinRAR 64位版本,用來解壓Windows上的Linux類型tar.gz包: http://www.rarlab.com/download.htm
- 或者使用7-zip: https://www.7-zip.org/download.html
3. Hadoop
- 解壓並將文件夾名重命名為hadoop,並將其放在C:\Learning
- 目錄名字中間不要有空格(因為Hadoop初始開發基於linux, linux 文件名字不能有空格)。
3. 1 Setup Environmental Variables
添加以下目錄到path變數:
3.2 Edit Hadoop Configuration
註意:如果你不想自己配置下麵 3.2 過程, 除了3.2.3 其它的步驟可以忽略, 那麼下載下麵鏈接(bin data etc)文件夾放到你的hadoop目錄下覆蓋(https://github.com/yjy24/bigdata_learning ), 然後從3.2.3 開始繼續!
3.2.1 新建data 目錄和子目錄
- c:/Learning/hadoop/data
- c:/Learning/hadoop/data/namenode
- c:/Learning/hadoop/data/datanode
3.2.2 修改 Hadoop 配置文件
- HDFS服務地址
a) C:\Learning\hadoop\etc\hadoop\core-site.xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration>
- 加入如下內容到mapreduce 框架設置文件
b) C:\Learning\hadoop\etc\hadoop\mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
- 添加namenode 和 datanode 目錄設置
c) C:\Learning\hadoop\etc\hadoop\hdfs-site.xml <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:///Learning/hadoop/data/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:///Learning/hadoop/data/datanode</value> </property> </configuration>
- 添加如下內容到Yarn配置文件
D:\Learning\hadoop\etc\hadoop\yarn-site.xml <configuration> <property> <name>yarn.resourcemanager.hostname</name> <value>0.0.0.0</value> </property> <property> <name>yarn.nodemanager.local-dirs</name> <value>file:///c:/Learning/hadoop/tmp</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> </configuration>
- 設置 JAVA_HOME 目錄到 hadoop-env.cmd. 文件第一行。
e) C:\Learning\hadoop\etc\hadoop\hadoop-env.cmd 顯性設置JAVA_HOME set JAVA_HOME=C:\java64
3.2.3 下載配置Windows 環境需要的庫文件
- 1. 安裝 Visual C++ 2010 Redistributable Package (x64): https://www.microsoft.com/en-us/download/details.aspx?id=14632
- 2. 把 winutils.exe 等 windows 需要的文件放到 C:\Learning\hadoop\bin 下麵。
- 3. 把裡面的 hadoop.dll 拷貝到 C:\Windows\System32 一份
3.3 啟動Hadoop
3.3.1 格式化 Hadoop namenode:
>hdfs namenode -format Log on scren when run successfully: 20/04/19 10:40:13 INFO common.Storage: Storage directory \Learning\hadoop\data\namenode has been successfully formatted. 20/04/19 10:40:13 INFO namenode.FSImageFormatProtobuf: Saving image file \Learning\hadoop\data\namenode\current\fsimage.ckpt_0000000000000000000 using no compression 20/04/19 10:40:13 INFO namenode.FSImageFormatProtobuf: Image file \Learning\hadoop\data\namenode\current\fsimage.ckpt_0000000000000000000 of size 320 bytes saved in 0 seconds . 20/04/19 10:40:13 INFO namenode.NNStorageRetentionManager: Going to retain 1 images with txid >= 0 20/04/19 10:40:13 INFO namenode.NameNode: SHUTDOWN_MSG:
3.3.2 啟動 Hadoop 所有的服務:
- 要用管理員身份運行,四個service視窗會打開運行, 包括HDFS 的數據節點 和 Yarn 管理器服務進程
C:\Learning\hadoop\sbin\start-all.cmd
3.4 Open Hadoop GUI
- 完成以上步驟後,打開瀏覽器,導航到: http://localhost:8088/cluster, 這裡可以查看job的運行情況 log 信息。