數據挖掘 推薦演算法(Mahout工具) 一、簡介 Apache頂級項目(2010.4) Hadoop上的開源機器學習庫 可伸縮擴展的 Java庫 推薦引擎(協同過濾)、聚類和分類 二、機器學習介紹 通常問題都歸為這幾類問題 分類問題 回歸問題 聚類問題 推薦問題 三、安裝方法 3.1 下載Mahou ...
數據挖掘---推薦演算法(Mahout工具)
一、簡介
- Apache頂級項目(2010.4)
- Hadoop上的開源機器學習庫
- 可伸縮擴展的
- Java庫
- 推薦引擎(協同過濾)、聚類和分類
二、機器學習介紹
- 通常問題都歸為這幾類問題
- 分類問題
- 回歸問題
- 聚類問題
- 推薦問題
三、安裝方法
3.1 下載Mahout
wget http://archive.apache.org/dist/mahout/0.9/mahout-distribution-0.9.tar.gz
3.2 解壓
tar -zxvf mahout-distribution-0.9.tar.gz
四、配置環境變數
4.1 配置mahout環境變數
# set mahout environment export MAHOUT_HOME=/usr/local/src/mahout-distribution-0.9 export MAHOUT_CONF_DIR=$MAHOUT_HOME/conf export PATH=$MAHOUT_HOME/conf:$MAHOUT_HOME/bin:$PATH
4.2 配置Mahout所需的Hadoop環境變數
# set hadoop environment export HADOOP_HOME=/usr/local/src/hadoop-1.2.1 export HADOOP_CONF_DIR=$HADOOP_HOME/conf export PATH=$PATH:$HADOOP_HOME/bin export HADOOP_HOME_WARN_SUPPRESS=not_null
五、驗證是否成功
直接執行mahout命令
支持演算法列表
六、準備數據
數據格式:
1,100001,5
1,100002,3
1,100003,4
1,100004,3
1,100005,3
1,100007,4
1,100008,1
1,100009,5
1,1000011,2
七、訓練
INPUT="/movie_lens.data" TMP_DIR="/mahout_temp" OUTPUT="/cf_mahout_output" MAHOUT_CMD="/usr/local/src/mahout-distribution-0.9/bin/mahout“ $MAHOUT_CMD itemsimilarity -i $INPUT -o $OUTPUT --maxSimilaritiesPerItem 1000 --threshold 0.0000001 --similarityClassname SIMILARITY_COSINE --tempDir $TMP_DIR
八、輸出結果