Spark機器學習(2)：邏輯回歸演算法

-Advertisement-

邏輯回歸本質上也是一種線性回歸，和普通線性回歸不同的是，普通線性回歸特征到結果輸出的是連續值，而邏輯回歸增加了一個函數g(z)，能夠把連續值映射到0或者1。 MLLib的邏輯回歸類有兩個：LogisticRegressionWithSGD和LogisticRegressionWithLBFGS，前者 ...

邏輯回歸本質上也是一種線性回歸，和普通線性回歸不同的是，普通線性回歸特征到結果輸出的是連續值，而邏輯回歸增加了一個函數g(z)，能夠把連續值映射到0或者1。

MLLib的邏輯回歸類有兩個：LogisticRegressionWithSGD和LogisticRegressionWithLBFGS，前者基於隨機梯度下降，只支持2分類，後者基於LBFGS優化損失函數，支持多分類。

直接上代碼：

import org.apache.log4j.{Level, Logger}
import org.apache.spark.mllib.classification.LogisticRegressionWithLBFGS
import org.apache.spark.mllib.evaluation.MulticlassMetrics
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.mllib.util.MLUtils
import org.apache.spark.mllib.regression.LabeledPoint

object LogisticRegression {
  def main(args: Array[String]) {
    // 設置運行環境
    val conf = new SparkConf().setAppName("Logistic Regression Test")
      .setMaster("spark://master:7077").setJars(Seq("E:\\Intellij\\Projects\\MachineLearning\\MachineLearning.jar"))
    val sc = new SparkContext(conf)
    Logger.getRootLogger.setLevel(Level.WARN)

    // 讀取樣本數據,格式化為LIBSVM的RDD
    val dataRDD = MLUtils.loadLibSVMFile(sc, "hdfs://master:9000/ml/data/sample_libsvm_data.txt")

    // 樣本數據劃分,訓練樣本占0.7,測試樣本占0.3
    val dataParts = dataRDD.randomSplit(Array(0.7, 0.3), seed = 25L)
    val trainRDD = dataParts(0).cache()
    val testRDD = dataParts(1)

    // 建立邏輯回歸模型並訓練
    val LRModel = new LogisticRegressionWithLBFGS().setNumClasses(10).run(trainRDD)

    // 對測試樣本進行測試
    val prediction = testRDD.map {
      case LabeledPoint(label, features) =>
        val prediction = LRModel.predict(features)
        (prediction, label)
    }
    val showPrediction = prediction.take(10)
    // 輸出測試結果
    println("Prediction" + "\t" + "Label")
    for (i <- 0 to showPrediction.length - 1) {
      println(showPrediction(i)._1 + "\t" + showPrediction(i)._2)
    }

    // 計算誤差並輸出
    val metrics = new MulticlassMetrics(prediction)
    val precision = metrics.precision
    println("Precision = " + precision)
  }

}

運行結果：

可見模型預測得非常準確。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

內連接、左外連接、右外連接、交叉連接區別

內連接、左外連接、右外連接、交叉連接區別 http://blog.csdn.net/cnham/archive/2008/06/25/2584936.aspx 在之前，我對MSSQL中的內連接和外連接所得出的數據集不是很清楚。這幾天重新溫習了一下SQL的書本，現在的思路應該是很清楚了，現在把自己的理 ...
xtrabackup備份原理

Percona XtraBackup工作原理 Percona XtraBackup是基於InnoDB的崩潰恢復功能。複製InnoDB數據文件，導致內部不一致的數據; 但隨後它對文件執行崩潰恢復，使它們再次成為一致，可用的資料庫。這是因為InnoDB維護一個重做日誌，也稱為事務日誌。這包含對Inno ...
ORACLE中DBMS_STATS.GATHER_SCHEMA_STATS詳解

oracle,dbms_stats,gather_schema_stats ...
sql 模糊搜素拼接

if($irb_order!=''){ $condition .= " AND d.irb_order like '%".$irb_order."%'"; } if($company_name!=''){ $condition .= " AND cp.company_name like '%".$c... ...
mysql left join查詢,比較兩個表不同行

怎樣查詢兩個表中同一欄位的不同數據值例如： A表中的欄位a有40000條數據B表中的欄位a有60000條數據，其中的40000條數據跟A表是一樣的怎樣能把那不一樣的20000條數據查詢出來啊？ --建表table1,table2： 1 2 3 4 5 6 7 8 9 create table ta ...
Oracle 按照時段進行篩選查詢符合條件SQL語句

篩選出0點到早上8點之間進入的所有記錄查詢結果如下： ...
如何在 SQL Server 2005 實例之間傳輸登錄和密碼

簡介本文介紹如何在不同伺服器上的 Microsoft SQL Server 2005 實例之間傳輸登錄和密碼。有關如何在其他版本的 SQL Server 實例之間傳輸登錄和密碼的更多信息，請單擊下麵的文章編號，以查看 Microsoft 知識庫中相應的文章：246133 如何在 SQL Serve ...
MySQL的四種事務隔離級別

2017-06-16 本文實驗的測試環境：Windows 10+MySQL5.6.36 一、事務的基本要素（ACID） 1、原子性（Atomicity）：事務開始後所有操作，要麼全部做完，要麼全部不做，不可能停滯在中間環節。事務執行過程中出錯，會回滾到事務開始前的狀態，所有的操作就像沒有發生一樣。也 ...