Spark機器學習(1)：線性回歸演算法

-Advertisement-

線性回歸演算法，是利用數理統計中回歸分析，來確定兩種或兩種以上變數間相互依賴的定量關係的一種統計分析方法。 1. 梯度下降法線性回歸可以使用最小二乘法，但是速度比較慢，因此一般使用梯度下降法(Gradient Descent)，梯度下降法又分為批量梯度下降法(Batch Gradient Desce ...

線性回歸演算法，是利用數理統計中回歸分析，來確定兩種或兩種以上變數間相互依賴的定量關係的一種統計分析方法。

1. 梯度下降法

線性回歸可以使用最小二乘法，但是速度比較慢，因此一般使用梯度下降法(Gradient Descent)，梯度下降法又分為批量梯度下降法(Batch Gradient Descent)和隨機梯度下降法(Stochastic Gradient Descent)。批量梯度下降法每次迭代需要使用訓練集裡面的所有數據，當訓練集數據量較大時，速度就很慢；隨機梯度下降法每次迭代只需要一個樣本的數據，速度較快，對於大數據集，可能只需要使用少部分數據就達到收斂值，雖然有可能在最小值周圍震蕩，但是大多數情況下效果不錯，所以，一般使用隨機梯度下降法。

2. Mllib的線性回歸

Mllib的線性回歸採用的是隨機梯度下降法。直接上代碼：

import org.apache.log4j.{ Level, Logger }
import org.apache.spark.{ SparkConf, SparkContext }
import org.apache.spark.mllib.regression.LinearRegressionWithSGD
import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.mllib.linalg.Vectors

object LinearRegression {

  def main(args: Array[String]) {
    // 設置運行環境
    val conf = new SparkConf().setAppName("Linear Regression Test").setMaster("spark://master:7077").setJars(Seq("E:\\Intellij\\Projects\\MachineLearning\\MachineLearning.jar"))
    val sc = new SparkContext(conf)
    Logger.getRootLogger.setLevel(Level.WARN)

    //讀取樣本數據,生成RDD
    val data_path = "hdfs://master:9000/ml/data/lpsa.data"
    val dataRDD = sc.textFile(data_path)
    val examples = dataRDD.map { line =>
      val parts = line.split(',')
      LabeledPoint(parts(0).toDouble, Vectors.dense(parts(1).split(' ').map(_.toDouble)))
    }.cache()// 迭代次數
    val numIterations = 100
    // 步長
    val stepSize = 0.5
    // 選取樣本的比例
    val miniBatchFraction = 1.0
    // 用隨機梯度下降模型訓練
    val sgdModel = LinearRegressionWithSGD.train(examples, numIterations, stepSize, miniBatchFraction)

    // 對樣本進行測試
    val prediction = sgdModel.predict(examples.map(_.features))
    val predictionAndLabel = prediction.zip(examples.map(_.label))
    // 選取前100個樣本
    val show_predict = predictionAndLabel.take(100)
    println("Prediction" + "\t" + "Label" + "\t" + "Diff")
    for (i <- 0 to show_predict.length - 1) {
      val diff = show_predict(i)._1-show_predict(i)._2
      println(show_predict(i)._1 + "\t" + show_predict(i)._2 + "\t" + diff)
    }

  }

}

部分運行結果：

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

自定義控制項詳解（六）：Paint 畫筆MaskFilter過濾

首先看一個API：setMaskFilter(MaskFilter maskfilter)：設置MaskFilter，可以用不同的MaskFilter實現濾鏡的效果，如濾化，立體等。以下有兩個MaskFilter的子類可供選擇： BlurMaskFilter：指定了一個模糊的樣式和半徑來處理Pa ...
微信小程式-隱藏和顯示自定義的導航

微信小程式中不能直接操作window對象，document文檔，跟html的樹結構不相同。實現類似導航的隱藏顯示，如圖效果：點擊網路顯示或隱藏網路中包含的內容。其他類似。如果是jquery很方便實現，能直接操作document。在微信小程式中實現思路是：在邏輯層定義變數，通過setData賦值 ...
iOS之創建通知、發送通知和移除通知的坑

1、創建通知，最好在viewDidLoad的方法中創建 2、發送通知 3、移除通知，由那個控制器創建由那個控制器移除，誰創建誰移除,最好在dealloc方法中移除，如果通知不能及時的移除掉，當下次進入該控制器時會重覆創建NSNotificationCenter，在對應方法中發送通知給上一次創建的通知 ...
多線程：GCD

多線程是程式開發中非常基礎的一個概念，大家在開發過程中應該或多或少用過相關的東西。同時這恰恰又是一個比較棘手的概念，一切跟多線程掛鉤的東西都會變得複雜。如果使用過程中對多線程不夠熟悉，很可能會埋下一些難以預料的坑。 iOS中的多線程技術主要有NSThread, GCD和NSOperation。他們的 ...
iOS開發之資訊類App常用分類控制項的封裝與實現(CollectionView+Swift3.0+)

今天博客中，我們就來實現一下一些常用資訊類App中常用的分類選擇的控制項的封裝。本篇博客中沒有使用到什麼新的技術點，如果非得說用到了什麼新的技術點的話，那麼勉強的說，用到了一些iOS9以後UICollectionView添加的一些新的特性。本篇博客所涉及的技術點主要有UICollectionView的 ...
SQL Server Browser探究

一、官網關於SQL SERVER Browser服務的解釋（谷歌翻譯後稍作修改的）： https://docs.microsoft.com/en-us/sql/tools/configuration-manager/sql-server-browser-service 背景：在SQL Server ...
MySQL分頁優化中的“INNER JOIN方式優化分頁演算法”到底在什麼情況下會生效？

本文出處：http://www.cnblogs.com/wy123/p/7003157.html 最近無意間看到一個MySQL分頁優化的測試案例，並沒有非常具體地說明測試場景的情況下，給出了一種經典的方案，因為現實中很多情況都不是固定不變的，能總結出來通用性的做法或者說是規律，是要考慮非常多的場景的 ...
SQL Server Alwayson讀寫分離配置

標簽：MSSQL/只讀路由概述 Alwayson相對於資料庫鏡像最大的優勢就是可讀副本，帶來可讀副本的同時還添加了一個新的功能就是配置只讀路由實現讀寫分離；當然這裡的讀寫分離稍微誇張了一點，只能稱之為半讀寫分離吧！看接下來的文章就知道為什麼稱之為半讀寫分離。 db01:192.168.1.22 d ...