機器學習_ZenDei技術網路在線

機器學習

-Advertisement-

將Mahout on Spark 中的機器學習演算法和MLlib中支持的演算法統計如下：主要針對MLlib進行總結分類與回歸分類和回歸是監督式學習; 監督式學習是指使用有標簽的數據（LabeledPoint）進行訓練，得到模型後，使用測試數據預測結果。其中標簽數據是指已知結果的特征數據。分類和回 ...

將Mahout on Spark 中的機器學習演算法和MLlib中支持的演算法統計如下：

主要針對MLlib進行總結

分類與回歸

分類和回歸是監督式學習;

監督式學習是指使用有標簽的數據（LabeledPoint）進行訓練，得到模型後，使用測試數據預測結果。其中標簽數據是指已知結果的特征數據。

分類和回歸的區別：預測結果的變數類型

　　分類預測出來的變數是離散的（比如對郵件的分類，垃圾郵件和非垃圾郵件），對於二元分類的標簽是0和1，對於多元分類標簽範圍是0~C-1,C表示類別數目；

　　回歸預測出來的變數是連續的（比如根據年齡和體重預測身高）

線性回歸

　　線性回歸是回歸中最常用的方法之一，是指用特征的線性組合來預測輸出值。

　　線性回歸演算法可以使用的類有:

　　　　LinearRegressionWithSGD
　　　　RidgeRegressionWithSGD
　　　　LassoWithSGD

　　參數：

　　　　stepSize:梯度下降的步數

　　　　numIterations:迭代次數

　　　　設置intercept:是否給數據加上一個干擾特征或者偏差特征，一個始終值為1的特征，預設不增加false

　　{stepSize: 1.0, numIterations: 100, miniBatchFraction: 1.0}

　　模型的使用：

　　　　1、對數據進行預測,使用model.predict()

　　　　2、獲取數據特征的權重model.weights()

　　模型的評估：

　　　　均方誤差

例子：

import org.apache.spark.{SparkContext, SparkConf}
import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.mllib.regression.LinearRegressionModel
import org.apache.spark.mllib.regression.LinearRegressionWithSGD
import org.apache.spark.mllib.linalg.Vectors

/**
  * Created by Edward on 2016/9/21.
  */
object LinearRegression {
  def main(args: Array[String]) {
    val conf: SparkConf = new SparkConf().setAppName("LinearRegression").setMaster("local")
    val sc = new SparkContext(conf)

    // Load and parse the data
    val data = sc.textFile("data/mllib/ridge-data/lpsa.data")
    val parsedData = data.map { line =>
      val parts = line.split(',')
      LabeledPoint(parts(0).toDouble, Vectors.dense(parts(1).split(' ').map(_.toDouble)))
    }.cache()

    // Building the model
    val numIterations = 100
    val model = LinearRegressionWithSGD.train(parsedData, numIterations)
//    var lr = new LinearRegressionWithSGD().setIntercept(true)
//    val model = lr.run(parsedData)

    //獲取特征權重，及干擾特征
    println("weights:%s, intercept:%s".format(model.weights,model.intercept))

    // Evaluate model on training examples and compute training error
    val valuesAndPreds = parsedData.map { point =>
      val prediction = model.predict(point.features)
      (point.label, prediction)
    }

    //計算 均方誤差
    val MSE = valuesAndPreds.map{case(v, p) => math.pow((v - p), 2)}.mean()
    println("training Mean Squared Error = " + MSE)

    // Save and load model
    model.save(sc, "myModelPath")
    val sameModel = LinearRegressionModel.load(sc, "myModelPath")


  }
}

數據：

-0.4307829,-1.63735562648104 -2.00621178480549 -1.86242597251066 -1.02470580167082 -0.522940888712441 -0.863171185425945 -1.04215728919298 -0.864466507337306
-0.1625189,-1.98898046126935 -0.722008756122123 -0.787896192088153 -1.02470580167082 -0.522940888712441 -0.863171185425945 -1.04215728919298 -0.864466507337306
-0.1625189,-1.57881887548545 -2.1887840293994 1.36116336875686 -1.02470580167082 -0.522940888712441 -0.863171185425945 0.342627053981254 -0.155348103855541
-0.1625189,-2.16691708463163 -0.807993896938655 -0.787896192088153 -1.02470580167082 -0.522940888712441 -0.863171185425945 -1.04215728919298 -0.864466507337306
0.3715636,-0.507874475300631 -0.458834049396776 -0.250631301876899 -1.02470580167082 -0.522940888712441 -0.863171185425945 -1.04215728919298 -0.864466507337306
0.7654678,-2.03612849966376 -0.933954647105133 -1.86242597251066 -1.02470580167082 -0.522940888712441 -0.863171185425945 -1.04215728919298 -0.864466507337306
...

數據第一列表示標簽數據，也就是結果數據，其他列表示特征數據；

預測就是再給一組特征數據，預測結果；

結果：

weights:[0.5808575763272221,0.18930001482946976,0.2803086929991066,0.1110834181777876,0.4010473965597895,-0.5603061626684255,-0.5804740464000981,0.8742741176970946], intercept:0.0
training Mean Squared Error = 6.207597210613579

持續更新中...

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

報文格式：xml 、定長報文、變長報文

目前接觸到的報文格式有三種：xml 、定長報文、變長報文。此處只做簡單介紹，日後應該會深入學習到三者之間如何解析，再繼續更新。——2016.9.23 XML XML 被設計用來傳輸和存儲數據。 HTML 被設計用來顯示數據。 XML 僅僅是純文本 XML 沒什麼特別的。它僅僅是純文本而已。有能力 ...
ul+li標簽製作表格

table標簽製作表格代碼繁瑣，且不方便後期代碼維護。 li標簽加上css的浮動樣式可以製作多種樣式的表格。代碼如下： <ul id="ttttt" style="width:404px;text-align:center;line-height:30px;border-left:1px soli ...
用瀑布流的方式在網頁上插入圖片

當我們的網頁需要插入很多圖片的時候，為了美觀，我們可以選擇用瀑布流的方法插入圖片首先我們在body裡面放入我們需要展示的圖片 <div id="box"> <div class="dinwei"> <div class="pic"> <img src="image/1.jpg"> </div> < ...
jqueryAPI使用之選擇器

好一段時間沒有更新博文了。剛學習完JS基礎知識後，也進入到了JQ的學習。為了能熟練掌握JQ的使用，最好的方法就是反覆多練，講JQ中的API的每個知識點都練習一遍。如果能做到這個，那麼對JQ就沒那麼陌生了。這一天，先將JQ中的選擇器的每個點熟悉一遍。註：記得先將JQ庫引入，並且<script></sc ...
如何去除掉inline-block元素之間的預設間距

前幾天寫一個頁面發現寬度為900px的div居然放不下3個寬度為300px的內聯元素li，只好改用了float:left來佈局。後來上網一查，才知道inline-block是有預設間距的，預設間距為4px,並且inline也是有預設間距。現在就來盤點一些解決inline-block元素和inlin ...
jQuery的61種選擇器

The Write Less , Do More ! jQuery選擇器 1. #id : 根據給定的ID匹配一個元素結果：這是第一個p標簽這是第二個p標簽 2. element : 根據給定的元素標簽名匹配所有元素結果：這是div標簽1 這是div標簽2 這是p標簽 3. .class ...
javascript動畫系列第三篇——碰撞檢測

前面的話前面分別介紹了拖拽模擬和磁性吸附，當可視區域記憶體在多個可拖拽元素，就出現碰撞檢測的問題，這也是javascript動畫的一個經典問題。本篇將詳細介紹碰撞檢測原理介紹碰撞檢測的方法有很多，接下來使用九宮格分析法假設黃色元素要與紅色元素進行碰撞。將紅色元素所處的區域分為9部分，自身處於第 ...
SQLSERVER編譯與重編譯

SQLSERVER編譯與重編譯編譯的含義當SQLSERVER收到任何一個指令，包括查詢（query）、批處理（batch）、存儲過程、觸發器（trigger）、預編譯指令（prepared statement）和動態SQL語句（dynamic SQL Statement）要完成語法解釋、語句解 ...