Spark實現K-Means演算法_ZenDei技術網路在線

Spark實現K-Means演算法

-Advertisement-

K-Means演算法是一種基於距離的聚類演算法，採用迭代的方法，計算出K個聚類中心，把若幹個點聚成K類。用Spark實現K-Means演算法，首先修改pom文件，引入機器學習MLlib包：代碼：使用textFile()方法裝載數據集，獲得RDD，再使用KMeans.train()方法根據RDD、K值 ...

K-Means演算法是一種基於距離的聚類演算法，採用迭代的方法，計算出K個聚類中心，把若幹個點聚成K類。

用Spark實現K-Means演算法，首先修改pom文件，引入機器學習MLlib包：

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-mllib_2.10</artifactId>
            <version>1.6.0</version>
        </dependency>

代碼：

import org.apache.log4j.{Level,Logger}
import org.apache.spark.{SparkContext, SparkConf}
import org.apache.spark.mllib.clustering.KMeans
import org.apache.spark.mllib.linalg.Vectors

object Kmeans {
  def main(args:Array[String]) = {
    // 屏蔽日誌
    Logger.getLogger("org.apache.spark").setLevel(Level.WARN)
    Logger.getLogger("org.apache.jetty.server").setLevel(Level.OFF)

    // 設置運行環境
    val conf = new SparkConf().setAppName("K-Means").setMaster("spark://master:7077")
      .setJars(Seq("E:\\Intellij\\Projects\\SimpleGraphX\\SimpleGraphX.jar"))
    val sc = new SparkContext(conf)

    // 裝載數據集
    val data = sc.textFile("hdfs://master:9000/kmeans_data.txt", 1)
    val parsedData = data.map(s => Vectors.dense(s.split(" ").map(_.toDouble)))

    // 將數據集聚類,2個類,20次迭代,形成數據模型
    val numClusters = 2
    val numIterations = 20
    val model = KMeans.train(parsedData, numClusters, numIterations)

    // 數據模型的中心點
    println("Cluster centres:")
    for(c <- model.clusterCenters) {
      println("  " + c.toString)
    }

    // 使用誤差平方之和來評估數據模型
    val cost = model.computeCost(parsedData)
    println("Within Set Sum of Squared Errors = " + cost)

    // 使用模型測試單點數據
    println("Vectors 7.3 1.5 10.9 is belong to cluster:" + model.predict(Vectors.dense("7.3 1.5 10.9".split(" ")
      .map(_.toDouble))))
    println("Vectors 4.2 11.2 2.7 is belong to cluster:" + model.predict(Vectors.dense("4.2 11.2 2.7".split(" ")
      .map(_.toDouble))))
    println("Vectors 18.0 4.5 3.8 is belong to cluster:" + model.predict(Vectors.dense("1.0 14.5 73.8".split(" ")
      .map(_.toDouble))))

    // 返回數據集和結果
    val result = data.map {
      line =>
        val linevectore = Vectors.dense(line.split(" ").map(_.toDouble))
        val prediction = model.predict(linevectore)
        line + " " + prediction
    }.collect.foreach(println)

    sc.stop
  }
}

使用textFile()方法裝載數據集，獲得RDD，再使用KMeans.train()方法根據RDD、K值和迭代次數得到一個KMeans模型。得到KMeans模型以後，可以判斷一組數據屬於哪一個類。具體方法是用Vectors.dense()方法生成一個Vector，然後用KMeans.predict()方法就可以返回屬於哪一個類。

運行結果：

Cluster centres:
  [6.062499999999999,6.7124999999999995,11.5]
  [3.5,12.2,60.0]
Within Set Sum of Squared Errors = 943.2074999999998
Vectors 7.3 1.5 10.9 is belong to cluster:0
Vectors 4.2 11.2 2.7 is belong to cluster:0
Vectors 18.0 4.5 3.8 is belong to cluster:1
0.0 0.0 5.0 0
0.1 10.1 0.1 0
1.2 5.2 13.5 0
9.5 9.0 9.0 0
9.1 9.1 9.1 0
19.2 9.4 29.2 0
5.8 3.0 18.0 0
3.5 12.2 60.0 1
3.6 7.9 8.1 0

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

react 的五臟六腑ing~

用react一年多了.一直是在別人的影子下寫的代碼,他們也確實都是大神級的人物,不過,小菜鳥也有小菜鳥的思想~這不,今天就在重溫一遍react!記一些零碎的知識點~不知道對你們有沒有用,不過,對於我,絕對有用!所有的這些均參考於http://www.ruanyifeng.com/blog/2015/ ...
Android--清除預設桌面設置和設置預設桌面(轉)

http://blog.csdn.net/chaozhung_no_l/article/details/49929177 轉自這位大神的博客，感謝這位大神，幫了大忙，謝謝！！ ...
AutoLayout(自動佈局)

1. iOS兩種自適應佈局方式：（修正說明：）－AutoLayout(自動佈局) + SizeClasses(尺寸類別) －Autoresizing (自動調整尺寸／彈簧式調整尺寸) 前者 AutoLayout 是從iOS6出現，通過創建視圖約束實現自適應，SizeClasses是iOS8 開始出 ...
WebView的知識

一、基本介紹 WebView是一個顯示頁面的組件。二、基本使用訪問網頁需要網路，所以在AndroidManifest.xml文件中添加網路許可權。可以使用Intent跳轉網頁，使用如下：使用Intent跳轉網頁，會調用本地的瀏覽器來查看網頁信息。在onCreate()方法中將contentV ...
FragmentActivity + Fragment + Fragment使用過程中出現的bug

FragmentActivity + Fragment（通過hide和show來顯示fragment） + Fragment（通過viewpager來顯示fragment）在Activity中在佈局中然後在fragment中會添加一個viewpager來再添加幾個fragment ...
Android學習筆記-ScrollView(滾動條)

本節引言：本節帶來的是Android基本UI控制項中的第十個：ScrollView(滾動條)，或者我們應該叫他豎直滾動條，對應的另外一個水平方向上的滾動條：HorizontalScrollView，先來一發官方文檔的鏈接：ScrollView，我們可以看到類的結構如下：嘿嘿，原來是一個Fram ...
collectionView 和 tableView的嵌套使用

/Users/longyongping/Desktop/WX20170531-114430.png ...
Android 圖片載入框架Picasso基本使用和源碼完全解析（巨細無比）

說到Picasso，相信Android開發人員絕不陌生，它是Square公司開發的一款圖片載入神器。使用過它的coder絕對是愛不釋手：對它本身而言，輕量安全，有效載入圖片並防止OOM；對我們開發者來說，簡單方便，一行代碼搞定圖片載入。因此它備受Android開發人員的鐘愛，那麼今天我們就從源碼的角... ...