尋找KMeans的最優K

来源:http://www.cnblogs.com/bigdatafly/archive/2016/06/27/5621631.html
-Advertisement-
Play Games

K-Means聚類演算法是最為經典的,同時也是使用最為廣泛的一種基於劃分的聚類演算法,它屬於基於距離的無監督聚類演算法。KMeans演算法簡單實用,在機器學習演算法中占有重要的地位。對於KMeans演算法而言,如何確定K值,確實讓人頭疼的事情。 最近這幾天一直忙於構建公司的推薦引擎。對用戶群體的分類,要使用KM ...


  K-Means聚類演算法是最為經典的,同時也是使用最為廣泛的一種基於劃分的聚類演算法,它屬於基於距離的無監督聚類演算法。KMeans演算法簡單實用,在機器學習演算法中占有重要的地位。對於KMeans演算法而言,如何確定K值,確實讓人頭疼的事情。

最近這幾天一直忙於構建公司的推薦引擎。對用戶群體的分類,要使用KMeans聚類演算法,就研究了一下。

探索K的選擇

  對數據進行分析之前,採用一些探索性分析手段還是很有必要的。

  對於高維空間,我們可以採用降維的方式,把多維向量轉化為二維向量。好在,R語言包里提供了具體的實現,MDS是個比較好的方式。

多維標度分析(MDS)是一種將多維空間的研究對象簡化到低維空間進行定位、分析和歸類,同時又保留對象間原始關係的數據分析方法。R語言包提供了經典MDS和非度量MDS。

  通過MDS對數據進行處理後,採用ggplot繪出點圖,看看數據分佈的情況,使得我們對要聚類的數據有個直觀的認識。

SSESilhouette Coefficient繫數

  我們還可以通過SSE和Silhouette Coefficient繫數的方法評估最優K。譬如對K從1到15計算不同的聚類的SSE,由於kmeans演算法中的隨機因數,每次結果都不一樣,為了減少時間結果的偶然性,對於每個k值,都重覆運行50次,求出平均的SSE,最後繪製出SSE曲線。Silhouette Coefficient也採用同樣做法。

 

              SSE結果

 

              Silhouette Coefficient結果

    從上圖來看,8和9明顯有一個尖峰。我們大體可以確定K的數目是8。值得註意在有些時候,這種方法有可能無效,但仍然不失為一個很好的方法。

DB INDEX準則

  DB INdex準則全稱Davies Bouldin index 。類內離散度和類間聚類常被用來判斷聚類的有效性,DB INdex準則同時使用了類間聚類和類內離散度。通過計算這個指數,來確定到底哪個Cluster最合理

 

R語言代碼如下:

 1 data <- read.csv("a.csv", header = T,
 2 
 3     stringsAsFactors = F)
 4 DB_index <- function(x, cl, k) {
 5     data <- split.data.frame(x, cl$cluster)
 6     # 計算類內離散度
 7 
 8     S <- NULL
 9     for (i in 1:k) {
10         S[i] <- sum(rowSums((data[[i]] - cl$centers[i])^2))/nrow(data[[i]])
11     }
12 
13     # 計算類間聚類
14 
15     D <- as.matrix(dist(cl$centers))
16 
17     # 計算DB index
18 
19     R <- NULL
20     for (i in 1:k) {
21         R <- c(max((S[i] + S[-i])/D[-i, i]), R)
22     }
23     DB <- sum(R)/k
24     return(DB)
25 }
26 
27 # 迴圈計算不同聚類數的DB_Index指數
28 
29 DB <- NULL
30 for (i in 2:15) {
31 
32     cl <- kmeans(data, i)
33 
34     DB <- c(DB_index(data, cl, i), DB)
35 
36 }
37 plot(2:15, DB)
38 lines(2:15, DB)

CANOPY演算法

  Canopy聚類最大的特點是不需要事先指定k值(即clustering的個數),與其他聚類演算法相比,Canopy聚類雖然精度較低,但其在速度上有很大優勢。

因此可以使用Canopy聚類先對數據進行“粗”聚類,得到k值後再使用K-means進行進一步“細”聚類。這個演算法不多說了,mahout聚類里有具體實現。

 

參閱:https://en.wikipedia.org/wiki/Davies-Bouldin_index


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 當我們在使用JSONKit處理數據時,直接將文件拉進項目往往會報這兩個錯“JSONKit does not support Objective-C Automatic Reference Counting(ARC)”,“ARC forbids Objective-C objects in struc ...
  • AlertDialog有以下六種使用方法: 一、簡單的AlertDialog(只顯示一段簡單的信息) 二、帶按鈕的AlertDialog(顯示提示信息,讓用戶操作) 三、類似ListView的AlertDialog(展示內容) 四、類似RadioButton的AlertDialog(讓用戶選擇,單選 ...
  • 1.1 普通標題 1.1.1 標題內容管理 1.1.2 幫助和返回的按鈕 1.2 未登錄的標題 1.3 登陸中的標題 1.4 登陸完成後的標題 2.1 清單文本配置 2.2 新建menu資源文件 2.3 Activity中設置 清單文件: 設置主題是Theme.Holo下麵的就可以 <applica ...
  • 今天簡單的介紹 一下啊 android EventBus 的使用 EventBus 在官方介紹中是訂閱......什麼的 一大堆 , 在我android 菜鳥眼裡 就是用來代替android 廣播的 簡單粗暴 效率高; 其實用法挺簡單 的 就 三步 註冊(官方叫訂閱) 接收 取消(取消訂閱). 算了 ...
  • 1、nonnull:字面意思就能知道:不能為空(用來修飾屬性,或者方法的參數,方法的返回值) 代碼: 這樣,你在使用以上方法的時候會出現這種效果提示 同樣,使用屬性的時候: 2、nullable:表示可以為空(使用方法和上面幾乎一樣,但是沒有發現和上面類似的巨集) 代碼(大概看一下,參考上面就行了): ...
  • 作者:楓雪庭 出處:http://www.cnblogs.com/FengXueTing-px/ 歡迎轉載 Android學習心得之 Linux下命令行Android開發環境的搭建 1. 前言2. Java以及Ant安裝3. Android SDK安裝4. Android工程的基礎命令 一、前言 本 ...
  • “階段一”是指我第一次系統地學習Android開發。這主要是對我的學習過程作個記錄。 上一篇階段一:一個簡單的天氣預報應用的完整實現過程(一)完成了應用的核心功能,接下來就要對它進行優化。今天我先優化它的部分UI和設置一些動畫。 首先,說明一下,這部分都是我現學現做的,弄的時候也挺折騰的,所以我想先 ...
  • 1,安裝oracle 10g資料庫並創建一個要恢復的資料庫相同一的實例(註意:最好是新安裝的資料庫,並且安裝的資料庫儘量和要恢復的資料庫的版本一致,並且實例必須一致); 2,以sysdba身份登錄:對控制文件進行備份; sqlplus /nolog;(此處不能加分號,否則黑屏視窗會一閃而過) con ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...