譜聚類綜述_ZenDei技術網路在線

譜聚類綜述

-Advertisement-

聚類在瞭解譜聚類之前，首先需要知道聚類，聚類通俗的講就是將一大堆沒有標簽的數據根據相似度分為很多簇（就是一坨坨的），將相似的聚成一坨，不相似的再聚成其他很多坨。一般的聚類演算法存在的問題是k值的選擇（就是簇的數量事先不知道），相似性的度量（如何判斷兩個樣本點是否相似），如何不陷入局部最優等問題，流行 ...

聚類

　　在瞭解譜聚類之前，首先需要知道聚類，聚類通俗的講就是將一大堆沒有標簽的數據根據相似度分為很多簇（就是一坨坨的），將相似的聚成一坨，不相似的再聚成其他很多坨。一般的聚類演算法存在的問題是k值的選擇（就是簇的數量事先不知道），相似性的度量（如何判斷兩個樣本點是否相似），如何不陷入局部最優等問題，流行的演算法有k-means等一系列演算法。

譜聚類

　　顧名思義就是一種聚類演算法，這個譜字應該指的就是譜圖的意思，簡單的來講就是將聚類問題轉化為圖的分割問題，將圖中相似的點聚在一起，但是這個圖是從哪裡來的呢？？？這就涉及到譜聚類的步驟了，以下是各種譜聚類演算法的通俗框架。

　　輸入：相似性矩陣S，簇的數量k

　　k值只能靠猜測了。

　　這個相似性矩陣怎麼得到呢？

　　假設有一堆數據x1，x2，，，x_n，s_ij= s（x_i，x_j），至於這個相似性度量函數s就有很多種選取方法了，最簡單的就是歐氏距離了，然後就構造出了一個相似性矩陣S = （s_ij）_{i，j = 1....n}

根據鄰接矩陣S構造出一個有權無向圖
有了圖就可以計算圖的Laplacian L（拉普拉斯矩陣）
再算出L的前k個特征向量 v₁,.....v_k
將特征向量作為列向量構造出特征空間V
再對V的行用k-means聚類出簇C₁,.....C_n

　　輸出：簇

　　演算法可修改之處：

比如相似圖的構造就有knn圖，全連接圖，ε-neighborhood圖
Laplacian矩陣也分為規範Laplacian和非規範Laplacian，其中非規範Laplacian也有兩種。

規範Laplacian L = D - W，D為節點的度矩陣，W為節點的權重矩陣

非規範Laplacian

　　　L_sym= D^-1/2LD^-1/2= I - D^-1/2WD^-1/2

　　　L_rw= D^-1L = I - D^-1W
特征向量的選擇，v不一定是L的特征向量，選擇出的向量也不一定為前k個

譜聚類的引出

　　看到這裡是不是覺得一切都那麼的自然，但是這個東東為啥能被人想出來呢？？？

　　最根本的原因在於圖的最優分割問題是一個NP難的問題，在得到一個基於樣本相似度的無向加權圖G=（V，E)之後，可以有很多種基於圖論的方法來切割G，使得子圖的內部相似度最大，子圖間的相似度最小，切割的方法也有很多種，比如Ncut，Rcut，Avcut等多種切割方法，一般用來切割k=2的問題效果還不錯，但涉及到多路規範切割(k>2)的時候，優化問題就難以解決了。

　　各種切割方法的解釋詳見下述論文。

譜聚類的優勢

　　只要保證相似性圖的稀疏，譜聚類對於大數據量的樣本效率就會很高。

　　而且譜聚類的求解不涉及到凸優化問題。

譜聚類的缺點

　　缺點很明顯k值只能靠猜測

由於博主是剛開始看論文的小白，所以有什麼不足之處，歡迎大家指正。

參考文獻：

蔡曉妍戴冠中楊黎斌 譜聚類演算法綜述
Ulrike von Luxburg A Tutorial on Spectral Clustering

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

關於MySql經典高頻查詢語句的整理

一查詢數值型數據: SELECT * FROM tb_name WHERE sum > 100; 查詢謂詞:>,=,<,<>,!=,!>,!<,=>,=< 二查詢字元串 SELECT * FROM tb_stu WHERE sname = '小劉' SELECT * FROM tb_stu WHER ...
SQL server約束

約束的概念：確保在列中輸入有效的值並維護表之間的關係。 Primary key約束功能：primary key(主鍵約束)，一個表中只能有一個，不能有空值，不能有重覆值. 創建表時定義約束:欄位名數據類型[長度] primary key Unique約束功能：unique(唯一約束), 指定在同 ...
關於近乎安裝卡在了鏈接資料庫的嚮導頁面問題的解決辦法分享

經常有用戶遇到安裝近乎的時候，會卡在資料庫嚮導頁面。安裝環境也做了比對，沒有問題，Windows伺服器、Mysql5.0+版本的資料庫、.net framework也安裝正確了。環境沒問題，那是不是資料庫不對啊。然後又用可視化工具本地、異地遠程都能正常訪問資料庫，可仍然是卡在數據安裝的嚮導頁面，這究 ...
運用 finereport 和 oracle 結合開發報表思路大總結

近排自己學習了一款軟體finereport開發報表模塊，自己總結瞭如何瞭解需求，分析需求，再進行實踐應用開發，最後進行測試數據的準確性，部署報表到項目對應的模塊中顯示。一、需求（根據需求文檔分析） 1.條件塊： 2.數據塊（一部分）： 3.數據取值：數據源全部來自EAS。通過“物料收發事物彙總” ...
SQL server 資料庫的數據完整性

存儲在資料庫中的所有數據值均正確的狀態。如果資料庫中存儲有不正確的數據值，則該資料庫稱為已喪失數據完整性。詳細釋義詳細釋義資料庫中的數據是從外界輸入的，而數據的輸入由於種種原因，會發生輸入無效或錯誤信息。保證輸入的數據符合規定，成為了資料庫系統，尤其是多用戶的關係資料庫系統首要關註的問題 ...
java.sql.SQLSyntaxErrorException: ORA-00904: "column": 標識符無效

java.sql.SQLSyntaxErrorException: ORA-00904: "column": 標識符無效首先查看無效的列是不是orcale關鍵字 , 如果不是 , 查看與column欄位相關的所有內容 , 引用是否正確儘量不要用select 中的欄位別名當做 where 或者 o ...
mysql-高性能索引策略

獨立索引：獨立索引是指索引列不能是表達式的一部分，也不能是函數的參數例1： SELECT actor_id FROM actor WHERE actor_id+1=5 --這種寫法，就算在actor_id上建立了索引，也不起效例2: SELECT .... WHERE TO_DAYS(CURR ...
mysql-冗餘和重覆索引

mysql允許在相同列上創建多個索引，無論是有意還是無意，mysql需要單獨維護重覆的索引，並且優化器在優化查詢的時候也需要逐個地進行考慮，這會影響性能。重覆索引是指的在相同的列上按照相同的順序創建的相同類型的索引，應該避免這樣創建重覆索引，發現以後也應該立即刪除。但，在相同的列上創建不同類型的索 ...