apriori演算法的簡介和改進總結

-Advertisement-

頻繁項集的非空子集也必須是頻繁項集非頻繁項集的任一超集也必然不是頻繁項集如果K-維頻繁項集集合中包含單個項目i的個數小於K-1,則i不可能在頻繁K項集中（apriori演算法中並沒有用到這個性質，可以藉助這個性質來進行優化，性質會在後面舉例） ...

apriori演算法的簡介：
1. 利用的相關性質：
  - 頻繁項集的非空子集也必須是頻繁項集
  - 非頻繁項集的任一超集也必然不是頻繁項集
  - 如果K-維頻繁項集集合中包含單個項目i的個數小於K-1,則i不可能在頻繁K項集中（apriori演算法中並沒有用到這個性質，可以藉助這個性質來進行優化，性質會在後面舉例）
2. 演算法的主要思想是：
  1. 第一步，通過迭代，檢索出食物資料庫給中所有的頻繁項集，主要依據用戶設定的最小支持度的閾值
  2. 第二步，用頻繁項集構造出滿足用戶最小信任度的關聯規則。其中第一步是占演算法的主要計算部分，我們也主要研究的是第一步。
3. 迭代過程主要分為連接和剪枝兩個步驟：（由k-1維項集產生K維項集
  1. 連接：兩個項集的前K-2項相同，最後的K-1項不同，則連接產生的K維項集就是前K-2項加上兩個項集中不同的項
  2. 剪枝：利用性質一和性質二：如果新產生的項集有存在一個子集不在K-1維的頻繁項集中，則刪掉該新產生的項集
4. 演算法的偽代碼
  
  在第三步產生新的項集之後，需要統計每個項集的頻度，主要採取的演算法是，對資料庫中的每個條目，遍歷一遍候選項集，對每個包含該條目的候選項集計數加一。這樣的話需要重新掃描一遍資料庫，產生大量的計算
演算法的問題：
1. 在計算項目集的支持度時需要對資料庫的全部記錄進行一遍掃描比較，一般情況下資料庫的規模會很龐大，這樣會極大的增加系統的I/O開銷。
2. 在每一步中，產生候選項集時迴圈產生的組合過多，沒有排除不應該參與組合的元素，即沒有用到性質三
優化：主要考慮三個方面
1. 第一，資料庫的壓縮，如果一個條目（或者說項目）不包含任何一個K-項集，那麼它不可能包含任何一個K+1項集，即在下一次的遍曆數據庫時，不需要再去對該條目進行檢查（通常做法是刪除該條目，或者將這個條目做上標記）。
2. 第二，縮小候選項集的個數，即動態項集計數。在某個條目的統計之後，如果發現某個候選項集的計數已經滿足了最小支持度，那麼可以將這個項集直接放入到頻繁項集中，這樣以後就不用對該項集進行計數了
3. 第三，在連接的步驟之前，先對項集進行利用性質三進行篩選，提前刪除不滿足的項集。對K-1項項集中的每一個元素進行計數，若某個元素的個數小於K-1，則將K-1項集中刪除包含該元素的項集。這樣可以極大的減小了可能產生的候選項集的數量。
優化的步驟如下：

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

一步步搭建react-native環境(蘋果OS X)

因重新升級了系統，一步步搭建react-native環境。 1、安裝Homebrew 打開終端命令->ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)" (註：ruby命令 ...
一些常用網址

本人博客園首頁 http://home.cnblogs.com/u/liuenwen/ 這兒收集一些實在常用的網站，希望各位看到的朋友，如果有好的網站，希望您分享在評價里，大家一起學習！！！ github的官網： https://github.com/ github裡面一些常用第三方的集合 http ...
設置 TabBarItem 選中時的圖片及文字顏色

TabBarController 是在 ios 開發過程中使用較為頻繁的一個 Controller，但是在使用過程中經常會遇到一些問題，例如本文所要解決的，如何修改 TabBar 選中時文字及圖片的顏色。如果需要，可以從這裡下載完整的代碼。首先，我們創建一個新的項目，使用 TabBarContr ...
4.3 多線程進階篇<中>（GCD）

 更正：隊列名稱的作用的圖中，箭頭標註的有些問題，已修正 1.0 GCD簡介 GCD概念 :（Grand Central Dispatch）可譯為“偉大的中樞調度器” 純C語言，提供 ...
IOS 雜筆－15（知識小點 readonly）

readonly是我們並不陌生的屬性。但是他也有值得我們註意的地。屬性如其名－只讀－也就是說我們只能讀取－不能進行寫操作當我們嘗試進行寫操作時會如下但是這並不意味著我們不可以改變其內部的屬性 height 里有一個height屬性，我們嘗試對其賦值並沒有提示任何錯誤－由此可以得出對於re ...
Oracle存儲過程基本語法介紹

Oracle存儲過程基本語法存儲過程 1 CREATE OR REPLACE PROCEDURE 存儲過程名 2 IS 3 BEGIN 4 NULL; 5 END; 行1: CREATE OR REPLACE PROCEDURE 是一個SQL語句通知Oracle資料庫去創建一個叫做skeleton ...
oracle的事務

...
資料庫知識

1 關於資料庫索引主索引是候選索引的特例，能唯一標識一條記錄，只能由一個欄位組成。一個表只能建立一個主索引。主索引的關鍵字絕對不允許有重覆值。 2.候選索引也能唯一標識一條記錄，但不一定只由一個欄位組成，可以由兩個或兩個以上欄位組成，一個表可以建立多個候選索引。它的值也不允許在指定的欄位或 ...