Apriori演算法 首先,Apriori演算法是關聯規則挖掘中很基礎也很經典的一個演算法。 轉載來自:鏈接:https://www.jianshu.com/p/26d61b83492e 所以做如下補充: 關聯規則:形如X→Y的蘊涵式,其中, X和Y分別稱為關聯規則的先導(antecedent或left- ...
Apriori演算法
首先,Apriori演算法是關聯規則挖掘中很基礎也很經典的一個演算法。 轉載來自:鏈接:https://www.jianshu.com/p/26d61b83492e
所以做如下補充:
關聯規則:形如X→Y的蘊涵式,其中, X和Y分別稱為關聯規則的先導(antecedent或left-hand-side, LHS)和後繼(consequent或right-hand-side, RHS) 。其中,關聯規則XY,存在支持度和信任度。
置信度:在所有的購買了左邊商品的交易中,同時又購買了右邊商品的交易機率,包含規則兩邊商品的交易次數/包括規則左邊商品的交易次數。
提升度:(有這個規則和沒有這個規則是否概率會提升,規則是否有價值):無任何約束的情況下買後項的交易次數/置信度。註意:提升度必須大於1才有意義。
進入正題啦~
Apriori的演算法思想
在Apriori演算法z中,我們通常使用支持度來作為我們判斷頻繁項集的標準。
Apriori演算法的目標是找到最大的K項頻繁集。
補充:{頻繁項集產生:其目標是發現滿足最小支持度閾值的所有項集,這些項集稱作頻繁項集(frequent itemset)}
Apriori定律1:如果一個集合是頻繁項集,則它的所有子集都是頻繁項集。
舉個慄子:假設一個集合{A,B}是頻繁項集,即A、B同時出現在一條記錄的次數大於等於最小支持度min_support,則它的子集{A},{B}出現次數必定大於等於min_support,即它的子集都是頻繁項集。
Apriori定律2:如果一個集合不是頻繁項集,則它的所有超集都不是頻繁項集。
舉個慄子:假設集合{A}不是頻繁項集,即A出現的次數小於 min_support,則它的任何超集如{A,B}出現的次數必定小於min_support,因此其超集必定也不是頻繁項集。
Apriori的演算法步驟
輸入:數據集合D,支持度閾值α
輸出:最大的頻繁k項集
1)掃描整個數據集,得到所有出現過的數據,作為候選頻繁1項集。k=1,頻繁0項集為空集。
2)挖掘頻繁k項集
a) 掃描數據計算候選頻繁k項集的支持度
b) 去除候選頻繁k項集中支持度低於閾值的數據集,得到頻繁k項集。如果得到的頻繁k項集為空,則直接返回頻繁k-1項集的集合作為演算法結果,演算法結束。如果得到的頻繁k項集只有一項,則直接返回頻繁k項集的集合作為演算法結果,演算法結束。
c) 基於頻繁k項集,連接生成候選頻繁k+1項集。
3) 令k=k+1,轉入步驟2。
敲腦殼 重點來啦~
Apriori的演算法的應用
下麵這個表格是代表一個事務資料庫D,
其中最小支持度為50%,最小置信度為70%,求事務資料庫中的頻繁關聯規則。
apriori演算法的步驟如下所示:
(1)生成候選頻繁1-項目集C1={{麵包},{牛奶},{啤酒},{花生},{尿布}}。
(2)掃描事務資料庫D,計算C1中每個項目集在D中的支持度。從事務資料庫D中可以得出每個項目集的支持數分別為3,3,3,1,2,事務資料庫D的項目集總數為4,因此可得出C1中每個項目集的支持度分別為75%,75%,75%,25%,50%。根據最小支持度為50%,可以得出頻繁1-項目集L1={{麵包},{牛奶},{啤酒},{尿布}}。
(3)根據L1生成候選頻繁2-項目集C2={{麵包,牛奶},{麵包,啤酒},{麵包,尿布},{牛奶,啤酒},{牛奶,尿布},{啤酒,尿布}}。
(4)掃描事務資料庫D,計算C2中每個項目集在D中的支持度。從事務資料庫D中可以得出每個項目集的支持數分別為3,2,1,2,1,2,事務資料庫D的項目集總數為4,因此可得出C2中每個項目集的支持度分別為75%,50%,25%,50%,25%,50%。根據最小支持度為50%,可以得出頻繁2-項目集L2={{麵包,牛奶},{麵包,啤酒},{牛奶,啤酒},{啤酒,尿布}}。
(5)根據L2生成候選頻繁3-項目集C3={{麵包,牛奶,啤酒},{麵包,牛奶,尿布},{麵包,啤酒,尿布},{牛奶,啤酒,尿布}},由於C3中項目集{麵包,牛奶,尿布}中的一個子集{牛奶,尿布}是L2中不存在的,因此可以去除。同理項目集{麵包,啤酒,尿布}、{牛奶,啤酒,尿布}也可去除。因此C3={麵包,牛奶,啤酒}。
補充:到這邊 這邊已經是頻繁最大項了 所以在這裡面就可以計算他們的置信度
(6)掃描事務資料庫D,計算C3中每個項目集在D中的支持度。從事務資料庫D中可以得出每個項目集的支持數分別為2,事務資料庫D的項目集總數為4,因此可得出C2中每個項目集的支持度分別為50%。根據最小支持度為50%,可以得出頻繁3-項目集L3={{麵包,牛奶,啤酒}}。
(7)L=L1UL2UL3={{麵包},{牛奶},{啤酒},{尿布},{麵包,牛奶},{麵包,啤酒},{牛奶,啤酒},{啤酒,尿布},{麵包,牛奶,啤酒}}。
(8)我們只考慮項目集長度大於1的項目集,例如{麵包,牛奶,啤酒},它的所有非真子集{麵包},{牛奶},{啤酒},{麵包,牛奶},{麵包,啤酒},{牛奶,啤酒},分別計算關聯規則{麵包}—>{牛奶,啤酒},{牛奶}—>{麵包,啤酒},{啤酒}—>{麵包,牛奶},{麵包,牛奶}—>{啤酒},{麵包,啤酒}—>{牛奶},{牛奶,啤酒}—>{麵包}的置信度,其值分別為67%,67%,67%,67%,100%,100%。由於最小置信度為70%,可得},{麵包,啤酒}—>{牛奶},{牛奶,啤酒}—>{麵包}為頻繁關聯規則。也就是說買麵包和啤酒的同時肯定會買牛奶,買牛奶和啤酒的同時也是會買麵包。
由這個例子可以看出apriori主要是根據 最小支持度來判斷的 逐步遞進
but~這其中也有一些缺點: 從演算法的步驟可以看出,Aprior演算法每輪迭代都要掃描數據集,因此在數據集很大,數據種類很多的時候,演算法效率很低。
參考:關於apriori演算法的一個簡單的例子 - 寧靜之家 - 博客園
附相關解釋圖:
轉載來自:鏈接:https://www.jianshu.com/p/26d61b83492e
呃呃呃背了兩節課單詞 突然課堂交作業。。。不到10分鐘學完Apriori演算法 別說了我和我朋友真牛逼需要補充的就是
計算置信度的話。。。。比如 啤酒牛奶->麵包 分子是麵包出現的次數 /(啤酒牛奶同時出現)的次數 這邊沒有搞清楚。。