一、關聯分析的基本概念 關聯分析(Association Analysis):在大規模數據集中尋找有趣的關係。 頻繁項集(Frequent Item Sets):經常出現在一塊的物品的集合。 關聯規則(Association Rules):暗示兩個物品之間可能存在很強的關係。 支持度(Support ...
一、關聯分析的基本概念
關聯分析(Association Analysis):在大規模數據集中尋找有趣的關係。
頻繁項集(Frequent Item Sets):經常出現在一塊的物品的集合。
關聯規則(Association Rules):暗示兩個物品之間可能存在很強的關係。
支持度(Support):數據集中包含該項集的記錄所占的比例,是針對項集來說的。
例子:豆奶,橙汁,尿布和啤酒是超市中的商品。
下表呈現每筆交易以及顧客所買的商品:
由此可見,總記錄數為5,下麵求每項集的支持度(以下並沒有列出全部的支持度)。
{豆奶} :支持度為3/5.
{橙汁}:支持度為3/5.
{尿布}:支持度為3/5.
{啤酒}:支持度為4/5.
{啤酒,尿布}:支持度為3/5.
{橙汁,豆奶,啤酒}:支持度為2/5.
置信度(Confidence):出現某些物品時,另外一些物品必定出現的概率,針對規則而言。
規則1:{尿布}-->{啤酒},表示在出現尿布的時候,同時出現啤酒的概率。
該條規則的置信度被定義為:支持度{尿布,啤酒}/支持度{尿布}=(3/5)/(3/5)=3/3=1
規則2:{啤酒}-->{尿布},表示在出現啤酒的時候,同時出現尿布的概率。
該條規則的置信度被定義為:支持度{尿布,啤酒}/支持度{啤酒}=(3/5)/(4/5)=3/4
二、關聯分析步驟
1. 發現頻繁項集,即計算所有可能組合數的支持度,找出不少於人為設定的最小支持度的集合。
2. 發現關聯規則,即計算不小於人為設定的最小支持度的集合的置信度,找到不小於認為設定的最小置信度規則。
例子:豆奶,橙汁,尿布和啤酒是超市中的商品,併為其編號,豆奶0,橙汁1,尿布2,啤酒3.
可能集合數:
可能組合的個數:C4,1+C4,2+C4,3+C4,4=4+6+4+1=15種
快速計算公式:2^n-1=2^4-1=15種
步驟一:發現頻繁項集
此時,人為設定最小支持度為2/5. 以下塗黃色為大於2/5的集合。
由此找到頻繁項集。
步驟二:發現關聯規則
此時,人為設定最小置信度為3/4. 塗黃色的為大於等於3/4,塗橙色的為小於3/4.
發現關聯規則:
註:此文為記錄艾達老師的視頻而寫的筆記。