經典的關聯規則挖掘演算法Apriori和FP-growth,在大數據或者海量數據面前,由於候選集和生成的FP樹大而無法存儲到記憶體,同時也由於演算法本身單機的特點,決定了它串列處理數據的方式,這在效率上很難滿足大數據處理的要求,數據遷移到平臺需要傳輸和轉儲,在大數據面前,也是一大難題。 一般而言"關聯規則 ...
經典的關聯規則挖掘演算法Apriori和FP-growth,在大數據或者海量數據面前,由於候選集和生成的FP樹大而無法存儲到記憶體,同時也由於演算法本身單機的特點,決定了它串列處理數據的方式,這在效率上很難滿足大數據處理的要求,數據遷移到平臺需要傳輸和轉儲,在大數據面前,也是一大難題。
一般而言"關聯規則的挖掘過程分為兩步
1 找出所有的頻繁項集,根據定義這些項集的每一個頻繁出現次數至少與預定義的最小支持度計數
2 由頻繁項集產生強關聯規則。這些規則必須滿足最小支持度和最小置信度。
由於第二步的開銷遠低於第一步,挖掘關聯規則的總體性能由第一步決定,因此重點研究產生頻繁項集的過程。
已有的學者再分佈並行處理方面做得改進:
1 數據劃分思想
2 多線程記憶體共用
3 FP子樹的分佈並行處理
4 條件模式基的並行分佈挖掘
5 採用多個局部FP樹代替全局FP(二者是等價的,為了便於分佈到各個Map上)
待續。