隨著互聯網、信息技術以及雲計算的高速發展,當今社會已進入了海量數據的時代。不管是移動通信、電商金融還是物聯網等各個領域,每天都會產生巨量的各種不同類型的數據。如何從這些龐大的、結構各異的、而又摻雜著大量雜訊的數據中提取出隱含在其中的具有一定意義的知識或規則,正是關聯規則提取的研究內容。 傳統的關聯規 ...
隨著互聯網、信息技術以及雲計算的高速發展,當今社會已進入了海量數據的時代。不管是移動通信、電商金融還是物聯網等各個領域,每天都會產生巨量的各種不同類型的數據。如何從這些龐大的、結構各異的、而又摻雜著大量雜訊的數據中提取出隱含在其中的具有一定意義的知識或規則,正是關聯規則提取的研究內容。
傳統的關聯規則提取演算法具有本身的局限性,例如演算法認為資料庫中的數據具有相同的重要性,又如基於特定的平臺運算效率低等。因此在多源異構的大數據時代,關聯規則的提取演算法面臨著新的挑戰。
(1)數據信息量龐大並不一定代表著蘊含了同等體量的數據價值,相反這常常表明瞭數據包含的無用信息或結構過多。所以在進行數據分析之前往往需要對源數據進
行數據選擇、數據轉換等進行清洗的預處理操作。包括對臟數據(遺失或者錯誤的數據)的處理,篩選目標項等。
(2)大數據環境下,演算法應該根據使用的數據分析平臺記進行調整調整。一方面是存儲分片問題,一方面是負載均衡問題。儘管像Hadoop這樣的綜合平臺,在數據量極大的情況下,也會出現問題。
(3)數據分析結果好壞的衡量。在大數據時代下,提取出數據挖掘的結果也並不是最主要的挑戰,如何衡量分析結果的好壞才是真正的難點。結果是否解決了用戶的問題,是否為決策做出了很好的輔助,都需要進行評價。
解決上述問題之一:利用 Hadoop 集群實現經典演算法的並行化。
文獻有對Apriori演算法在Hadoop下進行並行優化的,也有對FP—growth演算法進行優化的,也有的學者將概念分層的思想應用到演算法的改進中。