《原創,僅供學習交流》 在關聯規則的研究中,有很多串列的演算法,經典的是Apriori演算法和FP_growth演算法。也有很多並行演算法, 如CD( count distribution ) 、DD ( data distribution ) 、CaD( candidate distribution)、F ...
《原創,僅供學習交流》
在關聯規則的研究中,有很多串列的演算法,經典的是Apriori演算法和FP_growth演算法。也有很多並行演算法,
如CD( count distribution ) 、DD ( data distribution ) 、CaD( candidate distribution)、FDM和 FMAGF等。
串列演算法的瓶頸之一是挖掘效率慢,而並行演算法解決了挖掘效率的問題,但是由於並行計算是由很多計算節點組成,存在節點失效、負載不易均衡帶來的問題。
因此,Hadoop的出現,是大數據時代進行數據挖掘的一大利器。
Hadoop是一個分散式基礎架構,可以在不瞭解分散式底層細節的情況下,開發分散式或並行應用程式,充分利用集群的威力高速運算和存儲,它也是雲計算的主要架構之一. Hadoop 具有以下特點:
1) 擴 容 能 力: 能可靠地存儲和處理PB級別數據。數據級別前面有總結。(存儲優勢)
2) 成本低: 可以通過普通電腦組成的集群來分佈處理數據。(分佈在各個Map上)
3) 高效率: 通過分發數據,Hadoop 可以並行地的處理數據,這使得處理非常的快速。(並行)
4) 可靠性:Hadoop 能自動地維護數據的多份複製,並且在任務失敗後能自動地重新部署計算任務。(有效處理節點失效和節點負載均衡方面問題)
因此,基於Hadoop平臺的並行數據挖掘是一個很好的途徑。一是基於Hadoop對經典的串列關聯規則演算法進行改進,朝並行的方向努力。而是基於Hadoop對經典的並行關聯挖掘演算法進行改進,因為基於Hadoop比單獨開發並行運行的挖掘程式簡單許多。
為的是使演算法更好的與平臺結合,達到更好的數據挖掘效果。
文獻有 CD演算法的並行化,Apriori演算法的並行化以及FP-growth演算法的並行化。(後續學習各個詳細的優化並行演算法)
展開學習:(數據結構和演算法,Hadoop基礎和高級編程,R語言基礎)