大數據環境下，關聯規則面臨的新挑戰。

-Advertisement-

隨著互聯網、信息技術以及雲計算的高速發展，當今社會已進入了海量數據的時代。不管是移動通信、電商金融還是物聯網等各個領域，每天都會產生巨量的各種不同類型的數據。如何從這些龐大的、結構各異的、而又摻雜著大量雜訊的數據中提取出隱含在其中的具有一定意義的知識或規則，正是關聯規則提取的研究內容。傳統的關聯規 ...

隨著互聯網、信息技術以及雲計算的高速發展，當今社會已進入了海量數據的時代。不管是移動通信、電商金融還是物聯網等各個領域，每天都會產生巨量的各種不同類型的數據。如何從這些龐大的、結構各異的、而又摻雜著大量雜訊的數據中提取出隱含在其中的具有一定意義的知識或規則，正是關聯規則提取的研究內容。

傳統的關聯規則提取演算法具有本身的局限性，例如演算法認為資料庫中的數據具有相同的重要性，又如基於特定的平臺運算效率低等。因此在多源異構的大數據時代，關聯規則的提取演算法面臨著新的挑戰。

（1）數據信息量龐大並不一定代表著蘊含了同等體量的數據價值，相反這常常表明瞭數據包含的無用信息或結構過多。所以在進行數據分析之前往往需要對源數據進

行數據選擇、數據轉換等進行清洗的預處理操作。包括對臟數據（遺失或者錯誤的數據）的處理，篩選目標項等。

（2）大數據環境下，演算法應該根據使用的數據分析平臺記進行調整調整。一方面是存儲分片問題，一方面是負載均衡問題。儘管像Hadoop這樣的綜合平臺，在數據量極大的情況下，也會出現問題。

（3）數據分析結果好壞的衡量。在大數據時代下，提取出數據挖掘的結果也並不是最主要的挑戰，如何衡量分析結果的好壞才是真正的難點。結果是否解決了用戶的問題，是否為決策做出了很好的輔助，都需要進行評價。

解決上述問題之一：利用 Hadoop 集群實現經典演算法的並行化。

文獻有對Apriori演算法在Hadoop下進行並行優化的，也有對FP—growth演算法進行優化的，也有的學者將概念分層的思想應用到演算法的改進中。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Android Weekly Notes Issue #220

Android Weekly Issue #220, 中文筆記. ...
Linux下Mysql自啟動

如果你都是按照預設配置安裝的那麼只要按照如下步驟就可以了 1、cp /usr/local/mysql/support-files/mysql.server /etc/init.d/mysql 將服務文件拷貝到init.d下，並重命名為mysql 2、chmod +x /etc/init.d/mysq ...
SQLServer併發問題，先SELECT後UPDATE，避免併發臟讀情況解決

在SQL Server中，需要對數據操作進行先SELECT 之後UPDATE，對於這樣的操作，如果出現高併發，可能導致臟讀情況的發生。不能保證數據的同步。解決方案是在事物中對錶進行加更新鎖：事務一：事務二： ...
分散式並行關聯規則挖掘

經典的關聯規則挖掘演算法Apriori和FP-growth，在大數據或者海量數據面前，由於候選集和生成的FP樹大而無法存儲到記憶體，同時也由於演算法本身單機的特點，決定了它串列處理數據的方式，這在效率上很難滿足大數據處理的要求，數據遷移到平臺需要傳輸和轉儲，在大數據面前，也是一大難題。一般而言"關聯規則 ...
MySQL的存儲引擎整理

01.MyISAM 01.MyISAM MySQL 5.0 以前的預設存儲引擎。MyISAM 不支持事務、也不支持外鍵，其優勢是訪問的速度快，對事務完整性沒有要求或者以SELECT、INSERT 為主的應用基本上都可以使用這個引擎來創建表。每個MyISAM 在磁碟上存儲成3 個文件，其文件名都和表 ...
Redis(二)linux下redis安裝

上篇講解了redis在windows下的安裝，接下來看看在linux下如何安裝redis（純菜鳥入門級別）？（1）redis的下載及編譯這裡，首先進入存放文件目錄（我的雲伺服器的是：cd /jelly/redis/） wget http://download.redis.io/releases/ ...
Spark(四): Spark-sql 讀hbase

SparkSQL是指整合了Hive的spark-sql cli, 本質上就是通過Hive訪問HBase表，具體就是通過hive-hbase-handler, 具體配置參見：Hive(五):hive與hbase整合目錄： SparkSql 訪問 hbase配置測試驗證 SparkSql 訪問 hb ...
Linux下安裝mysql

1.linux版mysql下載（建議不要下5.7，安裝的時候各種bug啊，5.6是最好）到mysql官網下載mysql編譯好的二進位安裝包，在下載頁面Select Platform:選項選擇linux-generic，然後把頁面拉到底部，64位系統下載Linux - Generic (glibc ...