數據挖掘演算法——Apriori演算法

来源:https://www.cnblogs.com/Galesaur-wcy/archive/2019/03/16/10541615.html
-Advertisement-
Play Games

Apriori演算法 首先,Apriori演算法是關聯規則挖掘中很基礎也很經典的一個演算法。 轉載來自:鏈接:https://www.jianshu.com/p/26d61b83492e 所以做如下補充: 關聯規則:形如X→Y的蘊涵式,其中, X和Y分別稱為關聯規則的先導(antecedent或left- ...


Apriori演算法 

首先,Apriori演算法是關聯規則挖掘中很基礎也很經典的一個演算法。 轉載來自:鏈接:https://www.jianshu.com/p/26d61b83492e

所以做如下補充:

關聯規則:形如X→Y的蘊涵式,其中, X和Y分別稱為關聯規則的先導(antecedent或left-hand-side, LHS)和後繼(consequent或right-hand-side, RHS) 。其中,關聯規則XY,存在支持度和信任度。

   

置信度:在所有的購買了左邊商品的交易中,同時又購買了右邊商品的交易機率,包含規則兩邊商品的交易次數/包括規則左邊商品的交易次數。

   

提升度:(有這個規則和沒有這個規則是否概率會提升,規則是否有價值):無任何約束的情況下買後項的交易次數/置信度。註意:提升度必須大於1才有意義

 


進入正題啦~

Apriori的演算法思想

在Apriori演算法z中,我們通常使用支持度來作為我們判斷頻繁項集的標準。

Apriori演算法的目標是找到最大的K項頻繁集。

補充:{頻繁項集產生:其目標是發現滿足最小支持度閾值的所有項集,這些項集稱作頻繁項集(frequent itemset)}

Apriori定律1:如果一個集合是頻繁項集,則它的所有子集都是頻繁項集。

舉個慄子:假設一個集合{A,B}是頻繁項集,即A、B同時出現在一條記錄的次數大於等於最小支持度min_support,則它的子集{A},{B}出現次數必定大於等於min_support,即它的子集都是頻繁項集。

Apriori定律2:如果一個集合不是頻繁項集,則它的所有超集都不是頻繁項集。

舉個慄子:假設集合{A}不是頻繁項集,即A出現的次數小於 min_support,則它的任何超集如{A,B}出現的次數必定小於min_support,因此其超集必定也不是頻繁項集。


Apriori的演算法步驟

輸入:數據集合D,支持度閾值α

    輸出:最大的頻繁k項集

    1)掃描整個數據集,得到所有出現過的數據,作為候選頻繁1項集。k=1,頻繁0項集為空集。

    2)挖掘頻繁k項集

      a) 掃描數據計算候選頻繁k項集的支持度

      b) 去除候選頻繁k項集中支持度低於閾值的數據集,得到頻繁k項集。如果得到的頻繁k項集為空,則直接返回頻繁k-1項集的集合作為演算法結果,演算法結束。如果得到的頻繁k項集只有一項,則直接返回頻繁k項集的集合作為演算法結果,演算法結束。

      c) 基於頻繁k項集,連接生成候選頻繁k+1項集。

    3) 令k=k+1,轉入步驟2。


敲腦殼 重點來啦~

Apriori的演算法的應用

下麵這個表格是代表一個事務資料庫D,

其中最小支持度為50%,最小置信度為70%,求事務資料庫中的頻繁關聯規則。

 apriori演算法的步驟如下所示:

  (1)生成候選頻繁1-項目集C1={{麵包},{牛奶},{啤酒},{花生},{尿布}}。

  (2)掃描事務資料庫D,計算C1中每個項目集在D中的支持度。從事務資料庫D中可以得出每個項目集的支持數分別為3,3,3,1,2,事務資料庫D的項目集總數為4,因此可得出C1中每個項目集的支持度分別為75%,75%,75%,25%,50%。根據最小支持度為50%,可以得出頻繁1-項目集L1={{麵包},{牛奶},{啤酒},{尿布}}。

  (3)根據L1生成候選頻繁2-項目集C2={{麵包,牛奶},{麵包,啤酒},{麵包,尿布},{牛奶,啤酒},{牛奶,尿布},{啤酒,尿布}}。

  (4)掃描事務資料庫D,計算C2中每個項目集在D中的支持度。從事務資料庫D中可以得出每個項目集的支持數分別為3,2,1,2,1,2,事務資料庫D的項目集總數為4,因此可得出C2中每個項目集的支持度分別為75%,50%,25%,50%,25%,50%。根據最小支持度為50%,可以得出頻繁2-項目集L2={{麵包,牛奶},{麵包,啤酒},{牛奶,啤酒},{啤酒,尿布}}。

  (5)根據L2生成候選頻繁3-項目集C3={{麵包,牛奶,啤酒},{麵包,牛奶,尿布},{麵包,啤酒,尿布},{牛奶,啤酒,尿布}},由於C3中項目集{麵包,牛奶,尿布}中的一個子集{牛奶,尿布}是L2中不存在的,因此可以去除。同理項目集{麵包,啤酒,尿布}、{牛奶,啤酒,尿布}也可去除。因此C3={麵包,牛奶,啤酒}。

補充:到這邊  這邊已經是頻繁最大項了 所以在這裡面就可以計算他們的置信度

  (6)掃描事務資料庫D,計算C3中每個項目集在D中的支持度。從事務資料庫D中可以得出每個項目集的支持數分別為2,事務資料庫D的項目集總數為4,因此可得出C2中每個項目集的支持度分別為50%。根據最小支持度為50%,可以得出頻繁3-項目集L3={{麵包,牛奶,啤酒}}。

  (7)L=L1UL2UL3={{麵包},{牛奶},{啤酒},{尿布},{麵包,牛奶},{麵包,啤酒},{牛奶,啤酒},{啤酒,尿布},{麵包,牛奶,啤酒}}。

  (8)我們只考慮項目集長度大於1的項目集,例如{麵包,牛奶,啤酒},它的所有非真子集{麵包},{牛奶},{啤酒},{麵包,牛奶},{麵包,啤酒},{牛奶,啤酒},分別計算關聯規則{麵包}—>{牛奶,啤酒},{牛奶}—>{麵包,啤酒},{啤酒}—>{麵包,牛奶},{麵包,牛奶}—>{啤酒},{麵包,啤酒}—>{牛奶},{牛奶,啤酒}—>{麵包}的置信度,其值分別為67%,67%,67%,67%,100%,100%。由於最小置信度為70%,可得},{麵包,啤酒}—>{牛奶},{牛奶,啤酒}—>{麵包}為頻繁關聯規則。也就是說買麵包和啤酒的同時肯定會買牛奶,買牛奶和啤酒的同時也是會買麵包。

由這個例子可以看出apriori主要是根據 最小支持度來判斷的 逐步遞進

but~這其中也有一些缺點: 從演算法的步驟可以看出,Aprior演算法每輪迭代都要掃描數據集,因此在數據集很大,數據種類很多的時候,演算法效率很低。

 

參考:關於apriori演算法的一個簡單的例子 - 寧靜之家 - 博客園


附相關解釋圖:



轉載來自:鏈接:https://www.jianshu.com/p/26d61b83492e

呃呃呃背了兩節課單詞   突然課堂交作業。。。不到10分鐘學完Apriori演算法 別說了我和我朋友真牛逼需要補充的就是

計算置信度的話。。。。比如 啤酒牛奶->麵包  分子是麵包出現的次數 /(啤酒牛奶同時出現)的次數   這邊沒有搞清楚。。

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 本節內容主要介紹Linux操作系統的主要特性,包括Linux與Windows操作系統的主要區別;Linux系統的分類;開發環境的推薦;Linux操作系統的安裝;Linux系統下開發環境的安裝和配置。 1、Linux和Windows的主要不同點: 1)開放性的不同。Linux系統自從1991年10月5 ...
  • 人工智慧下智能家居解決方案 今天先到這兒,希望對您技術領導力, 企業管理,物聯網, 系統架構設計與評估,團隊管理, 項目管理, 產品管理,團隊建設 有參考作用 , 您可能感興趣的文章: 2017-2018年Scrum狀態調查報告2016年測試狀態調查2017年IT行業測試調查報告項目管理-習慣發生範... ...
  • 初識MakefIle 在學習Linux過程中,我越發的覺得Linux系統給了使用者更大的自由,同時也就增加了學習的成本。在gcc下去調試代碼,沒有了熟悉的VS,沒有的人性話的錯誤提示(當然Makefile是有錯誤提示和警告的),也沒有一鍵編譯。全得自己來,但是在這個過程中,你將會熟悉系統的整個編譯過 ...
  • crontab: * * * * * [user] command分 時 日 月 周 [用戶] 命令 第1列表示分鐘0~59 每分鐘用*或者 */1表示第2列表示小時0~23(0表示0點)第3列表示日期1~31第4列表示月份1~12第5列標識號星期0~7(0或7表示星期天)第6列要運行的命令 -e ...
  • 在本節中,我們將講述抓取政府官網地方新聞。並將抓取的新聞數據融入到以下兩張數據表news_site和news中。 ...
  • 數據完整性主要指的是數據的精確性和可靠性,目的就是為了防止資料庫中存放的數值,以及字元具有合法性(即按照管理員定義的規則進行存放) 分為以下四類: 實體完整性要求每一個表中的主鍵欄位都不能為空或者重覆的值。實體完整性指表中行的完整性。要求表中的所有行都有唯一的標識符,稱為主關鍵字。主關鍵字是否可以修 ...
  • 1.給表添加列 預設情況下,添加的列會添加到最後一列。 如果要求添加到指定位置,語句如下: 如果想要添加到第一列,語句如下: 如果要求不可為空,語句如下: 2.給表添加註釋 3.給列添加註釋 以上語句是給supplier_seller表的company_name列添加註釋:供應主體名稱 4.參考鏈接 ...
  • 首先,新建數據表aaa、bbb以及他們相關聯的數據表avb;欄位名如下圖 填充點數據,如下: 上面設計表的時候,故意在兩個表中有相同欄位con,如果不做處理的話,在php程式中,看看什麼情況?得到的結果集中的con是aaa表的,還是avb表的? 如果將aaa LEFT JOIN avb 改為 avb ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...