關聯分析演算法-基本概念、關聯分析步驟

来源:http://www.cnblogs.com/yidansheng/archive/2017/05/15/6855549.html
-Advertisement-
Play Games

一、關聯分析的基本概念 關聯分析(Association Analysis):在大規模數據集中尋找有趣的關係。 頻繁項集(Frequent Item Sets):經常出現在一塊的物品的集合。 關聯規則(Association Rules):暗示兩個物品之間可能存在很強的關係。 支持度(Support ...


一、關聯分析的基本概念

關聯分析(Association Analysis):在大規模數據集中尋找有趣的關係。

頻繁項集(Frequent Item Sets):經常出現在一塊的物品的集合。

關聯規則(Association Rules):暗示兩個物品之間可能存在很強的關係。

 

支持度(Support):數據集中包含該項集的記錄所占的比例,是針對項集來說的。

例子:豆奶,橙汁,尿布和啤酒是超市中的商品。

下表呈現每筆交易以及顧客所買的商品:

由此可見,總記錄數為5,下麵求每項集的支持度(以下並沒有列出全部的支持度)。

{豆奶} :支持度為3/5.

{橙汁}:支持度為3/5.

{尿布}:支持度為3/5.

{啤酒}:支持度為4/5.

{啤酒,尿布}:支持度為3/5.

{橙汁,豆奶,啤酒}:支持度為2/5.

 

置信度(Confidence):出現某些物品時,另外一些物品必定出現的概率,針對規則而言。

   規則1:{尿布}-->{啤酒},表示在出現尿布的時候,同時出現啤酒的概率。

   該條規則的置信度被定義為:支持度{尿布,啤酒}/支持度{尿布}=(3/5)/(3/5)=3/3=1

 

   規則2:{啤酒}-->{尿布},表示在出現啤酒的時候,同時出現尿布的概率。

   該條規則的置信度被定義為:支持度{尿布,啤酒}/支持度{啤酒}=(3/5)/(4/5)=3/4

 

 

二、關聯分析步驟

1. 發現頻繁項集,即計算所有可能組合數的支持度,找出不少於人為設定的最小支持度的集合。

2. 發現關聯規則,即計算不小於人為設定的最小支持度的集合的置信度,找到不小於認為設定的最小置信度規則。

 

例子:豆奶,橙汁,尿布和啤酒是超市中的商品,併為其編號,豆奶0,橙汁1,尿布2,啤酒3.

 

可能集合數:

可能組合的個數:C4,1+C4,2+C4,3+C4,4=4+6+4+1=15種

快速計算公式:2^n-1=2^4-1=15種

 

步驟一:發現頻繁項集

此時,人為設定最小支持度為2/5. 以下塗黃色為大於2/5的集合。

 由此找到頻繁項集。

步驟二:發現關聯規則

 

 

 此時,人為設定最小置信度為3/4. 塗黃色的為大於等於3/4,塗橙色的為小於3/4.

 發現關聯規則:

 

 

 

註:此文為記錄艾達老師的視頻而寫的筆記。

 

 

 

 

 

 

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 載入方式:com載入項載入方法: 點擊Excel界面【文件】→【選項】→【載入項】→【COM載入項】→【轉到】 Excel2013載入PowerView Excel216PowerQuery不需要載入,在數據標簽下: 16載入完成界面 PowerPivot 說明:13、16版本集成 10版下載地址: ...
  • " 1、類型 " "1.1、屬性類型" "1.2、記錄類型" " 2、變數 " "2.1、變數類型" "2.2、變數定義" "2.3、變數賦值" " 3、結構 " "3.1、順序結構" "3.2、選擇結構" "3.3、迴圈結構" " 4、總結 " 1、類型 在 "《.Net程式員學用Oracle系列 ...
  • 摘要: 1、在mysql中執行下句成功,可添加中文的。insert into book(bookName,author,publish) values('好','hao','hao'); 但是在jsp中執行這個insert 語句就會出現亂碼。 1、在mysql中執行下句成功,可添加中文的。 inse ...
  • 3. Yarn-Cluster Yarn是一種統一資源管理機制,可以在上面運行多種計算框架。Spark on Yarn模式分為兩種:Yarn-Cluster和Yarn-Client,前者Driver運行在Worker節點,後者Driver運行在Client節點上。採用Spark on Yarn模式, ...
  • 進程的狀態轉換 在說明SOS_SCHEDULER_YIELD等待之前,先簡要介紹一下進程的狀態(迷迷糊糊記得操作系統原理課上講過,三態五態轉換的,比下麵這個圖要複雜,大部分都還給老師了)。 如下圖,分別是:運行態,阻塞態,就緒態。各個狀態之間的轉換關係及粗略原因如下: 運行態-->阻塞態,原因:等待 ...
  • 在學習段(segment)、區間(extent)時,對段的HEADER_BLOCK有一些疑問,本文記錄一下探究的實驗過程以及相關總結,,如有不對的地方,敬請指出。以SCOTT.EMP表為例(下麵測試環境為Oracle Database 10g Release 10.2.0.5.0 - 64bit P... ...
  • Spark一共有5種運行模式:Local,Standalone,Yarn-Cluster,Yarn-Client和Mesos。 1. Local Local模式即單機模式,如果在命令語句中不加任何配置,則預設是Local模式,在本地運行。這也是部署、設置最簡單的一種模式 2. Standalone ...
  • HDFS 架構簡述 Hadoop分散式文件系統(HDFS)是一個分散式的文件系統,運行在廉價的硬體上。它與現有的分散式文件系統有很多相似之處。然而與其他的分散式文件系統的差異也是顯著的。HDFS是高容錯的,被設計成在低成本硬體上部署。HDFS為應用數據提供高吞吐量的訪問,適用於具有大規模數據集的應用 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...