用Python關聯規則挖掘情侶、基友、渣男和狗

来源:https://www.cnblogs.com/123456feng/archive/2022/03/28/16067299.html
-Advertisement-
Play Games

首先 每個人都會有一段特別懷念而又難忘的時光吧,我到現在依然記得大學時光的美好。讓我們一起來懷念一下時光吧。今天這個故事從一張校園卡開始,相信很多小伙伴們都用過校園卡,它是一種其個人身份認證、校園消費、數據共用等多功能於一體的校園信息集成與管理系統。在它裡面存儲著大量的數據,包含:學生消費、宿舍門禁 ...


首先

每個人都會有一段特別懷念而又難忘的時光吧,我到現在依然記得大學時光的美好。讓我們一起來懷念一下時光吧。
今天這個故事從一張校園卡開始,相信很多小伙伴們都用過校園卡,它是一種其個人身份認證、校園消費、數據共用等多功能於一體的校園信息集成與管理系統。在它裡面存儲著大量的數據,包含:學生消費、宿舍門禁、圖書館進出等。

這篇文章使用的是南京某高校學生一卡通在2019年4月1-20號的消費明細數據,從統計可視化分析、關聯規則分析,發現學生一卡通的使用情況和學生當中的情侶、基友、閨蜜、渣男和單身狗等有趣信息。
在這裡插入圖片描述

使用的數據集地址如下:https://github.com/Nicole456/Analysis-of-students-consumption-behavior-on-campus

導入數據 

#####Python學習交流群:906715085###
import pandas as pd
import numpy as np
import datetime 
import plotly_express as px
import plotly.graph_objects as go

 

1、數據1:每個學生的校園卡基本信息

在這裡插入圖片描述

在這裡插入圖片描述

在這裡插入圖片描述

2、數據2:校園卡每次消費和充值的明細數據

在這裡插入圖片描述

3、數據3:門禁明細數據

在這裡插入圖片描述

數據大小

In [8]:
print("df1: ", df1.shape)
print("df2: ", df2.shape)
print("df3: ", df3.shape)
df1:  (4341, 5)
df2:  (519367, 14)
df3:  (43156, 6)

 

缺失值

 # 每列缺失值
df1.isnull().sum() 
#每列的缺失值占比
df2.apply(lambda x : sum(x.isnull())/len(x), axis=0)

 

人數對比

在這裡插入圖片描述

不同性別人數

在這裡插入圖片描述

在這裡插入圖片描述

不同專業人數

In [16]:
df5 = df1["Major"].value_counts().reset_index()

df5.columns = ["Major","Number"]
df5.head()

 

在這裡插入圖片描述

在這裡插入圖片描述

不同專業不同性別人數

In [18]:

df6 = df1.groupby(["Major","Sex"])["CardNo"].count().reset_index()
df6.head()

 

在這裡插入圖片描述
在這裡插入圖片描述
在這裡插入圖片描述

fig = px.treemap(
    df6,
    path=[px.Constant("all"),"Major","Sex"],  # 重點:傳遞數據路徑
    values="CardNo",
    color="Major"   # 指定顏色變化的參數
)

fig.update_traces(root_color="maroon")
# fig.update_traces(textposition="top right")
fig.update_layout(margin=dict(t=30,l=20,r=25,b=30))

fig.show()

 

在這裡插入圖片描述

進出門禁信息

地址信息

In [21]:

#1、處理address

address = df3["Address"].str.extract(r"(?P<Address_New>[\w]+)\[(?P<Out_In>[\w]+)\]")
address

 

在這裡插入圖片描述

在這裡插入圖片描述

在這裡插入圖片描述

進出門禁時間

In [25]:

df8 = pd.merge(df3,df1,on="AccessCardNo")
df8.loc[:,'Date'] = pd.to_datetime(df8.loc[:,'Date'],format='%Y/%m/%d %H:%M',errors='coerce')

df8["Hour"] = df8["Date"].dt.hour
#df8["Minute"] = df8["Date"].dt.minute

#進出門禁人數統計/小時
df9 = df8.groupby(["Hour","Out_In"]).agg({"AccessCardNo":"count"}).reset_index()
df9.head()

 

在這裡插入圖片描述

#準備畫布
fig = go.Figure()

#添加不同的數據
fig.add_trace(go.Scatter(  
    x=df9.query("Out_In == '出門'")["Hour"].tolist(),
    y=df9.query("Out_In == '出門'")["AccessCardNo"].tolist(),
    mode='lines + markers', # mode模式選擇
    name='出門')) # 名字

fig.add_trace(go.Scatter(  
    x=df9.query("Out_In == '進門'")["Hour"].tolist(),
    y=df9.query("Out_In == '進門'")["AccessCardNo"].tolist(),
    mode='lines + markers', 
    name='進門')) 

fig.show()

 

在這裡插入圖片描述

消費信息

In [30]:

#數據合併  只取出兩個欄位:卡號和性別

df10 = pd.merge(df2,df1[["CardNo","Sex"]],on="CardNo")

 

合併信息

In [32]:

df10["Card_Sex"] = df10["CardNo"].apply(lambda x: str(x)) + "_" + df10["Sex"]

 

主要地點

In [33]:

#Card_Sex:統計消費人次
#Money:統計消費金額

df11 = (df10.groupby("Dept").agg({"Card_Sex":"count","Money":sum})
        .reset_index().sort_values("Money",ascending=False))

df11.head(10)

 

在這裡插入圖片描述

fig = px.bar(df11,x="Dept",y="Card_Sex")
fig.update_layout(title_text='不同地方的消費人數',xaxis_tickangle=45) 

fig.show()

 

在這裡插入圖片描述

fig = px.bar(df11,x="Dept",y="Money")
fig.update_layout(title_text='不同地方的消費金額',xaxis_tickangle=45) 

fig.show()

 

在這裡插入圖片描述

關聯規則挖掘

時間處理

時間處理主要是兩個點:

•時間格式的轉換

•時間離散化:每5分鐘一個類型

在這裡我們預設:如果兩個時間在同一個類型中,認為兩人在一起消費

import datetime

def change_time(x):
    # 轉成標準時間格式
    result = str(datetime.datetime.strptime(x, "%Y/%m/%d %H:%M"))
    return result

def time_five(x):
    # ‘2022-02-24 15:46:09’ ---> '2022-02-24 15_9'
    res1 = x.split(":")[0]
    res2 = str(round(int(x.split(":")[1]) / 5))
    return res1 + "_" + res2
  
  
df10["New_Date"] = df10["Date"].apply(change_time)
df10["New_Date"] = df10["New_Date"].apply(time_five)
df10.head(3)

 

在這裡插入圖片描述

提起每個時間類型的人員信息:

#方式1

df11 = df10.groupby(["New_Date"])["Card_Sex"].apply(list).reset_index()
#每個列表中的元素去重
df11["Card_Sex"] = df11["Card_Sex"].apply(lambda x: list(set(x)))
all_list = df11["Card_Sex"].tolist()

#方式2
#all_list = []
#for i in df10["New_Date"].unique().tolist():
#lst = df10[df10["New_Date"] == i]["Card_Sex"].unique().tolist()
#all_list.append(lst)

 

在這裡插入圖片描述

頻繁項集尋找

In [44]:

import efficient_apriori as ea
#itemsets:頻繁項  rules:關聯規則
itemsets, rules = ea.apriori(all_list,
                min_support=0.005,  
                min_confidence=1
               )

 

一個人

一個人消費的數據最多:2565條數據,單身畢竟多!

len(itemsets[1])  # 2565條

#部分數據
{('181539_男',): 52,
 ('180308_女',): 47,
 ('183262_女',): 100,
 ('182958_男',): 88,
 ('180061_女',): 83,
 ('182936_男',): 80,
 ('182931_男',): 87,
 ('182335_女',): 60,
 ('182493_女',): 75,
 ('181944_女',): 67,
 ('181058_男',): 93,
 ('183391_女',): 63,
 ('180313_女',): 82,
 ('184275_男',): 69,
 ('181322_女',): 104,
 ('182391_女',): 57,
 ('184153_女',): 31,
 ('182711_女',): 40,
 ('181594_女',): 36,
 ('180193_女',): 84,
 ('184263_男',): 61,

 

兩個人

len(itemsets[2])  # 378條

在這裡插入圖片描述

查看了全部的數據,統計了下麵的結果:

('180433_男', '180499_女'): 34
#可疑渣男1    
('180624_男', '181013_女'): 36,
('180624_男', '181042_女'): 37,
#可疑渣男2
('181461_男', '180780_女'): 38,    
('181461_男', '180856_女'): 34,
    
('181597_男', '183847_女'): 44,
    
('181699_男', '181712_女'): 31,
    
('181889_男', '180142_女'): 33,
#可疑渣男3:NB
('182239_男', '182304_女'): 39,
('182239_男', '182329_女'): 40,
('182239_男', '182340_女'): 37,
('182239_男', '182403_女'): 35,
    
('182873_男', '182191_女'): 31,

('183343_男', '183980_女'): 44,

 

1、可疑男生1-180624

回到原始數據,查看他和不同女生在時間上消費的交集情況。

(1)和女生181013的交集:

•4月1號早上7.36:應該是一起吃了早餐;11點54一起吃了午飯

•4.10、4.12等不同時間點的交集

在這裡插入圖片描述

在這裡插入圖片描述

在這裡插入圖片描述

(2)和女生181042的交集:

在這裡插入圖片描述

2、看看可疑的渣男3

這哥們實在是厲害呀~數據挖掘顯示居然和4個女生同時存在一定的關聯!

('182239_男', '182304_女'): 39
('182239_男', '182329_女'): 40
('182239_男', '182340_女'): 37
('182239_男', '182403_女'): 35

 

除了可能的男女朋友關係,在2元數據中更多的是基友或者閨蜜:

('180450_女', '180484_女'): 35,
('180457_女', '180493_女'): 31,
('180460_女', '180496_女'): 31,
('180493_女', '180500_女'): 47,
('180504_女', '180505_女'): 43,
('180505_女', '180506_女'): 35,
('180511_女', '181847_女'): 42,
('180523_男', '182415_男'): 34,
('180526_男', '180531_男'): 33,
('180545_女', '180578_女'): 41,
('180545_女', '180615_女'): 47,
('180551_女', '180614_女'): 31,
('180555_女', '180558_女'): 36,
('180572_女', '180589_女'): 31,
('181069_男', '181103_男'): 44,
('181091_男', '181103_男'): 33,
('181099_男', '181102_男'): 31,
('181099_男', '181107_男'): 34,
('181102_男', '181107_男'): 35,
('181112_男', '181117_男'): 43,
('181133_男', '181136_男'): 52,
('181133_男', '181571_男'): 45,
('181133_男', '181582_男'): 33,

 

3-4個人

3-4元的數據可能是一個宿舍的同學或者朋友一起的,相對數量會比較少:

len(itemsets[3])  # 18條

{('180363_女', '181876_女', '183979_女'): 40,
 ('180711_女', '180732_女', '180738_女'): 35,
 ('180792_女', '180822_女', '180849_女'): 35,
 ('181338_男', '181343_男', '181344_男'): 40,
 ('181503_男', '181507_男', '181508_男'): 33,
 ('181552_男', '181571_男', '181582_男'): 39,
 ('181556_男', '181559_男', '181568_男'): 35,
 ('181848_女', '181865_女', '181871_女'): 35,
 ('182304_女', '182329_女', '182340_女'): 36,
 ('182304_女', '182329_女', '182403_女'): 32,
 ('183305_女', '183308_女', '183317_女'): 32,
 ('183419_女', '183420_女', '183422_女'): 49,
 ('183419_女', '183420_女', '183424_女'): 45,
 ('183419_女', '183422_女', '183424_女'): 48,
 ('183420_女', '183422_女', '183424_女'): 51,
 ('183641_女', '183688_女', '183690_女'): 32,
 ('183671_女', '183701_女', '183742_女'): 35,
 ('183713_女', '183726_女', '183737_女'): 36}

 

4元數據只有一條:
在這裡插入圖片描述

在這裡插入圖片描述

總結

關聯規則分析是一個經典數據挖掘演算法,在消費明細數據、超市購物籃數據、金融保險、信用卡等領域應用的十分廣泛。

當我們運用關聯分析技術挖掘出頻繁出現的組合和強關聯規則之後,就可以指定相應的營銷策略或者找到不同對象之間的關係。

上面的數據挖掘過程,其實也存在一定的缺陷:

•約束太寬:僅僅是根據時間間隔類型進

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 首先將源碼逐級找出來1.HashSet<String> hs=new HashSet<String>(); hs.add("hello"); hs.add("world"); hs.add("java"); hs.add("world");//因為是Set集合所以不帶重覆元素因為調用的是HashSe ...
  • 日常分享Python小技巧,說說你們都是怎麼區分語句控制結構,我分為三種:賦值語句、分支語句、迴圈語句,有沒有人跟我是一樣的?點名提問。 一、賦值語句 變數(大小寫敏感,首字元非數字,非保留字)=命名過程, 變數和函數挺雷同的,但變數是一行代碼,主要用來保存和表示數據,而函數是一段特定功能的代碼,更 ...
  • 併發性和並行性通常用於與多線程程式相關的,最早併發性和並行性似乎指的是相同的概念,但其實併發和並行實際上有不同的含義。在這個併發與並行教程中,我將解釋這些概念的含義。 ...
  • 目錄 一.簡介 二.效果演示 三.源碼下載 四.猜你喜歡 零基礎 OpenGL (ES) 學習路線推薦 : OpenGL (ES) 學習目錄 >> OpenGL ES 基礎 零基礎 OpenGL (ES) 學習路線推薦 : OpenGL (ES) 學習目錄 >> OpenGL ES 轉場 零基礎 O ...
  • 來源:blog.csdn.net/u011291072/article/details/81813662 前言 目前開發的SpringBoot項目在啟動的時候需要預載入一些資源。而如何實現啟動過程中執行代碼,或啟動成功後執行,是有很多種方式可以選擇,我們可以在static代碼塊中實現,也可以在構造方 ...
  • 1、導語 大家好,好久不見。又到每日分享Python小技能的時候了。最近因為疫情影響,所以更新內容比較慢…今天周一,就來更新一波,心血來潮,是時候上線經營了。其實也沒想到有啥好分享的,不如分享一些乾貨給大家,今天就分享一下如何識別圖片驗證碼併發送手機驗證碼的思路和代碼(基於python,對於過程中的 ...
  • package Day18; import java.util.Scanner; import java.util.Set; import java.util.TreeMap; /* * 分析: * A:首先鍵盤輸入一個字元串 * B:創建一個TreeMap集合 鍵唯一 鍵值覆蓋--自然排序 * C ...
  • 先看一段代碼: int i = 0; int a = i++; sout("a的值是:"+i); sout("i的值是:"+i); 最終的編譯之後的核心位元組碼如下 L0 BITPUSH 0 //將常量0壓入操作棧 ISTORE_1 //將當前棧頂元素,彈出並保存到局部變數表的slot_1中 L1 I ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...