【matplotlib 實戰】--氣泡圖

来源:https://www.cnblogs.com/wang_yb/archive/2023/10/20/17776263.html
-Advertisement-
Play Games

氣泡圖是一種多變數的統計圖表,可以看作是散點圖的變形。與散點圖不同的是,每一個氣泡都表示三個維度的數據,除了像散點圖一樣有X,Y軸,氣泡的大小可以表示另一個維度的數據。例如,x軸表示產品銷量,y軸表示產品利潤,氣泡大小代表產品市場份額百分比。 它可以幫助我們發現變數之間的模式、趨勢和異常值。通過氣泡 ...


氣泡圖是一種多變數的統計圖表,可以看作是散點圖的變形。
與散點圖不同的是,每一個氣泡都表示三個維度的數據,除了像散點圖一樣有X,Y軸,氣泡的大小可以表示另一個維度的數據。
例如,x軸表示產品銷量,y軸表示產品利潤,氣泡大小代表產品市場份額百分比。

它可以幫助我們發現變數之間的模式、趨勢和異常值。
通過氣泡的大小和顏色,我們可以同時比較多個變數的值,並且可以快速識別出具有較大或較小數值的數據點。

1. 主要元素

氣泡圖通常用於展示和比較數據之間的關係和分佈,可以展示三維(X,Y軸,氣泡大小),甚至四維數據(X,Y軸,氣泡大小,氣泡顏色)之間的關係。
它的主要元素包括:

  1. 橫軸和縱軸:氣泡圖通常使用橫軸和縱軸來表示兩個變數的值。這些變數可以是數值型、分類型或時間型。
  2. 氣泡大小:氣泡圖通過氣泡的大小來表示第三個變數的值。通常,氣泡的大小與該變數的值成正比,較大的氣泡表示較大的數值。
  3. 氣泡顏色:氣泡圖還可以使用顏色來表示第四個變數的值。不同的顏色可以用於區分不同的數據類別或者表示不同的數值範圍。

圖片來自 antv 官網

2. 適用的場景

氣泡圖適用的分析場景包括:

  • 多變數關係分析:氣通過橫軸、縱軸和氣泡大小,可以同時呈現三個變數的信息,幫助我們發現變數之間的模式、趨勢和相關性。
  • 數據聚類和分類:氣泡顏色可以用於區分不同的數據類別或者表示不同的數值範圍。這使得氣泡圖在數據聚類和分類分析中非常有用,可以幫助我們識別出不同群組或類別之間的差異和相似性。
  • 比較分析:用於比較不同類別或不同時間點的數據。通過氣泡的大小和顏色,我們可以直觀地比較多個變數的值,快速識別出具有較大或較小數值的數據點,從而幫助我們理解數據的分佈和變化情況。
  • 異常值檢測:幫助我們快速識別出具有異常數值的數據點。通過比較氣泡的大小和顏色,我們可以發現與其他數據點相比具有明顯不同數值的數據,從而幫助我們識別和分析異常情況。

3. 不適用的場景

氣泡圖在以下情況可能不適用:

  • 大數據集:當數據集非常龐大時,氣泡圖可能不適合展示所有數據點,因為過多的氣泡可能會導致圖表混亂不清。
  • 單變數分析:如果只需要分析單個變數的分佈或趨勢,氣泡圖可能過於複雜,不是最佳選擇。
  • 離散數據:如果數據是離散的,而不是連續的數值型數據,氣泡圖可能無法有效地展示變數之間的關係。

4. 分析實戰

本次使用氣泡圖分析 2021年中歐之間的貿易數據情況。
氣泡圖可以分析三個維度的對比:

  1. 進口額:橫軸
  2. 出口額:縱軸
  3. 進出口總額:氣泡大小

4.1. 數據來源

數據來源國家統計局公開的數據,整理好的數據可從下麵的地址下載:
https://databook.top/nation/A06

用到的三個統計數據分別是:

  1. 中國同歐洲各國(地區)進出口總額:A06050103.csv
  2. 中國向歐洲各國(地區)出口總額:A06050203.csv
  3. 中國從歐洲各國(地區)進口總額:A06050303.csv
fp = "d:/share/data/A06050103.csv"
df_total = pd.read_csv(fp)

fp = "d:/share/data/A06050203.csv"
df_output = pd.read_csv(fp)

fp = "d:/share/data/A06050303.csv"
df_input = pd.read_csv(fp)

4.2. 數據清理

數據清理步驟主要包括:

  1. 提取每個文件中2021年的數據
  2. 去除中歐整體的交易額數據,只保留和各個國家之間的貿易數據
  3. 合併進出口總額,進口額,出口額到一個數據集中
  4. 過濾多餘字元,生成一個表示國家的數據列
#提取每個文件中2021年的數據
df = df_total[df_total["sj"] == 2021]

#去除中歐整體的交易額數據,只保留和各個國家之間的貿易數據
data = df.loc[2:, ["zbCN", "value"]]
#重新映射列的名稱
data = data.rename(columns={"zbCN":"country", "value": "total"})

#過濾多餘字元,生成一個表示國家的數據列
data["country"] = data["country"].str.replace("中國同", "", regex=False)
data["country"] = data["country"].str.replace("進出口總額(萬美元)", "", regex=False)

df = df_input[df_input["sj"] == 2021]
#合併進出口總額,進口額,出口額到一個數據集中
data["input"] = df.loc[2:, ["value"]]

df = df_output[df_output["sj"] == 2021]
#合併進出口總額,進口額,出口額到一個數據集中
data["output"] = df.loc[2:, ["value"]]

data.head(5)

image.png

和歐洲的總體交易數據位於每個數據集的第一行,所用用 loc[2:, ...] 來過濾。

4.3. 分析結果可視化

with plt.style.context("seaborn-v0_8"):
    fig = plt.figure()
    ax = fig.add_axes([0.1, 0.1, 0.8, 0.8])

    ax.scatter(
        data["input"] / 10000,
        data["output"] / 10000,
        data["total"] / 10000,
        c = np.random.rand(len(data)),
        cmap="Accent",
        alpha=0.6,
    )
    ax.set_xlabel("進口額(億元)")
    ax.set_ylabel("出口額(億元)")

    x = np.linspace(0, 1400, 7)
    y = x
    ax.plot(x, y, '-')

image.png

從圖中可以看出:
橫軸是進口額,縱軸是出口額,氣泡越大,進出口總額越大。

中間的藍色線表示進出口額度一樣,可以看出,大部分國家都在藍色線之上,
說明我國和大部分歐洲的貿易都是順差

左下角有很多小氣泡,說明和大部分國家之間的進出口貿易額不高,也許是歐洲的小國家很多的緣故。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • dpkt項目是一個`Python`模塊,主要用於對網路數據包進行解析和操作。它可以處理多種協議,例如`TCP`、`UDP`、`IP`等,並提供了一些常用的網路操作功能,例如計算校驗和、解析`DNS`數據包等。由於其簡單易用的特性,`dpkt`被廣泛應用於網路安全領域,例如流量分析、漏洞利用、入侵檢測... ...
  • 一、掃雷游戲分析 關鍵步驟:兩個二維數組的大小為11*11,但實際上操作的只有中心的9*9的棋盤,創建另外兩行的原因是方便統計一個坐標周圍3*3的雷的個數1.創建兩個二維數組一個存放佈置好的雷(1號),另外一個存放空的棋盤(2號)2.選手選出來的坐標傳到1號棋盤上對坐標進行分析如果是雷就返回被炸死了 ...
  • 在上篇文章 每個後端都應該瞭解的 OpenResty 入門以及網關安全實戰 中,我向大家介紹了 OpenResty 的入門使用是 WAF 防禦實戰,這篇文章將給大家繼續介紹 OpenResty 入門之性能測試 篇。 性能測試是軟體開發中不可或缺的一環,它可以幫助我們評估系統的性能、穩定性、可擴展性等 ...
  • 來源:nginx(ID:nginx-study) Cloudflare公司去年宣佈棄用nginx,轉用自研的新一代方向代理服務Pingora,並號稱比nginx更快、更高效、更安全,下麵通過Cloudfare官方網站的一篇文章來瞭解下Pingora比Nginx強在哪裡。 簡介 今天,我們很高興有機會 ...
  • reCAPTCHA是Google公司推出的一項驗證服務,使用十分方便快捷,在國外許多網站上均有使用。它與許多其他的人機驗證方式不同,它極少需要用戶進行各種識圖驗證。 它的使用方式如下如所示,只需勾選覆選框即可通過人機驗證。 雖然簡單但效果很好,因為Google會收集一些瀏覽器信息,網路信息,滑鼠軌跡 ...
  • 簡介 Go語言中的切片(slice)是一種靈活的數據結構,它構建在數組之上並提供了方便的方式來操作數組的一部分。切片的底層實現涉及到數組和一些元數據。以下是Golang切片的底層實現的詳細介紹: 底層數組(Underlying Array): 切片是建立在一個底層數組之上的。這個數組通常比切片的容量 ...
  • 1 概覽 DataX 是一個異構數據源離線同步工具,致力於實現包括關係型資料庫(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各種異構數據源之間穩定高效的數據同步功能。 1.1 設計理念 為瞭解決異構數據源同步問題,DataX將複雜的網狀的同步鏈路變成了星型數據鏈路 ...
  • 我們應對併發場景時一般會採用下麵方式去預估線程池的線程數量,但是在一些情況下,這個t是不好估算的,即便是估算出來了,在實際的線程環境上也需要進行驗證和微調。比如在本文所闡述分頁查詢的數據項組合場景中。 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...