【matplotlib 實戰】--箱型圖

来源:https://www.cnblogs.com/wang_yb/archive/2023/10/30/17797008.html
-Advertisement-
Play Games

箱型圖(Box Plot),也稱為盒須圖或盒式圖,1977年由美國著名統計學家約翰·圖基(John Tukey)發明。是一種用作顯示一組數據分佈情況的統計圖,因型狀如箱子而得名。 它能顯示出一組數據的最大值、最小值、中位數及上下四分位數。箱子的頂端和底端,分別代表上下四分位數。箱子中間的是中位數線, ...


箱型圖(Box Plot),也稱為盒須圖或盒式圖,1977年由美國著名統計學家約翰·圖基(John Tukey)發明。
是一種用作顯示一組數據分佈情況的統計圖,因型狀如箱子而得名。

它能顯示出一組數據的最大值、最小值、中位數及上下四分位數。
箱子的頂端和底端,分別代表上下四分位數。
箱子中間的是中位數線,它將箱子一分為二。從箱子延伸出去的線條展現出了上下四分位數以外的數據,由於這兩根延伸出去的線像是鬍鬚,因此箱形圖也被稱為盒須圖。

箱形圖最大的優勢是,它以一種簡單的方式,概括出一個或多個數值變數的分佈,同時又不會占據太多空間。

1. 主要元素

它主要由以下五個元素組成:

  1. 最大值:表示數據的最大值,排除了異常值後的上限。
  2. 上四分位線:數據的上四分位數,將數據分為四等份,處於上邊緣和中位數之間的數據。也稱為第三四分位數。
  3. 中位數:數據的中位數,將數據分為兩等份,處於上四分位數和下四分位數之間的數據。也稱為第二四分位數。
  4. 下四分位線:數據的下四分位數,將數據分為四等份,處於中位數和下邊緣之間的數據。也稱為第一四分位數。
  5. 最小值:表示數據的最小值,排除了異常值後的下限。

圖片來自 antv 官網

2. 適用的場景

箱型圖適用於以下分析場景:

  • 數據分佈比較:比較不同組數據的分佈情況。通過將多個箱型圖放在一起,可以直觀地比較它們的中位數、四分位數和離群值等信息,從而瞭解它們之間的差異。
  • 離群值檢測:檢測數據中的離群值。離群值是與其他數據點相比明顯偏離的數據點,它們可能是數據收集或記錄過程中的異常或錯誤。箱型圖中的離群點可以幫助識別這些異常值。
  • 數據中心趨勢和離散程度:通過中位數和四分位距(上四分位數與下四分位數之差)展示了數據的中心趨勢和離散程度。中位數提供了數據的中心位置,四分位距提供了數據的離散程度。
  • 數據分佈形狀:提供關於數據分佈形狀的一些信息。例如,如果箱型圖的上下邊緣和中位數都接近,箱型圖可能顯示出對稱的分佈。如果箱型圖的上邊緣比下邊緣長,中位數偏向下邊緣,可能顯示出右偏分佈。

3. 不適用的場景

箱型圖不適用於以下分析場景:

  • 數據樣本過小:當數據樣本過小時,箱型圖可能無法提供足夠的信息來準確描述數據的分佈情況。
  • 數據分佈複雜:當數據分佈非常複雜或包含多個峰值時,箱型圖可能無法完全捕捉到數據的特征。
  • 數據缺失:如果數據中存在大量缺失值,箱型圖可能無法提供準確的分佈信息。

4. 分析實戰

本次通過箱型圖分析我國三大產業對GDP的貢獻情況。

4.1. 數據來源

數據來自國家統計局公開的歷年數據,整理好的文件從下麵的地址下載:
https://databook.top/nation/A02

使用的是其中的 A0201.csv 文件(國內生產總值)

fp = "d:/share/data/A0201.csv"

df = pd.read_csv(fp)
df

image.png

4.2. 數據清理

過濾出三大產業在2013年~2022年的增加值數據。

data = df[df["zb"].isin(["A020103", 
                         "A020104",
                         "A020105"])].copy()
data = data[data["sj"] > 2012]
data

其中,A020103A020104A020105 分別是三大產業的指標編號。

4.3. 分析結果可視化

通過箱型圖展示三大產業的增加值情況:

fig = plt.figure()
ax = fig.add_axes([0.1, 0.1, 1, 1])

graph = ax.boxplot(
    [
        data[data["zb"] == "A020103"].loc[:, "value"],
        data[data["zb"] == "A020104"].loc[:, "value"],
        data[data["zb"] == "A020105"].loc[:, "value"],
    ],
    vert=True,
    patch_artist=True,
    labels=["第一產業", "第二產業", "第三產業"]
)
ax.set_title("2013~2022 三大產業對GDP增加值(億元)")

colors = ['pink', 'lightblue', 'lightgreen']
for patch, color in zip(graph['boxes'], colors):
    patch.set_facecolor(color)

plt.show()

image.png

從圖中可以看出,近10年來,第一產業的增加值明顯低於其他兩個產業。
第二第三產業的上下限的值相差比較大,說明增長或者下降比較明顯(看了數據,是增長明顯)。
第一產業的中位數(紅色的橫線)偏下半部分,說明多數的年份增加值比較低
第二產業的中位數(紅色的橫線)偏上半部分,說明多數的年份增加值比較高


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一、SpringCloud 簡介 Spring Cloud 是一系列框架的有序集合如服務發現註冊、配置中心、消息匯流排、負載均衡、熔斷器、數據監控等。 SpringCloud 將多個服務框架組合起來,通過Spring Boot進行再封裝,屏蔽掉了複雜的配置和實現原理,最終給開發者提供了一套簡單易懂、易 ...
  • 哈嘍兄弟們,今天來實現一下建築市場公共服務平臺的數據採集,順便實現一下網站的JS解密。 話不多說,我們直接開始今天的內容。 首先我們需要準備這些 環境使用 Python 3.8 Pycharm 模塊使用 requests --> pip install requests execjs --> pip ...
  • 我們在對keycloak框架中的核心項目keycloak-services進行二次開發過程中,發現了一個問題,當時有這種需求,在keycloak-services中需要使用infinispan緩存,我們直接添加infinispan-core引用之後,在啟動keycloak進出錯了,提示我們沒有找到i ...
  • AES演算法是一種對稱加密演算法,全稱為高級加密標準(Advanced Encryption Standard)。它是一種分組密碼,以`128`比特為一個分組進行加密,其密鑰長度可以是`128`比特、`192`比特或`256`比特,因此可以提供不同等級的安全性。該演算法採用了替代、置換和混淆等技術,以及多... ...
  • 本文將從啟動類開始詳細分析zookeeper的啟動流程: 載入配置的過程 集群啟動過程 單機版啟動過程 啟動類 org.apache.zookeeper.server.quorum.QuorumPeerMain類。 用於啟動zookeeper服務,第一個參數用來指定配置文件,配置文件properti ...
  • 從配置文件中獲取屬性應該是SpringBoot開發中最為常用的功能之一,但就是這麼常用的功能,仍然有很多開發者抓狂~今天帶大家簡單回顧一下這六種的使用方式: ...
  • wmproxy wmproxy是由Rust編寫,已實現http/https代理,socks5代理, 反向代理,靜態文件伺服器,內網穿透,配置熱更新等, 後續將實現websocket代理等,同時會將實現過程分享出來, 感興趣的可以一起造個輪子法 項目地址 gite: https://gitee.com ...
  • 來源:https://gitee.com/niefy/wx-manage wx-manage wx-manage是一個支持公眾號管理系統,支持多公眾號接入。 wx-manage提供公眾號菜單、自動回覆、公眾號素材、簡易CMS、等管理功能,請註意本項目僅為管理後臺界面,需配合後端程式wx-api一起使 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...