Python數據可視化基礎講解

来源:https://www.cnblogs.com/zwhy8/archive/2020/07/21/13356940.html
-Advertisement-
Play Games

前言 本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯繫我們以作處理。 作者:愛數據學習社 首先,要知道我們用哪些庫來畫圖? matplotlib python中最基本的作圖庫就是matplotlib,是一個最基礎的Python可視化庫,一般都是 ...


前言

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯繫我們以作處理。

作者:愛數據學習社

Python數據可視化基礎講解

 

首先,要知道我們用哪些庫來畫圖?

matplotlib

python中最基本的作圖庫就是matplotlib,是一個最基礎的Python可視化庫,一般都是從matplotlib上手Python數據可視化,然後開始做縱向與橫向拓展。

Seaborn

是一個基於matplotlib的高級可視化效果庫,針對的點主要是數據挖掘和機器學習中的變數特征選取,seaborn可以用短小的代碼去繪製描述更多維度數據的可視化效果圖。

其他庫還包括

  • Bokeh(是一個用於做瀏覽器端交互可視化的庫,實現分析師與數據的交互)
  • Mapbox(處理地理數據引擎更強的可視化工具庫)等等

本篇文章主要使用matplotlib進行案例分析

確定問題,選擇圖形

業務可能很複雜,但是經過拆分,我們要找到我們想通過圖形表達什麼具體問題。分析思維的訓練可以學習《麥肯錫方法》和《金字塔原理》中的方法。

這是網上的一張關於圖表類型選擇的總結。

Python數據可視化基礎講解

 

在python中,我們可以總結為以下四種基本視覺元素來展現圖形:

  • 點:scatter plot 二維數據,適用於簡單二維關係
  • 線:line plot 二維數據,適用於時間序列
  • 柱狀:bar plot 二維數據,適用於類別統計
  • 顏色:heatmap 適用於展示第三維度

數據間存在分佈,構成,比較,聯繫以及變化趨勢等關係。對應不一樣的關係,選擇相應的圖形進行展示。

轉換數據,應用函數

數據分析和建模方面的大量編程工作都是用在數據準備的基礎上的:載入、清理、轉換以及重塑。我們可視化步驟也需要對數據進行整理,轉換成我們需要的格式再套用可視化方法完成作圖。

下麵是一些常用的數據轉換方法:

  • 合併:merge,concat,combine_frist(類似於資料庫中的全外連接)
  • 重塑:reshape;軸向旋轉:pivot(類似excel數據透視表)
  • 去重:drop_duplicates
  • 映射:map
  • 填充替換:fillna,replace
  • 重命名軸索引:rename
  • 將分類變數轉換‘啞變數矩陣’的get_dummies函數以及在df中對某列數據取限定值等等

函數則根據第一步中選擇好的圖形,去找python中對應的函數。

參數設置,一目瞭然

原始圖形畫完後,我們可以根據需求修改顏色(color),線型(linestyle),標記(maker)或者其他圖表裝飾項標題(Title),軸標簽(xlabel,ylabel),軸刻度(set_xticks),還有圖例(legend)等,讓圖形更加直觀。

第三步是在第二步的基礎上,為了使圖形更加清晰明瞭,做的修飾工作。具體參數都可以在製圖函數中找到。

下麵,我總結了實現可視化會用到的一些基礎知識

可視化作圖基礎

Matplotlib

#導入包
import numpy as np 
import pandas as pd
import matplotlib.pyplot as plt

 

Figure和Subplot

matplotlib的圖形都位於Figure(畫布)中,Subplot創建圖像空間。不能通過figure繪圖,必須用add_subplot創建一個或多個subplot。

figsize可以指定圖像尺寸。

#創建畫布
fig = plt.figure()
<Figure size 432x288 with 0 Axes>
#創建subplot,221表示這是2行2列表格中的第1個圖像。
ax1 = fig.add_subplot(221)
#但現在更習慣使用以下方法創建畫布和圖像,2,2表示這是一個2*2的畫布,可以放置4個圖像
fig , axes = plt.subplots(2,2,sharex=True,sharey=True)
#plt.subplot的sharex和sharey參數可以指定所有的subplot使用相同的x,y軸刻度。

 

Python數據可視化基礎講解

 

利用Figure的subplots_adjust方法可以調整間距。

subplots_adjust(left=None,bottom=None,right=None,top=None,wspace=None,hspace=None)

#創建畫布
fig = plt.figure()
<Figure size 432x288 with 0 Axes>
#創建subplot,221表示這是2行2列表格中的第1個圖像。
ax1 = fig.add_subplot(221)
#但現在更習慣使用以下方法創建畫布和圖像,2,2表示這是一個2*2的畫布,可以放置4個圖像
fig , axes = plt.subplots(2,2,sharex=True,sharey=True)
#plt.subplot的sharex和sharey參數可以指定所有的subplot使用相同的x,y軸刻度。

 

Python數據可視化基礎講解

 

顏色color,標記marker,和線型linestyle

matplotlib的plot函數接受一組X和Y坐標,還可以接受一個表示顏色和線型的字元串縮寫:'g--',表示顏色是綠色green,線型是'--'虛線。也可以使用參數明確的指定。

線型圖還可以加上一些標記(marker),來突出顯示數據點的位置。標記也可以放在格式字元串中,但標記類型和線型必須放在顏色後面。

plt.plot(np.random.randn(30),color='g',linestyle='--',marker='o')
[<matplotlib.lines.Line2D at 0x8c919b0>]

 

Python數據可視化基礎講解

 

刻度,標簽和圖例

plt的xlim、xticks和xtickslabels方法分別控製圖表的範圍和,刻度位置和刻度標簽。調用方法時不帶參數,則返回當前的參數值;調用時帶參數,則設置參數值。

plt.plot(np.random.randn(30),color='g',linestyle='--',marker='o')
plt.xlim()   #不帶參數調用,顯示當前參數;
#可將xlim替換為另外兩個方法試試
(-1.4500000000000002, 30.45)

 

Python數據可視化基礎講解

 

plt.plot(np.random.randn(30),color='g',linestyle='--',marker='o')
plt.xlim([0,15])    #橫軸刻度變成0-15
(0, 15)

 

Python數據可視化基礎講解

 

設置標題,軸標簽,刻度以及刻度標簽

fig = plt.figure();ax = fig.add_subplot(1,1,1)
ax.plot(np.random.randn(1000).cumsum())
ticks = ax.set_xticks([0,250,500,750,1000])  #設置刻度值
labels = ax.set_xticklabels(['one','two','three','four','five'])  #設置刻度標簽
ax.set_title('My first Plot')  #設置標題
ax.set_xlabel('Stage')  #設置軸標簽
Text(0.5,0,'Stage')

 

Python數據可視化基礎講解

 

添加圖例

圖例legend是另一種用於標識圖標元素的重要工具。可以在添加subplot的時候傳入label參數。

fig = plt.figure(figsize=(12,5));ax = fig.add_subplot(111)
ax.plot(np.random.randn(1000).cumsum(),'k',label='one')  #傳入label參數,定義label名稱
ax.plot(np.random.randn(1000).cumsum(),'k--',label='two')
ax.plot(np.random.randn(1000).cumsum(),'k.',label='three')
#圖形創建完後,只需要調用legend參數將label調出來即可。
ax.legend(loc='best')  #要求不是很嚴格的話,建議使用loc=‘best’參數來讓它自己選擇最佳位置
<matplotlib.legend.Legend at 0xa8f5a20>

 

Python數據可視化基礎講解

 

註解

Python數據可視化基礎講解

 

除標準的圖表對象之外,我們還可以自定義添加一些文字註解或者箭頭。

註解可以通過text,arrow和annotate等函數進行添加。text函數可以將文本繪製在指定的x,y坐標位置,還可以進行自定義格式

plt.plot(np.random.randn(1000).cumsum())
plt.text(600,10,'test ',family='monospace',fontsize=10) 
#中文註釋在預設環境下並不能正常顯示,需要修改配置文件,使其支持中文字體。具體步驟請自行搜索。

 

保存圖表到文件

利用plt.savefig可以將當前圖表保存到文件。例如,要將圖表保存為png文件,可以執行

plt.savefig('figpath.png')

文件類型是根據拓展名而定的。其他參數還有:

  • fname含有文件路徑的字元串,拓展名指定文件類型
  • dpi解析度,預設100facecolor,edgcolor 圖像的背景色,預設‘w’白色
  • format顯示設置文件格式('png','pdf','svg','ps','jpg'等)
  • bbox_inches: 圖表需要保留的部分。如果設置為“tight”,則將嘗試剪除圖像周圍的空白部分
plt.savefig('./plot.jpg')   #保存圖像為plot名稱的jpg格式圖像
<Figure size 432x288 with 0 Axes>

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 01 不能直接返回局部變數的引用/地址 C++有時候還挺傻的,比如調用函數的時候,我就想返回一個局部變數的引用或指針(常想用於返回新建的數組/對象),是不正確的。 比如下麵這段代碼,用指針存儲變數 \(a\) 的地址並返回(直接返回 \(a\) 的地址的話,在編譯器那關就過不了): // 程式 #i ...
  • 一. 本篇要學習的內容和知識結構概覽 二. 知識點逐條分析 1. 混合型語言 C++源文件的文件擴展名為.cpp, 也就是c plus plus的簡寫, 在該文件里有且只能有一個名為main的主函數, 它作為程式的入口. 因為這個主函數的存在, 所以C++被稱為混合型語言. 2. C++語言當中的註 ...
  • PDF(Portable Document Format),中文名稱便攜文檔格式是我們經常會接觸到的一種文件格式,文獻、文檔…很多都是PDF格式。它以格式穩定的優勢,使得我們在列印、分享、傳輸過程中能夠最優的保持原有色彩和格式。 PDF是以PostScript語言圖像模型為基礎的一種文檔格式,它在格 ...
  • Java實現一個簡單的文件上傳案例 實現流程: 1.客戶端從硬碟讀取文件數據到程式中 2.客戶端輸出流,寫出文件到服務端 3.服務端輸出流,讀取文件數據到服務端中 4.輸出流,寫出文件數據到伺服器硬碟中 下麵上代碼 上傳單個文件 伺服器端 package FileUpload; import jav ...
  • 前言 本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯繫我們以作處理。 python-docx 隨著近幾年Python語言的崛起,它在辦公自動化方面的優勢也被挖掘的淋漓盡致,而對於辦公自動化來說,Word文檔是不可或缺的重要組成部分,那麼Pyth ...
  • ##L1-048 矩陣A乘以B (15分) 給定兩個矩陣 \(A\) 和 \(B\),要求你計算它們的乘積矩陣 \(AB\)。需要註意的是,只有規模匹配的矩陣才可以相乘。即若 \(A\) 有 \(R_​a\) 行、\(C_​a\) 列,\(B\) 有 \(R_b\) 行、\(C_b\) 列,則只有 ...
  • 很多想從事python行業的朋友都會問到,零基礎如何自學成為Python高手?根據小北多年教育的經驗,我總結了幾個小建議,想看乾貨的請看下文! 如何剋服入門難問題? 其實小北覺得,最好的方法就是和一群志同道合的朋友一起學習python,因為這樣才能更好的堅持下去,彼此相互督促,共同解決遇到的一些問題 ...
  • 引言 作者:黃青石 鏈接:https://www.cnblogs.com/huangqingshi/p/13336648.html?utm_source=tuicool&utm_medium=referral 周末了,覺得我還有很多作業沒有寫,針對目前大家對OOM的類型不太熟悉,那麼我們來總結一下各 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...