前言 本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯繫我們以作處理。 作者:愛數據學習社 首先,要知道我們用哪些庫來畫圖? matplotlib python中最基本的作圖庫就是matplotlib,是一個最基礎的Python可視化庫,一般都是 ...
前言
本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯繫我們以作處理。
作者:愛數據學習社
首先,要知道我們用哪些庫來畫圖?
matplotlib
python中最基本的作圖庫就是matplotlib,是一個最基礎的Python可視化庫,一般都是從matplotlib上手Python數據可視化,然後開始做縱向與橫向拓展。
Seaborn
是一個基於matplotlib的高級可視化效果庫,針對的點主要是數據挖掘和機器學習中的變數特征選取,seaborn可以用短小的代碼去繪製描述更多維度數據的可視化效果圖。
其他庫還包括
- Bokeh(是一個用於做瀏覽器端交互可視化的庫,實現分析師與數據的交互)
- Mapbox(處理地理數據引擎更強的可視化工具庫)等等
本篇文章主要使用matplotlib進行案例分析
確定問題,選擇圖形
業務可能很複雜,但是經過拆分,我們要找到我們想通過圖形表達什麼具體問題。分析思維的訓練可以學習《麥肯錫方法》和《金字塔原理》中的方法。
這是網上的一張關於圖表類型選擇的總結。
在python中,我們可以總結為以下四種基本視覺元素來展現圖形:
- 點:scatter plot 二維數據,適用於簡單二維關係
- 線:line plot 二維數據,適用於時間序列
- 柱狀:bar plot 二維數據,適用於類別統計
- 顏色:heatmap 適用於展示第三維度
數據間存在分佈,構成,比較,聯繫以及變化趨勢等關係。對應不一樣的關係,選擇相應的圖形進行展示。
轉換數據,應用函數
數據分析和建模方面的大量編程工作都是用在數據準備的基礎上的:載入、清理、轉換以及重塑。我們可視化步驟也需要對數據進行整理,轉換成我們需要的格式再套用可視化方法完成作圖。
下麵是一些常用的數據轉換方法:
- 合併:merge,concat,combine_frist(類似於資料庫中的全外連接)
- 重塑:reshape;軸向旋轉:pivot(類似excel數據透視表)
- 去重:drop_duplicates
- 映射:map
- 填充替換:fillna,replace
- 重命名軸索引:rename
- 將分類變數轉換‘啞變數矩陣’的get_dummies函數以及在df中對某列數據取限定值等等
函數則根據第一步中選擇好的圖形,去找python中對應的函數。
參數設置,一目瞭然
原始圖形畫完後,我們可以根據需求修改顏色(color),線型(linestyle),標記(maker)或者其他圖表裝飾項標題(Title),軸標簽(xlabel,ylabel),軸刻度(set_xticks),還有圖例(legend)等,讓圖形更加直觀。
第三步是在第二步的基礎上,為了使圖形更加清晰明瞭,做的修飾工作。具體參數都可以在製圖函數中找到。
下麵,我總結了實現可視化會用到的一些基礎知識
可視化作圖基礎
Matplotlib
#導入包 import numpy as np import pandas as pd import matplotlib.pyplot as plt
Figure和Subplot
matplotlib的圖形都位於Figure(畫布)中,Subplot創建圖像空間。不能通過figure繪圖,必須用add_subplot創建一個或多個subplot。
figsize可以指定圖像尺寸。
#創建畫布 fig = plt.figure() <Figure size 432x288 with 0 Axes> #創建subplot,221表示這是2行2列表格中的第1個圖像。 ax1 = fig.add_subplot(221) #但現在更習慣使用以下方法創建畫布和圖像,2,2表示這是一個2*2的畫布,可以放置4個圖像 fig , axes = plt.subplots(2,2,sharex=True,sharey=True) #plt.subplot的sharex和sharey參數可以指定所有的subplot使用相同的x,y軸刻度。
利用Figure的subplots_adjust方法可以調整間距。
subplots_adjust(left=None,bottom=None,right=None,top=None,wspace=None,hspace=None)
#創建畫布 fig = plt.figure() <Figure size 432x288 with 0 Axes> #創建subplot,221表示這是2行2列表格中的第1個圖像。 ax1 = fig.add_subplot(221) #但現在更習慣使用以下方法創建畫布和圖像,2,2表示這是一個2*2的畫布,可以放置4個圖像 fig , axes = plt.subplots(2,2,sharex=True,sharey=True) #plt.subplot的sharex和sharey參數可以指定所有的subplot使用相同的x,y軸刻度。
顏色color,標記marker,和線型linestyle
matplotlib的plot函數接受一組X和Y坐標,還可以接受一個表示顏色和線型的字元串縮寫:'g--',表示顏色是綠色green,線型是'--'虛線。也可以使用參數明確的指定。
線型圖還可以加上一些標記(marker),來突出顯示數據點的位置。標記也可以放在格式字元串中,但標記類型和線型必須放在顏色後面。
plt.plot(np.random.randn(30),color='g',linestyle='--',marker='o') [<matplotlib.lines.Line2D at 0x8c919b0>]
刻度,標簽和圖例
plt的xlim、xticks和xtickslabels方法分別控製圖表的範圍和,刻度位置和刻度標簽。調用方法時不帶參數,則返回當前的參數值;調用時帶參數,則設置參數值。
plt.plot(np.random.randn(30),color='g',linestyle='--',marker='o') plt.xlim() #不帶參數調用,顯示當前參數; #可將xlim替換為另外兩個方法試試 (-1.4500000000000002, 30.45)
plt.plot(np.random.randn(30),color='g',linestyle='--',marker='o') plt.xlim([0,15]) #橫軸刻度變成0-15 (0, 15)
設置標題,軸標簽,刻度以及刻度標簽
fig = plt.figure();ax = fig.add_subplot(1,1,1) ax.plot(np.random.randn(1000).cumsum()) ticks = ax.set_xticks([0,250,500,750,1000]) #設置刻度值 labels = ax.set_xticklabels(['one','two','three','four','five']) #設置刻度標簽 ax.set_title('My first Plot') #設置標題 ax.set_xlabel('Stage') #設置軸標簽 Text(0.5,0,'Stage')
添加圖例
圖例legend是另一種用於標識圖標元素的重要工具。可以在添加subplot的時候傳入label參數。
fig = plt.figure(figsize=(12,5));ax = fig.add_subplot(111) ax.plot(np.random.randn(1000).cumsum(),'k',label='one') #傳入label參數,定義label名稱 ax.plot(np.random.randn(1000).cumsum(),'k--',label='two') ax.plot(np.random.randn(1000).cumsum(),'k.',label='three') #圖形創建完後,只需要調用legend參數將label調出來即可。 ax.legend(loc='best') #要求不是很嚴格的話,建議使用loc=‘best’參數來讓它自己選擇最佳位置 <matplotlib.legend.Legend at 0xa8f5a20>
註解
除標準的圖表對象之外,我們還可以自定義添加一些文字註解或者箭頭。
註解可以通過text,arrow和annotate等函數進行添加。text函數可以將文本繪製在指定的x,y坐標位置,還可以進行自定義格式
plt.plot(np.random.randn(1000).cumsum()) plt.text(600,10,'test ',family='monospace',fontsize=10) #中文註釋在預設環境下並不能正常顯示,需要修改配置文件,使其支持中文字體。具體步驟請自行搜索。
保存圖表到文件
利用plt.savefig可以將當前圖表保存到文件。例如,要將圖表保存為png文件,可以執行
plt.savefig('figpath.png')
文件類型是根據拓展名而定的。其他參數還有:
- fname含有文件路徑的字元串,拓展名指定文件類型
- dpi解析度,預設100facecolor,edgcolor 圖像的背景色,預設‘w’白色
- format顯示設置文件格式('png','pdf','svg','ps','jpg'等)
- bbox_inches: 圖表需要保留的部分。如果設置為“tight”,則將嘗試剪除圖像周圍的空白部分
plt.savefig('./plot.jpg') #保存圖像為plot名稱的jpg格式圖像
<Figure size 432x288 with 0 Axes>