本文來源:https://www.dataquest.io/mission/132/data-visualization-and-exploration 本文數據來源https://github.com/fivethirtyeight/data/blob/master/college-majors/...
本文來源:https://www.dataquest.io/mission/132/data-visualization-and-exploration
本文數據來源https://github.com/fivethirtyeight/data/blob/master/college-majors/recent-grads.csv
本文主要介紹了一下如何簡單的探查數據之間的關係
原始數據展現(這是一份大學畢業生的薪資調查報告,重要的欄位有這些,Major - 專業名稱, Major_category - 專業類別, Sample_size - 樣本大小, ShareWomen - 女性比重, Total- 該專業的總人數)
import pandas as pd recent_grads = pd.read_csv('recent-grads.csv')
直方圖
要製作直方圖,首先把X軸的值的範圍等分成多個間隔,然後數出每個間隔中包含的值的數量,然後把該數量作為Y軸的值。使用方法pandas.DataFrame.hist()函數
#製作工資收入中位數(Median列)的直方圖 recent_grads.hist(‘Median’)
# hist()函數預設是自動分成10等分的,且生成的圖中是有網格線的,現在要分成20等分,同時消除網格線 recent_grads.hist('Median', bins=20, grid=False)
# 其實可以一次性製作多個直方圖,layout參數的意思是將兩個圖分成兩行一列,如果沒有這個參數,預設會將全部的圖放在同一行 columns = ['Median','Sample_size'] recent_grads.hist(column=columns, layout=(2,1), grid=False)
箱型圖
箱型圖是基於五數概括法(最小值,第一個四分位數,第一個四分位數(中位數),第三個四分位數,最大值)的數據的一個圖形彙總,還需要用到四分位數間距IQR = 第三個四分位數 - 第一個四分位數。詳情請google
製作箱型圖使用的是pandas.DataFrame.boxplot()方法
import matplotlib.pyplot as plt # 選擇兩列數據 sample_size = recent_grads[['Sample_size', 'Major_category']] # 按照每一個專業類型分類統計 sample_size.boxplot(by='Major_category') # 將X軸的坐標文字旋轉90度,垂直顯示 plt.xticks(rotation=90)
多圖合併
要想找出多個變數之間的關聯,就要把多個變數的變化都做在同一個圖上進行比較
# 將兩個散點圖放在一起(按顏色區分),觀察是否有關聯 import matplotlib.pyplot as plt plt.scatter(recent_grads['Unemployment_rate'], recent_grads['Median'], color='red') plt.scatter(recent_grads['ShareWomen'], recent_grads['Median'], color='blue') plt.show()