折線圖是一種用於可視化數據變化趨勢的圖表,它可以用於表示任何數值隨著時間或類別的變化。 折線圖由折線段和折線交點組成,折線段表示數值隨時間或類別的變化趨勢,折線交點表示數據的轉折點。 折線圖的方向表示數據的變化方向,即正變化還是負變化,折線的斜率表示數據的變化程度。 1. 主要元素 折線圖主要由以下 ...
折線圖是一種用於可視化數據變化趨勢的圖表,它可以用於表示任何數值隨著時間或類別的變化。
折線圖由折線段和折線交點組成,折線段表示數值隨時間或類別的變化趨勢,折線交點表示數據的轉折點。
折線圖的方向表示數據的變化方向,即正變化還是負變化,折線的斜率表示數據的變化程度。
1. 主要元素
折線圖主要由以下四個元素組成:
- 數據點:折線圖中的每個數據點都代表著一個時間點或一個數值。
- 折線:折線圖中的線條代表著數據的變化趨勢。
- X軸:一般是有序變數,表示數據點的變化區間。
- Y軸:數據點在不同時刻的值。
2. 適用的場景
折線圖適用於以下分析場景:
- 趨勢分析:折線圖可以用於展示數據的增長、下降、波動等趨勢,幫助分析人員瞭解數據的變化趨勢。
- 問題診斷:折線圖可以用於數據異常檢測,幫助分析人員快速發現數據的異常情況。
3. 不適用的場景
折線圖不適用於以下分析場景:
- 數據分類和分組:折線圖不適用於數據分類和分組分析,因為折線圖主要用於展示數據的變化趨勢,而不是數據的分類和分組情況。
- 數據回歸分析:折線圖不適用於數據回歸分析,因為回歸分析需要建立在數據樣本中的線性關係,而折線圖主要用於展示數據的變化趨勢,不能很好地反映數據的線性關係。
4. 分析實戰
4.1. 數據來源
數據來源國家統計局公開數據,已經整理好的csv文件在:https://databook.top/nation/A03
本次分析使用其中的 A0301.csv
文件(總人口數據)。
下麵的文件路徑 fp
要換成自己實際的文件路徑。
import pandas as pd
fp = "d:/share/A0301.csv"
df = pd.read_csv(fp)
df
4.2. 數據清理
首先看看 zbCN
欄位中有多少種不同的人口統計類別。
df.groupby(by="zbCN").count()
這個數據集中一共有5種不同維度的人口統計:
- 年末總人口
- 男性人口
- 女性人口
- 城鎮人口
- 鄉村人口
按照類別,將它們分離成5個不同的數據集,為了繪製折線圖做準備。
groups = df.groupby(by="zbCN")
dict_group = {}
for g in groups:
dict_group[g[0]] = g[1]
for k, v in dict_group.items():
print("key = {}, value type = {}".format(k, type(v)))
groupby
函數按照 by
參數指定的欄位將數據集分組,每個group
是一個二元的元組。
第一個元素是用來分組的欄位值,第二個元素是分組之後的數據集。
4.3. 分析結果可視化
拆分好數據集之後,最就是可視化展示。
首先封裝一個函數,用來顯示2個數據:
(直接使用上面分割好的數據集dict_group
)
import pandas as pd
import matplotlib
import matplotlib.pyplot as plt
from matplotlib.ticker import MultipleLocator
%matplotlib inline
#為了顯示中文
matplotlib.rcParams["font.sans-serif"] = ["Microsoft YaHei Mono"]
matplotlib.rcParams["axes.unicode_minus"] = False
#根據key顯示兩個數據集
def draw(key1, key2):
with plt.style.context("seaborn-v0_8"):
fig = plt.figure()
ax = fig.add_axes([0.1, 0.1, 0.8, 0.8])
ax.xaxis.set_major_locator(MultipleLocator(4))
ax.xaxis.set_minor_locator(MultipleLocator(2))
data = dict_group[key1]
ax.plot(data["sjCN"], data["value"], "b--o", label=key1)
data = dict_group[key2]
ax.plot(data["sjCN"], data["value"], "g:d", label=key2)
ax.legend()
首先看下男女人口的變化趨勢:
key1 = "女性人口(萬人)"
key2 = "男性人口(萬人)"
#男性人口和女性人口的變化趨勢
dict_group[key1] = dict_group[key1].sort_values("sj")
dict_group[key2] = dict_group[key2].sort_values("sj")
draw(key1, key2)
看這個趨勢變化,男女人口的差距長期都在幾千萬上下,所以找不到女朋友也許不是你的責任 : )
再看看城鎮和鄉村的人口變化。
key1 = "鄉村人口(萬人)"
key2 = "城鎮人口(萬人)"
#鄉村人口和城鎮人口的變化趨勢
dict_group[key1] = dict_group[key1].sort_values("sj")
dict_group[key2] = dict_group[key2].sort_values("sj")
draw(key1, key2)
從圖中可以看出,1994年左右,鄉村人口開始進入城鎮;
2010年左右,城鎮人口開始超越鄉村人口,且人口差距越來越大。
折線圖最適合的場景就是展示這類有趨勢變化的數據。