現有一份血壓數據,樣本記錄500條數據,包括三個值:血壓、是否抽煙、體重過重級別。 數據樣例: 血壓數據的可視化和分析(1)—— 利用 Excel 查看數據概況 在 Excel 中,利用散點圖首先對這三列數據進行可視化,瞭解數據分佈的概況。 可見收縮壓數據在250左右有一個明顯的分界,之前的數據都在 ...
根據世界衛生組織規定,成人收縮壓≥140mmHg或(和)舒張壓≥90mmHg時即可確診為高血壓。收縮壓≤120mmHg稱為理想血壓,收縮壓≤130mmHg稱為正常血壓,介於130和140之間者,稱為臨界高血壓。
現有一份血壓數據,樣本記錄500條數據,包括三個值:血壓、是否抽煙、體重過重級別。
數據樣例:
血壓數據的可視化和分析(1)—— 利用 Excel 查看數據概況
在 Excel 中,利用散點圖首先對這三列數據進行可視化,瞭解數據分佈的概況。
- 各列數據的獨立分佈
可見收縮壓數據在250左右有一個明顯的分界,之前的數據都在150以下,之後的數據都在150以上。收縮壓範圍在50-250之間
是否抽煙的數據分佈,只有兩個值,一般來說1表明是,0表示否。
體重級別的數據分佈分3類,不能確定0,1,2分別代表什麼意思,這部分說明數據提供者沒有給出,我們在接下來的數據分析中進行猜測。
2. SystolicBP和Smoke的相關分佈
從中可以看出不抽煙的人群收縮壓下限明顯要低一些。
3. SystolicBP和Overwt的相關分佈
可以看到體重級別為0的人,收縮壓下限較低。
由圖2,中間部分重疊嚴重,我們看不出具體的密度分佈,不抽煙的人到底120多一些,還是150多一些呢?符合這類要求圖表目前無法在Excel中簡單地建立,我們通過Python/R等可視化工具來做進一步分析。