Python實現常用的假設檢驗

来源:https://www.cnblogs.com/123456feng/archive/2022/04/12/16132444.html
-Advertisement-
Play Games

開門見山。 這篇文章,教大家用Python實現常用的假設檢驗! 服從什麼分佈,就用什麼區間估計方式,也就就用什麼檢驗! 比如:兩個樣本方差比服從F分佈,區間估計就採用F分佈計算臨界值(從而得出置信區間),最終採用F檢驗。 建設檢驗的基本步驟: 前言 假設檢驗用到的Python工具包 •Statsmo ...


開門見山。

這篇文章,教大家用Python實現常用的假設檢驗!

在這裡插入圖片描述

服從什麼分佈,就用什麼區間估計方式,也就就用什麼檢驗!

比如:兩個樣本方差比服從F分佈,區間估計就採用F分佈計算臨界值(從而得出置信區間),最終採用F檢驗。

在這裡插入圖片描述

在這裡插入圖片描述

建設檢驗的基本步驟:

在這裡插入圖片描述

前言

假設檢驗用到的Python工具包

•Statsmodels是Python中,用於實現統計建模和計量經濟學的工具包,主要包括描述統計、統計模型估計和統計推斷

•Scipy是一個數學、科學和工程計算Python工具包,主要包括統計,優化,整合,線性代數等等與科學計算有關的包

導入數據

python學習交流Q群:906715085####
from sklearn.datasets import load_iris
import numpy as np
#導入IRIS數據集
iris = load_iris()
iris=pd.DataFrame(iris.data,columns=
['sepal_length','sepal_width','petal_legth','petal_width'])print(iris)
一個總體均值的z檢驗

Python學習交流Q群:906715085###
np.mean(iris['petal_legth'])
'''
原假設:鳶尾花花瓣平均長度是4.2
備擇假設:鳶尾花花瓣平均長度不是4.2
'''
import statsmodels.stats.weightstats
z, pval = 
statsmodels.stats.weightstats.ztest(iris
['petal_legth'], value=4.2)
print(z,pval)

'''
P=0.002 <5%, 拒絕原假設,接受備則假設。
'''
一個總體均值的t檢驗

import scipy.stats
t, pval = scipy.stats.ttest_1samp(iris
['petal_legth'], popmean=4.0)print(t, pval)
'''
P=0.0959 > 5%, 接受原假設,即花瓣長度為4.0。
 '''

 

模擬雙樣本t檢驗

#取兩個樣本
iris_1 = iris[iris.petal_legth >= 2]
iris_2 = iris[iris.petal_legth < 2]
print(np.mean(iris_1['petal_legth']))
print(np.mean(iris_2['petal_legth']))
'''
H0: 兩種鳶尾花花瓣長度一樣
H1: 兩種鳶尾花花瓣長度不一樣
'''

import scipy.stats
t, pval = scipy.stats.ttest_ind(iris_1
['petal_legth'],iris_2['petal_legth'])
print(t,pval)
'''
p<0.05,拒絕H0,認為兩種鳶尾花花瓣長度不一樣
'''

 

在這裡插入圖片描述

練習

數據欄位說明:

•gender:性別,1為男性,2為女性

•Temperature:體溫

•HeartRate:心率

•共130行,3列

•用到的數據鏈接:pan.baidu.com/s/1t4SKF6

本周需要解決的幾個小問題:

  1. 人體體溫的總體均值是否為98.6華氏度?

  2. 人體的溫度是否服從正態分佈?

  3. 人體體溫中存在的異常數據是哪些?

  4. 男女體溫是否存在明顯差異?

  5. 體溫與心率間的相關性(強?弱?中等?)

1.1 探索數據

import numpy as np
import pandas as pd
from scipy import stats
data = pd.read_csv
("C:\\Users\\baihua\\Desktop\\test.csv")
print(data.head())
sample_size = data.size #130*3
out:   
Temperature  Gender  HeartRate
0         96.3       1         70
1         96.7       1         71
2         96.9       1         74
3         97.0       1         80
4         97.1       1         73
print(data.describe())
out: 
Temperature      
Gender   HeartRatecount   130.000000  130.000000  130.000000
mean     98.249231    1.500000   73.761538
std       0.733183    0.501934    7.062077
min      96.300000    1.000000   57.000000
25%      97.800000    1.000000   69.000000
50%      98.300000    1.500000   74.000000
75%      98.700000    2.000000   79.000000
max     100.800000    2.000000   89.000000
人體體溫均值是98.249231

 

1.2 人體的溫度是否服從正態分佈?

'''
人體的溫度是否服從正態分佈?
先畫出分佈的直方圖,然後使用scipy.stat.kstest
函數進行判斷。

'''
%matplotlib inline
import seaborn as 
snssns.distplot(data['Temperature'], 
color='b', bins=10, kde=True)

 

在這裡插入圖片描述
stats.kstest(data['Temperature'], 'norm')
out:
KstestResult(statistic=1.0, pvalue=0.0)
'''
p<0.05,不符合正態分佈
'''
判斷是否服從t分佈

'''判斷是否服從t分佈:
'''
np.random.seed(1)
ks = stats.t.fit(data['Temperature'])
df = ks[0]
loc = ks[1]
scale = ks[2]
t_estm = stats.t.rvs(df=df, loc=loc, 
scale=scale, size=sample_size)
stats.ks_2samp(data['Temperature'], 
t_estm)

'''
 pvalue=0.4321464176976891 <0.05,認為體溫服從t分佈
 '''
判斷是否服從卡方分佈

'''
判斷是否服從卡方分佈:

'''np.random.seed(1)
chi_square = stats.chi2.fit(data
['Temperature'])
df = chi_square[0]
loc = chi_square[1]
scale = chi_square[2]
chi_estm = stats.chi2.rvs(df=df, loc=loc, 
scale=scale, size=sample_size)
stats.ks_2samp(data['Temperature'],
 chi_estm)
'''
pvalue=0.3956146564478842>0.05,認為體溫服從卡方分佈
'''

 

繪製卡方分佈直方圖

'''
繪製卡方分佈圖

'''
from matplotlib import pyplot as plt
plt.figure()
data['Temperature'].plot(kind = 'kde')
chi2_distribution = stats.chi2(chi_square
[0], chi_square[1],chi_square[2])
x = np.linspace(chi2_distribution.ppf
(0.01), chi2_distribution.ppf(0.99), 100)
plt.plot(x, chi2_distribution.pdf(x),
 c='orange')
 plt.xlabel('Human temperature')
 plt.title('temperature on chi_square',
  size=20)
 plt.legend(['test_data', 'chi_square'])

 

在這裡插入圖片描述

1.3 人體體溫中存在的異常數據是哪些?

'''
已知體溫數據服從卡方分佈的情況下,可以直接使用
Python計算出P=0.025和P=0.925時(該函數使用單側概率值)的分佈值,在分佈值兩側的數據屬於小概率,認為是異常值。
'''
lower1=chi2_distribution.ppf(0.025)
lower2=chi2_distribution.ppf(0.925)
t=data['Temperature']
print(t[t<lower1] )
print(t[t>lower2])

out:
0     96.3
1     96.7
65    96.4
66    96.7
67    96.8
Name: Temperature, dtype: float64
63      99.4
64      99.5
126     99.4
127     99.9
128    100.0
129    100.8
Name: Temperature, dtype: float64

 

1.4 男女體溫差異是否顯著

'''
此題是一道兩個總體均值之差的假設檢驗問題,因為是否存在差別並不涉及方向,所以是雙側檢驗。建立原假設和備擇假設如下:
H0:u1-u2 =0  沒有顯著差
H1:u1-u2 != 0  有顯著差別

'''
data.groupby(['Gender']).size() #樣本量65
male_df = data.loc[data['Gender'] == 1]
female_df = data.loc[data['Gender'] == 2]

'''
使用Python自帶的函數,P用的雙側累計概率
'''

import scipy.stats
t, pval = scipy.stats.ttest_ind(male_df
['Temperature'],female_df['Temperature'])
print(t,pval)if pval > 0.05:    
print('不能拒絕原假設,男女體溫無明顯差異。')
else:    
print('拒絕原假設,男女體溫存在明顯差異。')
out:
-2.2854345381654984 0.02393188312240236拒絕原假設,男女體溫存在明顯差異。

 

在這裡插入圖片描述

1.5 體溫與心率間的相關性(強?弱?中等?)

'''
體溫與心率間的相關性(強?弱?中等?)
'''
heartrate_s = data['HeartRate']
temperature_s = data['Temperature']
from matplotlib import pyplot as plt
plt.scatter(heartrate_s, temperature_s)

 

在這裡插入圖片描述

stat, p = stats.pearsonr(heartrate_s,
 temperature_s)
 print('stat=%.3f, p=%.3f' % (stat, p))
 print(stats.pearsonr(heartrate_s,
  temperature_s))
'''
相關係數為0.004,可以認為二者之間沒有相關性
'''

 

最後,今天給大家分享的這篇文章到這裡就結束了,喜歡的小伙伴記得點贊收藏,有問題的小伙伴記得及時提出來解決問題,下一篇文章見了。
在這裡插入圖片描述


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • package scanner;import java.util.Scanner;public class Demo4 { public static void main(String[] args){ Scanner s4=new Scanner(System.in); //從鍵盤接收數據 int ...
  • 今天是充實的一天 晨讀 你敢相信從早上6點40就起床了,跑去晨讀賺了0.1學分。 一早上的軟體測試 早八的正確打開方式就是進入了超星課堂,開啟了軟體測試的課堂,學習了等價類邊界值綜合(用戶登錄的測試),由於對新知識的熟悉度不好,整個早上做了四個版本,直到最後才完成,還錯過了提交時間,一整個要炸掉了。 ...
  • fastposter v2.7.1 緊急發佈 電商海報編輯器 fastposter海報生成器,電商海報編輯器,電商海報設計器,fast快速生成海報 海報製作 海報開發。二維碼海報,圖片海報,分享海報,二維碼推廣海報,支持Java Python PHP Go JS 小程式。基於Vue 和Pillow ...
  • 相信在座各位應該沒有幾個不看小說的吧,嘿嘿~ 一般來說咱們書荒的時候怎麼辦?自然是去起某點排行榜先找到小說名字,然後再找度娘一搜,哎 ,筆趣閣就出來答案了,美滋滋~ 但是那多麻煩,咱們直接用python,直接全部下載下來慢慢看不就好了~ 小孩子才做選擇,成年人選擇都要… 好了,不啰嗦了,等下大家要罵 ...
  • google 出品的依賴註入庫 wire:https://github.com/google/wire 什麼是依賴註入 依賴註入 ,英文全名是 dependency injection,簡寫為 DI。 百科解釋: 依賴註入是指程式運行過程中,如果需要調用另一個對象協助時,無須在代碼中創建被調用者,而 ...
  • 目錄 一.簡介 二.猜你喜歡 零基礎 OpenGL (ES) 學習路線推薦 : OpenGL (ES) 學習目錄 >> OpenGL ES 基礎 零基礎 OpenGL (ES) 學習路線推薦 : OpenGL (ES) 學習目錄 >> OpenGL ES 轉場 零基礎 OpenGL (ES) 學習路 ...
  • 前言 最近有人對自動上傳與發佈很感興趣,都私下找我說了好幾次了。今天,必須把他安排,必須實力寵粉。 “本篇依次介紹目前主流的短視頻平臺(抖音、快手、B站、小紅書、微視、百度好看視頻、西瓜視頻、微信視頻號、搜狐視 頻、一點號、大風號、趣頭條等)的短視頻自動發佈,希望幫助大家更方便、高效的來進行自媒體的 ...
  • LeetCode_141:https://leetcode-cn.com/problems/linked-list-cycle/ 給你一個鏈表的頭節點 head ,判斷鏈表中是否有環。 如果鏈表中有某個節點,可以通過連續跟蹤 next 指針再次到達,則鏈表中存在環。 如果鏈表中存在環 ,則返回 tr ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...