【scikit-learn基礎】--『監督學習』之 線性回歸

来源:https://www.cnblogs.com/wang_yb/archive/2023/12/25/17925455.html
-Advertisement-
Play Games

線性回歸是一種用於連續型分佈預測的機器學習演算法。其基本思想是通過擬合一個線性函數來最小化樣本數據和預測函數之間的誤差。 1. 概述 常見的線性回歸模型就是:\(f(x) = w_0+w_1x_1+w_2x_2+...+w_nx_n\)這樣的一個函數。其中 \((w_1,w_2,...w_n)\)是模 ...


線性回歸是一種用於連續型分佈預測的機器學習演算法。
其基本思想是通過擬合一個線性函數來最小化樣本數據和預測函數之間的誤差。

1. 概述

常見的線性回歸模型就是:\(f(x) = w_0+w_1x_1+w_2x_2+...+w_nx_n\)這樣的一個函數。
其中

  • \((w_1,w_2,...w_n)\)是模型的繫數向量
  • \(w_0\)是截距
  • \((x_1, x_2,...,x_n)\)是樣本數據(n是樣本數據的維度

簡單來說,線性回歸模型的訓練就是通過樣本數據來確定繫數向量\((w_1,w_2,...w_n)\)截距\(w_0\)的具體數值。
然後可以使用模型\(f(x)\)來預測新的樣本數據。

2. 創建樣本數據

首先,用scikit-learn中的自帶的函數,就可以創建出適用於線性回歸場景的樣本數據。

from sklearn.datasets import make_regression
import matplotlib.pyplot as plt

fig, ax = plt.subplots(1, 1)

X, y = make_regression(n_samples=100, n_features=1, noise=10)
ax.scatter(X[:, 0], y, marker="o")
ax.set_title("樣本數據")

plt.show()

通過 make_regression 函數可以幫助我們創建任意的回歸樣本數據。
image.png
具體使用可以參考之前的文章:TODO

3. 模型訓練

訓練線性回歸模型,一般使用最小二乘法,而scikit-learnlinear_model模塊中,
已經封裝好了最小二乘法的訓練演算法。

首先,根據上面的樣本數據,劃分訓練集和測試集。

from sklearn.model_selection import train_test_split

# 分割訓練集和測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1)

上面的代碼按照9:1的比例劃分了訓練集測試集

然後,用基於最小二乘法的線性模型來訓練數據。

from sklearn.linear_model import LinearRegression

# 初始化最小二乘法線性模型
reg = LinearRegression()
# 訓練模型
reg.fit(X_train, y_train)

print("模型的繫數向量:", reg.coef_)
print("模型的繫數截距:", reg.intercept_)

# 運行結果:
模型的繫數向量: [99.59241352]
模型的繫數截距: 0.6889080586801999

reg.coef_就相當於前面的\((w_1,w_2,...w_n)\)
reg.intercept_就相當於前面的 \(w_0\)

這裡的樣本數據為了方便繪圖,只有一個維度。
最後,我們把線性模型訓練集測試集都繪製出來看看效果。

fig, ax = plt.subplots(1, 1)

# 訓練集
ax.scatter(X_train[:, 0], y_train, marker="o", c="g")
# 測試集
ax.scatter(X_test[:, 0], y_test, marker="*", c="r")

# 線性模型
reg_x = np.array([-3, 3])
reg_y = reg.coef_ * reg_x + reg.intercept_
ax.plot(reg_x, reg_y, color="b")

plt.show()

image.png
上圖中,藍色的直線是在訓練集上訓練出來的線性模型
綠色的圓點是訓練集;紅色的五角星是測試集

從圖中可以看出,訓練的效果還不錯。

4. 總結

線性回歸是一種常見的預測模型,可以用在

  1. 預測連續值:比如根據房屋面積和價格的關係預測房價,根據油耗和車輛重量之間的關係預測油耗等等。
  2. 判斷因果關係:比如藥物劑量和血壓之間的關係,或者產品價格和銷售量之間的關係

它的主要優勢有簡單易理解(模型簡單直觀,易於理解和解釋),
易於實施(各種編程語言中都有現成的庫和函數可以方便地實現和應用),
還有穩定性高(對於訓練數據的小變化相對穩定,能夠提供較為準確的結果)。

不過,線性回歸模型需要基於一些假設,如誤差項的獨立性、同方差性等,如果這些假設不滿足,模型可能無法得到準確的結果;
其次,對於一些非線性關係的數據表現可能不佳;
而且,對異常值敏感,如果數據中存在異常值,線性回歸的結果可能會受到較大影響,模型訓練前最好先清洗和處理異常值。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 哈嘍大家好,我是鹹魚 我們在使用 sorted() 或 map() 函數的時候,都會看到裡面有一個 key 參數 其實這個 key 參數也存在於其他內置函數中(例如 min()、max() 等),那麼我們今天就來瞭解一下 key 參數的含義以及用途吧! 原文:https://www.thepytho ...
  • C 語言中的條件和 if...else 語句 您已經學習過 C 語言支持數學中的常見邏輯條件: 小於:a < b 小於或等於:a <= b 大於:a > b 大於或等於:a >= b 等於:a == b 不等於:a != b 您可以使用這些條件來根據不同的決策執行不同的操作。 C 語言具有以下條件語 ...
  • Spring 可能成為您的所有企業應用程式的一站式商店。但是,Spring 是模塊化的,允許您挑選適用於您的模塊,而無需引入其他模塊。下麵的部分提供了 Spring Framework 中所有可用模塊的詳細信息。Spring Framework 提供了大約20個模塊,可以根據應用程式要求使用。 核心 ...
  • Spring 是用於企業 Java 應用程式開發的最流行的應用程式開發框架。全球數百萬開發人員使用 Spring Framework 創建高性能、易於測試和可重用的代碼。Spring Framework 是一個開源的 Java 平臺。它最初由 Rod Johnson 編寫,並於 2003 年 6 月 ...
  • 前言 在日常工作和學習中,有很多地方都需要發送HTTP請求,本文以Java為例,總結髮送HTTP請求的多種方式 HTTP請求實現過程: GET 創建遠程連接 設置連接方式(get、post、put…) 設置連接超時時間 設置響應讀取時間 發起請求 獲取請求數據 關閉連接 POST 創建遠程連接 設置 ...
  • 基於php的服裝商城的設計與實現 1.引言 隨著互聯網的普及和電子商務的快速發展,網路購物已成為人們日常生活的一部分。網路購物商城網站作為電子商務的重要平臺,具有便捷性、高效性和不受時空限制等優勢,越來越受到消費者的青睞。本文旨在設計和實現一個功能完善、操作簡便的網路購物商城網站,以滿足用戶和商家的 ...
  • 目錄概述定義實體類CarsizecarInfo造測試數據Spring BeanUtilsApache BeanUtilsCglib BeanCopierMapStruct性能測試深拷貝or淺拷貝 概述 眾所周知,java世界是由類構成的,各種各樣的類,提供各種各樣的作用,共同創造了一個個的java應 ...
  • Floyd判聯通(傳遞閉包) Floyd傳遞閉包顧名思義就是把判最短路的代碼替換成了判是否連通的代碼,它可以用來判斷圖中兩點是否連通。板子大概是這個樣的: for(int k=1; k<=n; k++){ for(int i=1; i<=n; i++){ for(int j=1; j<=n; j++ ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...