【scikit-learn基礎】--『數據載入』之樣本生成器

来源:https://www.cnblogs.com/wang_yb/archive/2023/12/08/17884401.html
-Advertisement-
Play Games

除了內置的數據集,scikit-learn還提供了隨機樣本的生成器。通過這些生成器函數,可以生成具有特定特性和分佈的隨機數據集,以幫助進行機器學習演算法的研究、測試和比較。 目前,scikit-learn庫(v1.3.0版)中有20個不同的生成樣本的函數。本篇重點介紹其中幾個具有代表性的函數。 1. ...


除了內置的數據集,scikit-learn還提供了隨機樣本的生成器。
通過這些生成器函數,可以生成具有特定特性和分佈的隨機數據集,以幫助進行機器學習演算法的研究、測試和比較。

目前,scikit-learn庫(v1.3.0版)中有20個不同的生成樣本的函數。
本篇重點介紹其中幾個具有代表性的函數。

1. 分類聚類數據樣本

分類和聚類是機器學習中使用頻率最高的演算法,創建各種相關的樣本數據,能夠幫助我們更好的試驗演算法。

1.1. make_blobs

這個函數通常用於可視化分類器的學習過程,它生成由聚類組成的非線性數據集。

import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs

X, Y = make_blobs(n_samples=1000, centers=5)
plt.scatter(X[:, 0], X[:, 1], marker="o", c=Y, s=25)

plt.show()

image.png
上面的示例生成了1000個點的數據,分為5個類別。

make_blobs的主要參數包括:

  • n_samples:生成的樣本數。
  • n_features:每個樣本的特征數。通常為2,表示我們生成的是二維數據。
  • centers:聚類的數量。即生成的樣本會被分為多少類。
  • cluster_std:每個聚類的標準差。這決定了聚類的形狀和大小。
  • shuffle:是否在生成數據後打亂樣本。
  • random_state:隨機數生成器的種子。這確保了每次運行代碼時生成的數據集都是一樣的。

1.2. make_classification

這是一個用於生成複雜二維數據的函數,通常用於可視化分類器的學習過程或者測試機器學習演算法的性能。

import matplotlib.pyplot as plt
from sklearn.datasets import make_classification

X, Y = make_classification(n_samples=100, n_classes=4, n_clusters_per_class=1)
plt.scatter(X[:, 0], X[:, 1], marker="o", c=Y, s=25)

plt.show()

image.png
可以看出它生成的各類數據交織在一起,很難做線性的分類。

make_classification的主要參數包括:

  • n_samples:生成的樣本數。
  • n_features:每個樣本的特征數。這個參數決定了生成的數據集的維度。
  • n_informative:具有信息量的特征的數量。這個參數決定了特征集中的特征有多少是有助於分類的。
  • n_redundant:冗餘特征的數量。這個參數決定了特征集中的特征有多少是重覆或者沒有信息的。
  • random_state:隨機數生成器的種子。這確保了每次運行代碼時生成的數據集都是一樣的。

1.3. make_moons

和函數名稱所表達的一樣,它是一個用於生成形狀類似於月牙的數據集的函數,通常用於可視化分類器的學習過程或者測試機器學習演算法的性能。

from sklearn.datasets import make_moons

fig, ax = plt.subplots(1, 3)
fig.set_size_inches(9, 3)

X, Y = make_moons(noise=0.01, n_samples=1000)
ax[0].scatter(X[:, 0], X[:, 1], marker="o", c=Y, s=25)
ax[0].set_title("noise=0.01")

X, Y = make_moons(noise=0.05, n_samples=1000)
ax[1].scatter(X[:, 0], X[:, 1], marker="o", c=Y, s=25)
ax[1].set_title("noise=0.05")

X, Y = make_moons(noise=0.5, n_samples=1000)
ax[2].scatter(X[:, 0], X[:, 1], marker="o", c=Y, s=25)
ax[2].set_title("noise=0.5")

plt.show()

image.png
noise越小,數據的分類越明顯。

make_moons的主要參數包括:

  • n_samples:生成的樣本數。
  • noise:在數據集中添加的雜訊的標準差。這個參數決定了月牙的雜訊程度。
  • random_state:隨機數生成器的種子。這確保了每次運行代碼時生成的數據集都是一樣的。

2. 回歸數據樣本

除了分類聚類回歸是機器學習的另一個重要方向。
scikit-learn同樣也提供了創建回歸數據樣本的函數。

from sklearn.datasets import make_regression

fig, ax = plt.subplots(1, 3)
fig.set_size_inches(9, 3)

X, y = make_regression(n_samples=100, n_features=1, noise=20)
ax[0].scatter(X[:, 0], y, marker="o")
ax[0].set_title("noise=20")

X, y = make_regression(n_samples=100, n_features=1, noise=10)
ax[1].scatter(X[:, 0], y, marker="o")
ax[1].set_title("noise=10")

X, y = make_regression(n_samples=100, n_features=1, noise=1)
ax[2].scatter(X[:, 0], y, marker="o")
ax[2].set_title("noise=1")

plt.show()

image.png
通過調節noise參數,可以創建不同精確度的回歸數據。

make_regression的主要參數包括:

  • n_samples:生成的樣本數。
  • n_features:每個樣本的特征數。通常為一個較小的值,表示我們生成的是一維數據。
  • noise:噪音的大小。它為數據添加一些隨機雜訊,以使結果更接近現實情況。

3. 流形數據樣本

所謂流形數據,就是S形或者瑞士捲那樣旋轉的數據,可以用來測試更複雜的分類模型的效果。
比如下麵的make_s_curve函數,就可以創建S形的數據:

from sklearn.datasets import make_s_curve

X, Y = make_s_curve(n_samples=2000)

fig, ax = plt.subplots(subplot_kw={"projection": "3d"})
fig.set_size_inches((8, 8))
ax.scatter(X[:, 0], X[:, 1], X[:, 2], c=Y, s=60, alpha=0.8)
ax.view_init(azim=-60, elev=9)
plt.show()

image.png

4. 總結

本文介紹的生成樣本數據的函數只是scikit-learn庫中各種生成器的一部分,
還有很多種其他的生成器函數可以生成更加複雜的樣本數據。

所有的生成器函數請參考文檔:
https://scikit-learn.org/stable/modules/classes.html#samples-generator


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1.傳值和傳址的區別 傳值就是傳入一個參數的值,傳址就是傳入一個參數的地址,也就是記憶體的地址(相當於指針)。他們的區別是如果函數裡面對傳入的參數重新賦值,函數外的全局變數是否相應改變,用傳值傳入的參數是不會改變的,用傳址傳入就會改變。 a=1 def f(b): b=2 f(a) print (a) ...
  • 重覆的操作令手工測試苦不堪言,於是自動化測試出現了!作為web應用里最出名的自動化測試工具,selenium讓web應用的測試輕鬆了很多。今天我們就來簡單的介紹一下一些簡單的selenium瀏覽器操作。接下來我們就來看看python怎麼操作瀏覽器的吧! 1、打開指定的網頁地址 我們使用seleniu ...
  • 使用freemarker,導出製作好的ftl模板,並寫入數據 一、背景 1.1 項目背景 最近在開發一個項目,需要導出一些數據,然後寫入到word文檔中,然後再導出到本地,這個需求是比較常見的,但是我在網上找了很多資料,都沒有找到一個比較好的解決方案,所以就自己寫了一個,這裡分享給大家,希望能幫助到 ...
  • 目標現狀及問題 目標: 已有的國內項目,需要部署國際化。需要考慮幣種、金額貨幣精度、多語言、匯率、稅等一系列問題。這裡主要說的就是其中金額精度的處理。 現狀: 日常國內項目里,界面輸入的金額是元,然後資料庫存儲以及與其他系統交互都是用的分,也是就固定的貨幣精度繫數100。 問題: 那麼國際化項目後, ...
  • 從0到1,手把手帶你開發截圖工具ScreenCap------003實現最小化程式到托盤運行,- 為了方便截圖乾凈,實現最小化程式到托盤運行,簡潔,勿擾,實現最小化程式到托盤運行, 實現托盤菜單功能,實現回顯主窗體, 實現托盤開始截屏, 實現氣泡信息提示,實現托盤程式提示,實現托盤退出程式, 封裝完... ...
  • 目錄 基本說明 安裝 Nginx 部署 VUE 前端 部署 Django 後端 Django admin 靜態文件(CSS,JS等)丟失的問題 總結 1. 基本說明 本文介紹了在 windows 伺服器下,通過 Nginx 部署 VUE + Django 前後端分離項目。本項目前端運行在 80 埠 ...
  • 每次談到容器的時候,除了Docker之外,都會說起 Kubernetes,那麼什麼是 Kubernetes呢?今天就來一起學快速入門一下 Kubernetes 吧!希望本文對您有所幫助。 Kubernetes,一種用於管理和自動化雲中容器化工作負載的工具。 想象一下你有一個管弦樂隊,將每個音樂家視為 ...
  • 從0到1,手把手帶你開發截圖工具ScreenCap------002實現通過文件對話框,選擇合適的文件夾,自定義預設的圖片保存位置,簡單易學 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...