【scikit-learn基礎】--『數據載入』之樣本生成器

来源:https://www.cnblogs.com/wang_yb/archive/2023/12/08/17884401.html
-Advertisement-
Play Games

除了內置的數據集,scikit-learn還提供了隨機樣本的生成器。通過這些生成器函數,可以生成具有特定特性和分佈的隨機數據集,以幫助進行機器學習演算法的研究、測試和比較。 目前,scikit-learn庫(v1.3.0版)中有20個不同的生成樣本的函數。本篇重點介紹其中幾個具有代表性的函數。 1. ...


除了內置的數據集,scikit-learn還提供了隨機樣本的生成器。
通過這些生成器函數,可以生成具有特定特性和分佈的隨機數據集,以幫助進行機器學習演算法的研究、測試和比較。

目前,scikit-learn庫(v1.3.0版)中有20個不同的生成樣本的函數。
本篇重點介紹其中幾個具有代表性的函數。

1. 分類聚類數據樣本

分類和聚類是機器學習中使用頻率最高的演算法,創建各種相關的樣本數據,能夠幫助我們更好的試驗演算法。

1.1. make_blobs

這個函數通常用於可視化分類器的學習過程,它生成由聚類組成的非線性數據集。

import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs

X, Y = make_blobs(n_samples=1000, centers=5)
plt.scatter(X[:, 0], X[:, 1], marker="o", c=Y, s=25)

plt.show()

image.png
上面的示例生成了1000個點的數據,分為5個類別。

make_blobs的主要參數包括:

  • n_samples:生成的樣本數。
  • n_features:每個樣本的特征數。通常為2,表示我們生成的是二維數據。
  • centers:聚類的數量。即生成的樣本會被分為多少類。
  • cluster_std:每個聚類的標準差。這決定了聚類的形狀和大小。
  • shuffle:是否在生成數據後打亂樣本。
  • random_state:隨機數生成器的種子。這確保了每次運行代碼時生成的數據集都是一樣的。

1.2. make_classification

這是一個用於生成複雜二維數據的函數,通常用於可視化分類器的學習過程或者測試機器學習演算法的性能。

import matplotlib.pyplot as plt
from sklearn.datasets import make_classification

X, Y = make_classification(n_samples=100, n_classes=4, n_clusters_per_class=1)
plt.scatter(X[:, 0], X[:, 1], marker="o", c=Y, s=25)

plt.show()

image.png
可以看出它生成的各類數據交織在一起,很難做線性的分類。

make_classification的主要參數包括:

  • n_samples:生成的樣本數。
  • n_features:每個樣本的特征數。這個參數決定了生成的數據集的維度。
  • n_informative:具有信息量的特征的數量。這個參數決定了特征集中的特征有多少是有助於分類的。
  • n_redundant:冗餘特征的數量。這個參數決定了特征集中的特征有多少是重覆或者沒有信息的。
  • random_state:隨機數生成器的種子。這確保了每次運行代碼時生成的數據集都是一樣的。

1.3. make_moons

和函數名稱所表達的一樣,它是一個用於生成形狀類似於月牙的數據集的函數,通常用於可視化分類器的學習過程或者測試機器學習演算法的性能。

from sklearn.datasets import make_moons

fig, ax = plt.subplots(1, 3)
fig.set_size_inches(9, 3)

X, Y = make_moons(noise=0.01, n_samples=1000)
ax[0].scatter(X[:, 0], X[:, 1], marker="o", c=Y, s=25)
ax[0].set_title("noise=0.01")

X, Y = make_moons(noise=0.05, n_samples=1000)
ax[1].scatter(X[:, 0], X[:, 1], marker="o", c=Y, s=25)
ax[1].set_title("noise=0.05")

X, Y = make_moons(noise=0.5, n_samples=1000)
ax[2].scatter(X[:, 0], X[:, 1], marker="o", c=Y, s=25)
ax[2].set_title("noise=0.5")

plt.show()

image.png
noise越小,數據的分類越明顯。

make_moons的主要參數包括:

  • n_samples:生成的樣本數。
  • noise:在數據集中添加的雜訊的標準差。這個參數決定了月牙的雜訊程度。
  • random_state:隨機數生成器的種子。這確保了每次運行代碼時生成的數據集都是一樣的。

2. 回歸數據樣本

除了分類聚類回歸是機器學習的另一個重要方向。
scikit-learn同樣也提供了創建回歸數據樣本的函數。

from sklearn.datasets import make_regression

fig, ax = plt.subplots(1, 3)
fig.set_size_inches(9, 3)

X, y = make_regression(n_samples=100, n_features=1, noise=20)
ax[0].scatter(X[:, 0], y, marker="o")
ax[0].set_title("noise=20")

X, y = make_regression(n_samples=100, n_features=1, noise=10)
ax[1].scatter(X[:, 0], y, marker="o")
ax[1].set_title("noise=10")

X, y = make_regression(n_samples=100, n_features=1, noise=1)
ax[2].scatter(X[:, 0], y, marker="o")
ax[2].set_title("noise=1")

plt.show()

image.png
通過調節noise參數,可以創建不同精確度的回歸數據。

make_regression的主要參數包括:

  • n_samples:生成的樣本數。
  • n_features:每個樣本的特征數。通常為一個較小的值,表示我們生成的是一維數據。
  • noise:噪音的大小。它為數據添加一些隨機雜訊,以使結果更接近現實情況。

3. 流形數據樣本

所謂流形數據,就是S形或者瑞士捲那樣旋轉的數據,可以用來測試更複雜的分類模型的效果。
比如下麵的make_s_curve函數,就可以創建S形的數據:

from sklearn.datasets import make_s_curve

X, Y = make_s_curve(n_samples=2000)

fig, ax = plt.subplots(subplot_kw={"projection": "3d"})
fig.set_size_inches((8, 8))
ax.scatter(X[:, 0], X[:, 1], X[:, 2], c=Y, s=60, alpha=0.8)
ax.view_init(azim=-60, elev=9)
plt.show()

image.png

4. 總結

本文介紹的生成樣本數據的函數只是scikit-learn庫中各種生成器的一部分,
還有很多種其他的生成器函數可以生成更加複雜的樣本數據。

所有的生成器函數請參考文檔:
https://scikit-learn.org/stable/modules/classes.html#samples-generator


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1.傳值和傳址的區別 傳值就是傳入一個參數的值,傳址就是傳入一個參數的地址,也就是記憶體的地址(相當於指針)。他們的區別是如果函數裡面對傳入的參數重新賦值,函數外的全局變數是否相應改變,用傳值傳入的參數是不會改變的,用傳址傳入就會改變。 a=1 def f(b): b=2 f(a) print (a) ...
  • 重覆的操作令手工測試苦不堪言,於是自動化測試出現了!作為web應用里最出名的自動化測試工具,selenium讓web應用的測試輕鬆了很多。今天我們就來簡單的介紹一下一些簡單的selenium瀏覽器操作。接下來我們就來看看python怎麼操作瀏覽器的吧! 1、打開指定的網頁地址 我們使用seleniu ...
  • 使用freemarker,導出製作好的ftl模板,並寫入數據 一、背景 1.1 項目背景 最近在開發一個項目,需要導出一些數據,然後寫入到word文檔中,然後再導出到本地,這個需求是比較常見的,但是我在網上找了很多資料,都沒有找到一個比較好的解決方案,所以就自己寫了一個,這裡分享給大家,希望能幫助到 ...
  • 目標現狀及問題 目標: 已有的國內項目,需要部署國際化。需要考慮幣種、金額貨幣精度、多語言、匯率、稅等一系列問題。這裡主要說的就是其中金額精度的處理。 現狀: 日常國內項目里,界面輸入的金額是元,然後資料庫存儲以及與其他系統交互都是用的分,也是就固定的貨幣精度繫數100。 問題: 那麼國際化項目後, ...
  • 從0到1,手把手帶你開發截圖工具ScreenCap------003實現最小化程式到托盤運行,- 為了方便截圖乾凈,實現最小化程式到托盤運行,簡潔,勿擾,實現最小化程式到托盤運行, 實現托盤菜單功能,實現回顯主窗體, 實現托盤開始截屏, 實現氣泡信息提示,實現托盤程式提示,實現托盤退出程式, 封裝完... ...
  • 目錄 基本說明 安裝 Nginx 部署 VUE 前端 部署 Django 後端 Django admin 靜態文件(CSS,JS等)丟失的問題 總結 1. 基本說明 本文介紹了在 windows 伺服器下,通過 Nginx 部署 VUE + Django 前後端分離項目。本項目前端運行在 80 埠 ...
  • 每次談到容器的時候,除了Docker之外,都會說起 Kubernetes,那麼什麼是 Kubernetes呢?今天就來一起學快速入門一下 Kubernetes 吧!希望本文對您有所幫助。 Kubernetes,一種用於管理和自動化雲中容器化工作負載的工具。 想象一下你有一個管弦樂隊,將每個音樂家視為 ...
  • 從0到1,手把手帶你開發截圖工具ScreenCap------002實現通過文件對話框,選擇合適的文件夾,自定義預設的圖片保存位置,簡單易學 ...
一周排行
    -Advertisement-
    Play Games
  • 最近做項目過程中,使用到了海康相機,官方只提供了C/C++的SDK,沒有搜尋到一個合適的封裝了的C#庫,故自己動手,簡單的封裝了一下,方便大家也方便自己使用和二次開發 ...
  • 前言 MediatR 是 .NET 下的一個實現消息傳遞的庫,輕量級、簡潔高效,用於實現進程內的消息傳遞機制。它基於中介者設計模式,支持請求/響應、命令、查詢、通知和事件等多種消息傳遞模式。通過泛型支持,MediatR 可以智能地調度不同類型的消息,非常適合用於領域事件處理。 在本文中,將通過一個簡 ...
  • 前言 今天給大家推薦一個超實用的開源項目《.NET 7 + Vue 許可權管理系統 小白快速上手》,DncZeus的願景就是做一個.NET 領域小白也能上手的簡易、通用的後臺許可權管理模板系統基礎框架。 不管你是技術小白還是技術大佬或者是不懂前端Vue 的新手,這個項目可以快速上手讓我們從0到1,搭建自 ...
  • 第1章:WPF概述 本章目標 瞭解Windows圖形演化 瞭解WPF高級API 瞭解解析度無關性概念 瞭解WPF體繫結構 瞭解WPF 4.5 WPF概述 ​ 歡迎使用 Windows Presentation Foundation (WPF) 桌面指南,這是一個與解析度無關的 UI 框架,使用基於矢 ...
  • 在日常開發中,並不是所有的功能都是用戶可見的,還在一些背後默默支持的程式,這些程式通常以服務的形式出現,統稱為輔助角色服務。今天以一個簡單的小例子,簡述基於.NET開發輔助角色服務的相關內容,僅供學習分享使用,如有不足之處,還請指正。 ...
  • 第3章:佈局 本章目標 理解佈局的原則 理解佈局的過程 理解佈局的容器 掌握各類佈局容器的運用 理解 WPF 中的佈局 WPF 佈局原則 ​ WPF 視窗只能包含單個元素。為在WPF 視窗中放置多個元素並創建更貼近實用的用戶男面,需要在視窗上放置一個容器,然後在這個容器中添加其他元素。造成這一限制的 ...
  • 前言 在平時項目開發中,定時任務調度是一項重要的功能,廣泛應用於後臺作業、計劃任務和自動化腳本等模塊。 FreeScheduler 是一款輕量級且功能強大的定時任務調度庫,它支持臨時的延時任務和重覆迴圈任務(可持久化),能夠按秒、每天/每周/每月固定時間或自定義間隔執行(CRON 表達式)。 此外 ...
  • 目錄Blazor 組件基礎路由導航參數組件參數路由參數生命周期事件狀態更改組件事件 Blazor 組件 基礎 新建一個項目命名為 MyComponents ,項目模板的交互類型選 Auto ,其它保持預設選項: 客戶端組件 (Auto/WebAssembly): 最終解決方案裡面會有兩個項目:伺服器 ...
  • 先看一下效果吧: isChecked = false 的時候的效果 isChecked = true 的時候的效果 然後我們來實現一下這個效果吧 第一步:創建一個空的wpf項目; 第二步:在項目裡面添加一個checkbox <Grid> <CheckBox HorizontalAlignment=" ...
  • 在編寫上位機軟體時,需要經常處理命令拼接與其他設備進行通信,通常對不同的命令封裝成不同的方法,擴展稍許麻煩。 本次擬以特性方式實現,以兼顧維護性與擴展性。 思想: 一種命令對應一個類,其類中的各個屬性對應各個命令段,通過特性的方式,實現其在這包數據命令中的位置、大端或小端及其轉換為對應的目標類型; ...