【scikit-learn基礎】--『數據載入』之樣本生成器

来源:https://www.cnblogs.com/wang_yb/archive/2023/12/08/17884401.html
-Advertisement-
Play Games

除了內置的數據集,scikit-learn還提供了隨機樣本的生成器。通過這些生成器函數,可以生成具有特定特性和分佈的隨機數據集,以幫助進行機器學習演算法的研究、測試和比較。 目前,scikit-learn庫(v1.3.0版)中有20個不同的生成樣本的函數。本篇重點介紹其中幾個具有代表性的函數。 1. ...


除了內置的數據集,scikit-learn還提供了隨機樣本的生成器。
通過這些生成器函數,可以生成具有特定特性和分佈的隨機數據集,以幫助進行機器學習演算法的研究、測試和比較。

目前,scikit-learn庫(v1.3.0版)中有20個不同的生成樣本的函數。
本篇重點介紹其中幾個具有代表性的函數。

1. 分類聚類數據樣本

分類和聚類是機器學習中使用頻率最高的演算法,創建各種相關的樣本數據,能夠幫助我們更好的試驗演算法。

1.1. make_blobs

這個函數通常用於可視化分類器的學習過程,它生成由聚類組成的非線性數據集。

import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs

X, Y = make_blobs(n_samples=1000, centers=5)
plt.scatter(X[:, 0], X[:, 1], marker="o", c=Y, s=25)

plt.show()

image.png
上面的示例生成了1000個點的數據,分為5個類別。

make_blobs的主要參數包括:

  • n_samples:生成的樣本數。
  • n_features:每個樣本的特征數。通常為2,表示我們生成的是二維數據。
  • centers:聚類的數量。即生成的樣本會被分為多少類。
  • cluster_std:每個聚類的標準差。這決定了聚類的形狀和大小。
  • shuffle:是否在生成數據後打亂樣本。
  • random_state:隨機數生成器的種子。這確保了每次運行代碼時生成的數據集都是一樣的。

1.2. make_classification

這是一個用於生成複雜二維數據的函數,通常用於可視化分類器的學習過程或者測試機器學習演算法的性能。

import matplotlib.pyplot as plt
from sklearn.datasets import make_classification

X, Y = make_classification(n_samples=100, n_classes=4, n_clusters_per_class=1)
plt.scatter(X[:, 0], X[:, 1], marker="o", c=Y, s=25)

plt.show()

image.png
可以看出它生成的各類數據交織在一起,很難做線性的分類。

make_classification的主要參數包括:

  • n_samples:生成的樣本數。
  • n_features:每個樣本的特征數。這個參數決定了生成的數據集的維度。
  • n_informative:具有信息量的特征的數量。這個參數決定了特征集中的特征有多少是有助於分類的。
  • n_redundant:冗餘特征的數量。這個參數決定了特征集中的特征有多少是重覆或者沒有信息的。
  • random_state:隨機數生成器的種子。這確保了每次運行代碼時生成的數據集都是一樣的。

1.3. make_moons

和函數名稱所表達的一樣,它是一個用於生成形狀類似於月牙的數據集的函數,通常用於可視化分類器的學習過程或者測試機器學習演算法的性能。

from sklearn.datasets import make_moons

fig, ax = plt.subplots(1, 3)
fig.set_size_inches(9, 3)

X, Y = make_moons(noise=0.01, n_samples=1000)
ax[0].scatter(X[:, 0], X[:, 1], marker="o", c=Y, s=25)
ax[0].set_title("noise=0.01")

X, Y = make_moons(noise=0.05, n_samples=1000)
ax[1].scatter(X[:, 0], X[:, 1], marker="o", c=Y, s=25)
ax[1].set_title("noise=0.05")

X, Y = make_moons(noise=0.5, n_samples=1000)
ax[2].scatter(X[:, 0], X[:, 1], marker="o", c=Y, s=25)
ax[2].set_title("noise=0.5")

plt.show()

image.png
noise越小,數據的分類越明顯。

make_moons的主要參數包括:

  • n_samples:生成的樣本數。
  • noise:在數據集中添加的雜訊的標準差。這個參數決定了月牙的雜訊程度。
  • random_state:隨機數生成器的種子。這確保了每次運行代碼時生成的數據集都是一樣的。

2. 回歸數據樣本

除了分類聚類回歸是機器學習的另一個重要方向。
scikit-learn同樣也提供了創建回歸數據樣本的函數。

from sklearn.datasets import make_regression

fig, ax = plt.subplots(1, 3)
fig.set_size_inches(9, 3)

X, y = make_regression(n_samples=100, n_features=1, noise=20)
ax[0].scatter(X[:, 0], y, marker="o")
ax[0].set_title("noise=20")

X, y = make_regression(n_samples=100, n_features=1, noise=10)
ax[1].scatter(X[:, 0], y, marker="o")
ax[1].set_title("noise=10")

X, y = make_regression(n_samples=100, n_features=1, noise=1)
ax[2].scatter(X[:, 0], y, marker="o")
ax[2].set_title("noise=1")

plt.show()

image.png
通過調節noise參數,可以創建不同精確度的回歸數據。

make_regression的主要參數包括:

  • n_samples:生成的樣本數。
  • n_features:每個樣本的特征數。通常為一個較小的值,表示我們生成的是一維數據。
  • noise:噪音的大小。它為數據添加一些隨機雜訊,以使結果更接近現實情況。

3. 流形數據樣本

所謂流形數據,就是S形或者瑞士捲那樣旋轉的數據,可以用來測試更複雜的分類模型的效果。
比如下麵的make_s_curve函數,就可以創建S形的數據:

from sklearn.datasets import make_s_curve

X, Y = make_s_curve(n_samples=2000)

fig, ax = plt.subplots(subplot_kw={"projection": "3d"})
fig.set_size_inches((8, 8))
ax.scatter(X[:, 0], X[:, 1], X[:, 2], c=Y, s=60, alpha=0.8)
ax.view_init(azim=-60, elev=9)
plt.show()

image.png

4. 總結

本文介紹的生成樣本數據的函數只是scikit-learn庫中各種生成器的一部分,
還有很多種其他的生成器函數可以生成更加複雜的樣本數據。

所有的生成器函數請參考文檔:
https://scikit-learn.org/stable/modules/classes.html#samples-generator


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1.傳值和傳址的區別 傳值就是傳入一個參數的值,傳址就是傳入一個參數的地址,也就是記憶體的地址(相當於指針)。他們的區別是如果函數裡面對傳入的參數重新賦值,函數外的全局變數是否相應改變,用傳值傳入的參數是不會改變的,用傳址傳入就會改變。 a=1 def f(b): b=2 f(a) print (a) ...
  • 重覆的操作令手工測試苦不堪言,於是自動化測試出現了!作為web應用里最出名的自動化測試工具,selenium讓web應用的測試輕鬆了很多。今天我們就來簡單的介紹一下一些簡單的selenium瀏覽器操作。接下來我們就來看看python怎麼操作瀏覽器的吧! 1、打開指定的網頁地址 我們使用seleniu ...
  • 使用freemarker,導出製作好的ftl模板,並寫入數據 一、背景 1.1 項目背景 最近在開發一個項目,需要導出一些數據,然後寫入到word文檔中,然後再導出到本地,這個需求是比較常見的,但是我在網上找了很多資料,都沒有找到一個比較好的解決方案,所以就自己寫了一個,這裡分享給大家,希望能幫助到 ...
  • 目標現狀及問題 目標: 已有的國內項目,需要部署國際化。需要考慮幣種、金額貨幣精度、多語言、匯率、稅等一系列問題。這裡主要說的就是其中金額精度的處理。 現狀: 日常國內項目里,界面輸入的金額是元,然後資料庫存儲以及與其他系統交互都是用的分,也是就固定的貨幣精度繫數100。 問題: 那麼國際化項目後, ...
  • 從0到1,手把手帶你開發截圖工具ScreenCap------003實現最小化程式到托盤運行,- 為了方便截圖乾凈,實現最小化程式到托盤運行,簡潔,勿擾,實現最小化程式到托盤運行, 實現托盤菜單功能,實現回顯主窗體, 實現托盤開始截屏, 實現氣泡信息提示,實現托盤程式提示,實現托盤退出程式, 封裝完... ...
  • 目錄 基本說明 安裝 Nginx 部署 VUE 前端 部署 Django 後端 Django admin 靜態文件(CSS,JS等)丟失的問題 總結 1. 基本說明 本文介紹了在 windows 伺服器下,通過 Nginx 部署 VUE + Django 前後端分離項目。本項目前端運行在 80 埠 ...
  • 每次談到容器的時候,除了Docker之外,都會說起 Kubernetes,那麼什麼是 Kubernetes呢?今天就來一起學快速入門一下 Kubernetes 吧!希望本文對您有所幫助。 Kubernetes,一種用於管理和自動化雲中容器化工作負載的工具。 想象一下你有一個管弦樂隊,將每個音樂家視為 ...
  • 從0到1,手把手帶你開發截圖工具ScreenCap------002實現通過文件對話框,選擇合適的文件夾,自定義預設的圖片保存位置,簡單易學 ...
一周排行
    -Advertisement-
    Play Games
  • 在C#中使用SQL Server實現事務的ACID(原子性、一致性、隔離性、持久性)屬性和使用資料庫鎖(悲觀鎖和樂觀鎖)時,你可以通過ADO.NET的SqlConnection和SqlTransaction類來實現。下麵是一些示例和概念說明。 實現ACID事務 ACID屬性是事務處理的四個基本特征, ...
  • 我們在《SqlSugar開發框架》中,Winform界面開發部分往往也用到了自定義的用戶控制項,對應一些特殊的界面或者常用到的一些局部界面內容,我們可以使用自定義的用戶控制項來提高界面的統一性,同時也增強了使用的便利性。如我們Winform界面中用到的分頁控制項、附件顯示內容、以及一些公司、部門、菜單的下... ...
  • 在本篇教程中,我們學習瞭如何在 Taurus.MVC WebMVC 中進行數據綁定操作。我們還學習瞭如何使用 ${屬性名稱} CMS 語法來綁定頁面上的元素與 Model 中的屬性。通過這些步驟,我們成功實現了一個簡單的數據綁定示例。 ...
  • 是在MVVM中用來傳遞消息的一種方式。它是在MVVMLight框架中提供的一個實現了IMessenger介面的類,可以用來在ViewModel之間、ViewModel和View之間傳遞消息。 Send 接受一個泛型參數,表示要發送的消息內容。 Register 方法用於註冊某個對象接收消息。 pub ...
  • 概述:在WPF中,通過EventHandler可實現基礎和高級的UI更新方式。基礎用法涉及在類中定義事件,併在UI中訂閱以執行更新操作。高級用法藉助Dispatcher類,確保在非UI線程上執行操作後,通過UI線程更新界面。這兩種方法提供了靈活而可靠的UI更新機制。 在WPF(Windows Pre ...
  • 概述:本文介紹了在C#程式開發中如何利用自定義擴展方法測量代碼執行時間。通過使用簡單的Action委托,開發者可以輕鬆獲取代碼塊的執行時間,幫助優化性能、驗證演算法效率以及監控系統性能。這種通用方法提供了一種便捷而有效的方式,有助於提高開發效率和代碼質量。 在軟體開發中,瞭解代碼執行時間是優化程式性能 ...
  • 概述:Cron表達式是一種強大的定時任務調度工具,通過配置不同欄位實現靈活的時間規定。在.NET中,Quartz庫提供了簡便的方式配置Cron表達式,實現精準的定時任務調度。這種靈活性和可擴展性使得開發者能夠根據需求輕鬆地制定和管理定時任務,例如每天備份系統日誌或其他重要操作。 Cron表達式詳解 ...
  • 概述:.NET提供多種定時器,如System.Windows.Forms.Timer適用於UI,System.Web.UI.Timer用於Web,System.Diagnostics.Timer用於性能監控,System.Threading.Timer和System.Timers.Timer用於一般 ...
  • 問題背景 有同事聯繫我說,在生產環境上,訪問不了我負責的common服務,然後我去檢查common服務的health endpoint, 沒問題,然後我問了下異常,timeout導致的System.OperationCanceledException。那大概率是客戶端的問題,會不會是埠耗盡,用ne ...
  • 前言: 在本篇 Taurus.MVC WebMVC 入門開發教程的第四篇文章中, 我們將學習如何實現數據列表的綁定,通過使用 List<Model> 來展示多個數據項。 我們將繼續使用 Taurus.Mvc 命名空間,同時探討如何在視圖中綁定並顯示一個 Model 列表。 步驟1:創建 Model ...