【scikit-learn基礎】--『數據載入』之真實數據集

来源:https://www.cnblogs.com/wang_yb/archive/2023/12/06/17878841.html
-Advertisement-
Play Games

上一篇介紹了scikit-learn中的幾個玩具數據集,本篇介紹scikit-learn提供的一些真實的數據集。玩具數據集:scikit-learn 基礎(01)--『數據載入』之玩具數據集 1. 獲取數據集 與玩具數據集不同,真實的數據集的數據不僅數據特征多,而且數據量也比較大,所以沒有直接包含在 ...


上一篇介紹了scikit-learn中的幾個玩具數據集,本篇介紹scikit-learn提供的一些真實的數據集。
玩具數據集:scikit-learn 基礎(01)--『數據載入』之玩具數據集

1. 獲取數據集

與玩具數據集不同,真實的數據集的數據不僅數據特征多,而且數據量也比較大,
所以沒有直接包含在scikit-learn庫中。

雖然scikit-learn中提供了線上載入數據的函數,不過由於網路方面的原因,線上載入幾乎不可能成功。
我離線下載了所有scikit-learn的真實數據,並且轉換成了緩存文件,經測試可正常離線使用。

已經轉換好的離線數據集:

  1. olivetti:https://url11.ctfile.com/f/45455611-930509718-42d985?p=6872
  2. 20newsgroups:https://url11.ctfile.com/f/45455611-930509625-f32241?p=6872
  3. lfw_home:https://url11.ctfile.com/f/45455611-930509715-c10239?p=6872
  4. covertype:https://url11.ctfile.com/f/45455611-930509631-f5e629?p=6872
  5. RCV1:https://url11.ctfile.com/f/45455611-930509760-30d2a2?p=6872
  6. kddcup99-py3:https://url11.ctfile.com/f/45455611-930509652-4f47ea?p=6872
  7. kddcup99_10-py3:https://url11.ctfile.com/f/45455611-930509637-2f0131?p=6872
  8. cal_housing:https://url11.ctfile.com/f/45455611-930509628-395dab?p=6872

:所有文件的下載密碼都是:6872

下載上面的 zip 包之後,解壓到本地某個目錄中(下麵的示例是:d:\share\sklearn-realdata),
載入離線數據集的方法如下:

import os
# sklearn一共提供了9種載入真實數據的方法
from sklearn.datasets import fetch_olivetti_faces
from sklearn.datasets import fetch_20newsgroups
from sklearn.datasets import fetch_20newsgroups_vectorized
from sklearn.datasets import fetch_lfw_people
from sklearn.datasets import fetch_lfw_pairs
from sklearn.datasets import fetch_covtype
from sklearn.datasets import fetch_rcv1
from sklearn.datasets import fetch_kddcup99
from sklearn.datasets import fetch_california_housing

home_dir = "d:\share\sklearn-realdata"
data = fetch_olivetti_faces(data_home=os.path.join(home_dir, "olivetti"))
print(data)

data = fetch_20newsgroups(data_home=os.path.join(home_dir, "20newsgroups"))
print(data)

data = fetch_20newsgroups_vectorized(data_home=os.path.join(home_dir, "20newsgroups"))
print(data)

data = fetch_lfw_people(data_home=home_dir)
print(data)
data = fetch_lfw_pairs(data_home=home_dir)
print(data)

data = fetch_covtype(data_home=home_dir)
print(data)

data = fetch_rcv1(data_home=home_dir)
print(data)

# 只載入10%的數據
data = fetch_kddcup99(data_home=home_dir)
print(data)
# 載入全部的數據
data = fetch_kddcup99(data_home=home_dir, percent10=False)
print(data)

data = fetch_california_housing(data_home=os.path.join(home_dir, "cal_housing"))
print(data)

載入離線數據集的關鍵在於設置 data_home 參數。

2. 數據集概況

真實數據和之前的玩具數據集相比,它的優勢在於數據取自實際應用之中,更能夠反映實際問題的複雜性。
用它來學習演算法時,可以提前遇到各種調整模型的問題。

scikit-learn一個提供了9 種載入真實數據集的函數,實際是7 種數據集。

2.1. Olivetti 面部數據集

這個數據集來自從 AT&T,包含40 個不同個體的人臉圖像的數據集,每個個體有10 張不同的圖片。
這些圖像是在不同的時間拍攝的,並且具有不同的照明和麵部表情(睜開/閉上眼睛,微笑/不微笑)以及面部細節(戴眼鏡/不戴眼鏡)。

所有的圖像都採用黑色均勻的背景,並且個體處於直立的正面位置,允許一定的側移。
圖像被量化為256 個灰度級並以8 位無符號整數的形式存儲。
這個數據集的目標是從 0 到 39 的整數,代表圖中人物的身份。
由於每一類只有十個樣例,這個相對較小的數據集對無監督學習半監督學習具有有趣的挑戰性。

此數據集的載入函數:fetch_olivetti_faces

2.2. 新聞組數據集

這是一個常用的文本分類數據集,包含大約20,000 篇新聞文章,這些文章均勻分佈在20 個不同的主題中。

這些新聞組數據來源於 1997 年之前的新聞文章,包括各種不同的新聞來源日期
這個數據集的目標是進行文本分類,將每篇文章分配到其對應的主題中。

該數據集通常用於訓練和測試文本分類演算法,例如朴素貝葉斯分類器、支持向量機或決策樹等。
由於數據集的大小適中,它也適用於較小的機器學習模型。

此數據集的載入函數:fetch_20newsgroupsfetch_20newsgroups_vectorized
這兩個函數的主要區別在於:

  • fetch_20newsgroups返回的是一個原始的文本列表,每個新聞組的數據都以字元串形式給出
  • fetch_20newsgroups_vectorized返回的是一個可以直接用於機器學習或評估的向量數據集,它已經為文本數據進行了特征提取,返回的是一個稀疏矩陣

2.3. 人臉數據集

這個數據集是一個包含13233 張人臉圖像的數據集,用於測試人臉識別演算法。
這些圖像均來自互聯網,包含不同的人臉角度、表情和光照條件。
每張圖像都給出了對應的人名,共有5749 個個體,其中大部分人只有一張圖像,部分人有多張圖像。

此數據集的目標是測試人臉識別演算法的準確率,通常用於評估演算法的準確性召回率交叉驗證等。
由於數據集包含大量的人臉圖像和個體,因此也適用於訓練和測試深度學習模型。

此數據集的載入函數:fetch_lfw_peoplefetch_lfw_pairs
這兩個函數的主要區別在於:

  • fetch_lfw_people數據集中每個人至少有一張圖片,每張圖片都對應不同的人。這個數據集的目標是訓練一個分類器來識別不同的人
  • fetch_lfw_pairs數據集中每個人有兩張不同圖片。這些圖片是在不同的時間、不同的光照條件下拍攝的。這個數據集的目標是訓練一個分類器來識別同一個人在不同條件下的圖片

2.4. 森林覆蓋數據集

這個數據集是一個包含森林覆蓋類型信息的植被覆蓋類型數據集。
該數據集包含581,012 個樣本,每個樣本是一個30m x 30m 區域的森林覆蓋類型,
包括 7 種類型:雲杉/冷杉、洛奇波爾松、黃松、三葉楊/柳樹、阿斯彭、花旗松和克魯姆霍爾茨。

除了前 10 個特征是浮點數外,其餘特征都是one-hot 變數。這個數據集的目標是預測給定區域的森林覆蓋類型。
適用於分類相關的機器學習演算法的測試。

此數據集的載入函數:fetch_covtype

2.5. RCV1 多標簽數據集

這個數據集是一個包含1063389 個樣本的大規模文本分類數據集。
該數據集由英國廣播公司(BBC)和英國郵報(The Guardian)的新聞文章組成,每篇文章都被標記為其中一個類別(例如體育、娛樂、政治等)。

RCV1數據集的目標是訓練和測試文本分類演算法。由於數據集規模較大,它適合用於評估大型機器學習模型和分散式計算系統的性能。
RCV1數據集包含多個屬性,如文本內容、類別標簽和樣本權重等,可以用於訓練多種不同類型的文本分類模型,例如朴素貝葉斯分類器、支持向量機或深度學習模型等。

此數據集的載入函數:fetch_rcv1

2.6. kddcup99 數據集

這個數據集是一個網路入侵檢測的數據集,源自DARPA入侵檢測評估項目。
該數據集包含了 9 個星期的網路連接數據,分為訓練集測試集兩部分。

訓練集包含了4920917條連接記錄,測試集包含了4555136條連接記錄。
這些連接記錄涵蓋了多種網路協議和攻擊類型,例如 TCP、UDP、ICMP 等以及 DoS、U2R、R2L 等攻擊類型。
數據集中的每個連接記錄包含41 個固定的特征屬性,包括源 IP 地址、目的 IP 地址、協議類型、位元組數等,以及一個類標識符表示該連接是否屬於攻擊類型。

kddcup99數據集是網路入侵檢測領域廣泛使用的事實基準數據集,可用於評估和比較不同入侵檢測演算法的性能。

此數據集的載入函數:fetch_kddcup99
由於此數據集數據量很大,所以預設只載入 10%的數據,若要載入全部數據設置參數percent10=False
本文第一節載入離線數據的示例中也載入示例。

2.7. 加州住房數據集

這個數據集包含了加利福尼亞州 1990 年所有城市的房價信息。
數據集中的每個樣本都包含 8 個變數的值:

  1. MedianHouseValue(中位數房價):以 1000 美元為單位。
  2. MedianIncome(中位數收入):以年為單位,以美元為單位。
  3. HouseAge(房齡):以年為單位。
  4. Rooms(房間數):整數。
  5. Bedrooms(卧室數):整數。
  6. Population(人口):以 1000 人為單位。
  7. HousingUnits(房屋數量):以千為單位。
  8. SquareMiles(平方英里):以平方英里為單位。

該數據集被廣泛用於房價預測相關的機器學習演算法的學習中。
此數據集的載入函數:fetch_california_housing

3. 總結

當機器學習的演算法掌握到一定程度的時候,一定會想嘗試用真實的數據集來訓練模型。
這些經典的真實數據集不僅數據量豐富,而且涵蓋的範圍廣,用來練手和提高自己的能力再好不過。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 現象描述:Spring Boot項目,啟動的時候卡住了,一直卡在那裡不動,沒有報錯,也沒有日誌輸出 但是,奇怪的是,本地可以正常啟動 好吧,姑且先不深究為什麼本地可以啟動而部署到伺服器上就無法啟動的問題,這個不是重點,重點是怎麼讓它啟動起來。(PS:我猜測可能是環境不同造成的,包括操作系統不同和JD ...
  • 如圖所示,項目中定義了這樣幾個模塊: pdd-workflow-build :定義項目版本,及全局配置 pdd-workflow-dependencies :外部依賴管理,統一管理所有用到的外部依賴的版本 pdd-workflow-service :項目service模塊 pdd-workflow- ...
  • 在日常項目開發中,可能會遇到使用 ES 做關鍵詞搜索的場景,但是一般來說業務數據是不會直接通過 CRUD 寫進 ES 的。 因為這可能違背了 ES 是用來查詢的初衷,數據持久化的事情可以交給資料庫來做。那麼,這裡就有一個顯而易見的問題:ES 里的數據從哪裡來? 本文介紹的就是如何將 MySQL ... ...
  • 來源:zhihu.com/question/359630395/answer/954452799 今天,在知乎上看到這樣一個問題:"為什麼游戲公司的server不願意微服務化?" 背景介紹 最近面試了一家游戲公司(滿大間的,有上市) 我問他,公司有沒有做微服務架構的打算及考量? 他很驚訝的說,我沒聽 ...
  • 1. 獲取本地IP地址 使用 net 包可以獲取本地機器的 IP 地址。以下是一個獲取本地 IP 地址的簡單示例: package main import ( "fmt" "net" ) func main() { // 獲取所有網路介面 interfaces, err := net.Interfa ...
  • java的世界千奇百怪。。。當我甩出如下代碼段,不知閣下如何應對? try(A a=new A()){ 和a變數無關的業務代碼塊 } 沒錯,這就是“臭名昭著”的try-with-resource語法,乍一看讓人不知所云,其實它和try-finally的下述代碼等價 A a=new A() try{ ...
  • 在 Go 語言中,主要的條件控制語句有 if-else、switch 和 select。以下是對它們的簡單介紹: 1. if 語句: if 語句用於根據條件執行不同的代碼塊。它的基本形式如下: if condition { // code block } else if condition2 { / ...
  • 作者:Lxlxxx 鏈接:https://juejin.cn/post/7221461552343072828 前言 繼上次線上CPU出現了報警,這次服務又開始整活了,風平浪靜了沒幾天,看生產日誌服務的運行的時候,頻繁的出現OutOfMemoryError,就是我們俗稱的OOM,這可還行! 頻繁的O ...
一周排行
    -Advertisement-
    Play Games
  • 前言 微服務架構已經成為搭建高效、可擴展系統的關鍵技術之一,然而,現有許多微服務框架往往過於複雜,使得我們普通開發者難以快速上手並體驗到微服務帶了的便利。為瞭解決這一問題,於是作者精心打造了一款最接地氣的 .NET 微服務框架,幫助我們輕鬆構建和管理微服務應用。 本框架不僅支持 Consul 服務註 ...
  • 先看一下效果吧: 如果不會寫動畫或者懶得寫動畫,就直接交給Blend來做吧; 其實Blend操作起來很簡單,有點類似於在操作PS,我們只需要設置關鍵幀,滑鼠點來點去就可以了,Blend會自動幫我們生成我們想要的動畫效果. 第一步:要創建一個空的WPF項目 第二步:右鍵我們的項目,在最下方有一個,在B ...
  • Prism:框架介紹與安裝 什麼是Prism? Prism是一個用於在 WPF、Xamarin Form、Uno 平臺和 WinUI 中構建鬆散耦合、可維護和可測試的 XAML 應用程式框架 Github https://github.com/PrismLibrary/Prism NuGet htt ...
  • 在WPF中,屏幕上的所有內容,都是通過畫筆(Brush)畫上去的。如按鈕的背景色,邊框,文本框的前景和形狀填充。藉助畫筆,可以繪製頁面上的所有UI對象。不同畫筆具有不同類型的輸出( 如:某些畫筆使用純色繪製區域,其他畫筆使用漸變、圖案、圖像或繪圖)。 ...
  • 前言 嗨,大家好!推薦一個基於 .NET 8 的高併發微服務電商系統,涵蓋了商品、訂單、會員、服務、財務等50多種實用功能。 項目不僅使用了 .NET 8 的最新特性,還集成了AutoFac、DotLiquid、HangFire、Nlog、Jwt、LayUIAdmin、SqlSugar、MySQL、 ...
  • 本文主要介紹攝像頭(相機)如何採集數據,用於類似攝像頭本地顯示軟體,以及流媒體數據傳輸場景如傳屏、視訊會議等。 攝像頭採集有多種方案,如AForge.NET、WPFMediaKit、OpenCvSharp、EmguCv、DirectShow.NET、MediaCaptre(UWP),網上一些文章以及 ...
  • 前言 Seal-Report 是一款.NET 開源報表工具,擁有 1.4K Star。它提供了一個完整的框架,使用 C# 編寫,最新的版本採用的是 .NET 8.0 。 它能夠高效地從各種資料庫或 NoSQL 數據源生成日常報表,並支持執行複雜的報表任務。 其簡單易用的安裝過程和直觀的設計界面,我們 ...
  • 背景需求: 系統需要對接到XXX官方的API,但因此官方對接以及管理都十分嚴格。而本人部門的系統中包含諸多子系統,系統間為了穩定,程式間多數固定Token+特殊驗證進行調用,且後期還要提供給其他兄弟部門系統共同調用。 原則上:每套系統都必須單獨接入到官方,但官方的接入複雜,還要官方指定機構認證的證書 ...
  • 本文介紹下電腦設備關機的情況下如何通過網路喚醒設備,之前電源S狀態 電腦Power電源狀態- 唐宋元明清2188 - 博客園 (cnblogs.com) 有介紹過遠程喚醒設備,後面這倆天瞭解多了點所以單獨加個隨筆 設備關機的情況下,使用網路喚醒的前提條件: 1. 被喚醒設備需要支持這WakeOnL ...
  • 前言 大家好,推薦一個.NET 8.0 為核心,結合前端 Vue 框架,實現了前後端完全分離的設計理念。它不僅提供了強大的基礎功能支持,如許可權管理、代碼生成器等,還通過採用主流技術和最佳實踐,顯著降低了開發難度,加快了項目交付速度。 如果你需要一個高效的開發解決方案,本框架能幫助大家輕鬆應對挑戰,實 ...