【scikit-learn基礎】--概述

来源:https://www.cnblogs.com/wang_yb/archive/2023/12/02/17871294.html
-Advertisement-
Play Games

Scikit-learn是一個基於Python的開源機器學習庫,它提供了大量的機器學習演算法和工具,方便用戶進行數據挖掘、分析和預測。 Scikit-learn是基於另外兩個知名的庫 Scipy 和 Numpy的,關於 Scipy 和 Numpy 等庫,之前的系列文章中有介紹: Scipy 基礎系列 ...


Scikit-learn是一個基於Python的開源機器學習庫,它提供了大量的機器學習演算法和工具,方便用戶進行數據挖掘、分析和預測。

Scikit-learn是基於另外兩個知名的庫 ScipyNumpy的,
關於 ScipyNumpy 等庫,之前的系列文章中有介紹:

  1. Scipy 基礎系列
  2. Numpy 基礎系列

1. 概要

自從AlphaGo再度帶起機器學習和AI的熱潮以來,我們聽到最多的機器學習框架是 TensorFlowPyTorch以及Keras等等。

Scikit-learn與它們相比,知名度要低不少,這是因為Scikit-learn庫關註的是傳統的機器學習領域中經典的,被廣泛應用和驗證的演算法。
它完全不涉及TensorFlowPyTorch以及Keras等框架所在的深度學習領域。

雖然看起來Scikit-learn似乎遠遠不如那些流行的深度學習框架,
但從我個人的經驗來看的話,學習和掌握Scikit-learn的意義遠遠大於那些深度學習框架。

首先,Scikit-learn歷史悠久,發展至今,不僅提供了豐富的文檔和參考樣例,甚至連訓練數據都準備好了,隨時都可以拿來實驗機器學習演算法。

其次,深度學習雖好,但是使用要求也高。
除了掌握其演算法,還必須有大量的數據高性能的硬體,這絕不是個人和普通企業所能提供的。
未來,大概率是由幾個頭部大企業訓練出模型,然後開放API給我們使用,個人和中小企業訓練自己的深度學習模型的概率並不高。

Scikit-learn則與之不一樣,它所包含的傳統機器學習中的很多優秀演算法並不需要海量的數據,在數據量不大的情況下依舊可以訓練出優秀的模型。

最後,就我自己平時的數據分析相關項目的實踐來看,Scikit-learn是一個真正稱手的工具。
我平時的項目中會接觸到各類數據,比如氣象數據,銷售數據,還有一些交易類的數據等等,
由於服務的客戶規模不大,所以數據量一般最多也就千萬級別。
使用Scikit-learn,能夠方便快速的從這些數據中分析出有意義結果。

舉個不太恰當的例子,目前流行的深度學習框架相對於Scikit-learn,就像飛機相對於自行車或小汽車
學會開飛機後,可能實操的機會並不多(除非你在大廠的AI部門);
但是學會騎車和開車,總會有用到它的地方,而且由於其便利簡單,還會越用越多。

2. 主要模塊

Scikit-learn的主要功能包括數據預處理,模型選擇,數據降維,分類,回歸和聚類等。

  • 數據預處理包括數據的特征提取、歸一化、標準化等。
  • 模型選擇是對給定參數和模型進行比較、驗證和選擇,以提升預測精度。
  • 數據降維是通過降維技術來減少要考慮的隨機變數的個數,常見的應用場景有可視化處理、效率提升等。
  • 分類是給對象指定所屬類別範疇的有監督學習,常見的應用場景有垃圾郵件檢測、圖像識別等。
  • 回歸是預測與給定對象相關的連續屬性的值,常見的應用場景有預測股票價格、預測二手房交易價格等。
  • 聚類是自動識別具有相似屬性的給定對象,並將其分組,屬於無監督學習,常見的應用場景有顧客細分、實驗結果分組等。

從功能上看,涵蓋了機器學習從數據處理開始,到各類模塊訓練演算法,最後到模型的驗證和調優等完整的生命周期。

3. 系列文章規劃

Scikit-learn的子模塊劃分非常細,從命名空間來看的話,大概有接近40個模塊
分別介紹各個子模塊意義不大,不如直接看官方文檔,本系列的文章打算從使用者的角度來介紹它。

先從數據和數據處理的角度入手,
然後結合自己工作中的實際經驗介紹Scikit-learn中的一些機器學習的演算法
最後介紹訓練模型時和訓練之後對模型的一些修正和調優的方法。

希望能夠對喜愛數據分析的朋友們有所幫助!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 在src目錄下新建一個文件夾models,用來存放數據模型和操作資料庫的方法。 在models目錄下新建一個文件user.js,用來管理用戶信息相關的資料庫操作。 相關的數據模型和資料庫操作方法,最後通過module.exports暴露出去。 mongoose版本8.0.0 1-創建結構 const ...
  • 隨著移動互聯網的普及,越來越多的人開始學習和欣賞唐詩。不過,對於一些想要獲取指定詩歌ID的人來說,這似乎是一件有點困難的事情。好在《唐詩三百首》介面為我們提供了方便快捷的解決方法。下麵,就讓我們來介紹一下如何獲取指定詩歌ID的《唐詩三百首》介面。 數據源介紹: 數據示例下載 ↓ 《唐詩三百首》共選入 ...
  • 官網 Mongoose.js中文網 (mongoosejs.net) 基本使用 安裝 最新的是mongoose8.0.0版本,基於Promise,以前的版本是基於回調函數。 npm npm i mongoose yarn yarn add mongoose 使用 以mongoose8.0.0舉例: ...
  • 最近有個需求需要實現自定義首頁佈局,需要將屏幕按照 6 列 4 行進行等分成多個格子,然後將組件可拖拽對應格子進行渲染展示。 示例 對比一些已有的插件,發現想要實現產品的交互效果,沒有現成可用的。本身功能並不是太過複雜,於是決定自己基於 vue 手擼一個簡易的 Grid 拖拽佈局。 完整源碼在此,在 ...
  • 項目背景: vue 1.創建 backtop.vue 的回到頂部邏輯的組件 <template> <transition name="back-up-fade"> <div class="back-top" :style="{ bottom: bottom + 'px', right: right ...
  • 理解 async/await 的原理和使用方法是理解現代JavaScript非同步編程的關鍵。這裡我會提供一個詳細的實例,涵蓋原理、流程、使用方法以及一些註意事項。代碼註釋會儘量詳盡,確保你理解每個步驟。 實例:使用async/await進行非同步操作 <!DOCTYPE html> <html lan ...
  • 本文檔譯自 www.codeproject.com 的文章 "Calling Conventions Demystified",作者 Nemanja Trifunovic,原文參見此處 引言 - Introduction 在學習 Windows 編程的漫長、艱難而美妙的旅途中,你可能會對函數聲明前出 ...
  • 如何使用mysql實現可重入的分散式鎖 目錄 什麼是分散式鎖? 如何實現分散式鎖? 定義分散式表結構 定義鎖統一介面 使用mysql來實現分散式鎖 ① 生成線程標記ID ② 加鎖 ③ 解鎖 ④ 重置鎖 寫在最後 1. 什麼是分散式鎖? 百度百科:分散式鎖是控制分散式系統之間同步訪問共用資源的一種方式 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...