監督學習與sklearn庫

来源:https://www.cnblogs.com/huskysir/archive/2020/05/31/12615905.html
-Advertisement-
Play Games

一、監督學習基礎知識 利用一組帶有標簽的數據,學習從輸入到輸出的映射,然後將這種映射關係應用到未知數據上,達到分類或回歸的目的 分類:當輸出是離散的,學習任務為分類任務 回歸:當輸出是連續的,學習任務為回歸任務 二、分類學習 1、輸入與輸出 輸入:一組有標簽的訓練數據(也稱觀察和評估),標簽表明瞭這 ...


一、監督學習基礎知識

利用一組帶有標簽的數據,學習從輸入到輸出的映射,然後將這種映射關係應用到未知數據上,達到分類或回歸的目的

分類:當輸出是離散的,學習任務為分類任務

回歸:當輸出是連續的,學習任務為回歸任務

二、分類學習

1、輸入與輸出

輸入:一組有標簽的訓練數據(也稱觀察和評估),標簽表明瞭這些數據(觀察)的所署類別 輸出:分類模型根據這些訓練數據,訓練自己的模型參數,學習出一個適合這組數據的分類器,當有新數據(非訓練數據)需要進行類別判斷,就可以將這組新數據作為輸入送給學好的分類器進行判斷

2、分類任務

3、評價

訓練集(training set):顧名思義用來訓練模型的已標註數據,用來建立模型,發現規律

測試集(testing set):也是已標註數據,通常做法是將標註隱藏,輸送給訓練好的模型,通過結果與真實標註進行對比,評估模型的學習能力

訓練集/測試集的劃分方法:根據已有標註數據,隨機選出一部分數據(70%)數據作為訓練數據,餘下的作為測試數據,此外還有交叉驗證法,自助法用來評估分類模型

精確率:精確率是針對我們預測結果而言的,(以二分類為例)它表示的是預測為正的樣本中有多少是真正的正樣本。那麼預測為正就有兩種可能了,一種就是把正類預測為正類(TP),一種就是把負類預測為正類(FP), 也就是

召回率:是針對我們原來的樣本而言的,它表示的是樣本中的正例有多少被預測正確了。那也有兩種可能,一種是把原來的正類預測成正類(TP),另一種就是把原來的正類預測為負類(FN),也就是

假設我們手上有60個正樣本,40個負樣本,我們要找出所有的正樣本,分類演算法查找出50個,其中只有40個是真正的正樣本

TP: 將正類預測為正類數40

FN: 將正類預測為負類數20

FP: 將負類預測為正類數10

TN: 將負類預測為負類數30

準確率(accuracy)= (TP+TN)/(TP+FN+FP+TN) = 70%

精確率(precision)= TP/(TP+FP)=80%

召回率(recall)=TP/(TP+FN)=66.7%

4、sklearn庫

與聚類演算法被統一封裝在sklearn.cluster模塊不同,sklearn庫中的分類演算法並未被統一封裝在一個子模塊中,因此對分類演算法的import方式各有不同

Sklearn提供的分類函數包括:

k近鄰(knn)、朴素貝葉斯(naivebayes)、 支持向量機(svm)、 決策樹 (decision tree)、神經網路模型(Neural networks)等,這其中有線性分類器,也有非線性分類器

5、應用

金融:貸款是否批准進行評估

醫療診斷:判斷一個腫瘤是惡性還是良性

欺詐檢測:判斷一筆銀行的交易是否涉嫌欺詐

網頁分類:判斷網頁的所屬類別,財經或者是娛樂?

三、回歸分析

1、基礎知識

統計學分析數據的方法,目的在於瞭解兩個或多個變數間是否相關、研究其相關方向與強度,並建立數學模型以便觀察特定變數來預測研究者感興趣的變數。回歸分析可以幫助人們瞭解在自變數變化時因變數的變化量。一般來說,通過回歸分析我們可以由給出的自變數估計因變數的條件期望

2、回歸任務

3、sklearn庫

Sklearn提供的回歸函數主要被封裝在兩個子模塊中,分別是sklearn.linear_model和sklearn.preprocessing

sklearn.linear_modlel封裝的是一些線性函數,線性回歸函數包括有:

普通線性回歸函數( LinearRegression )

嶺回歸(Ridge)

Lasso(Lasso)

非線性回歸函數,如多項式回歸(PolynomialFeatures)則通過 sklearn.preprocessing子模塊進行調用

4、應用

回歸方法適合對一些帶有時序信息的數據進行預測或者趨勢擬合,常用在 金融及其他涉及時間序列分析的領域:

股票趨勢預測

交通流量預測

資料來源:《Python機器學習應用》——禮欣,嵩天北京理工大學,MOOC


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一、 1、打開方式 打開Chrome瀏覽器,按下F12或者右擊空白處然後點擊檢查 最左邊是顯示效果,中間是html代碼,右邊是html樣式。 2、樣式的修改 點擊中間代碼框,左上角的小箭頭,然後點擊css樣式,可以直接修改屬性的值。也可以點擊鍵盤上的上下箭頭,對屬性的值進行修改 需要註意的是,調試工 ...
  • 平時常用的一些功能性函數 關於原生JS 文件大小單位轉換 /** * @desc bytesToSize 位元組單位換算 * @param bytes 傳入以bit為單位的數據 */ const bytesToSize = function (bytes) { const k = 1024; if ( ...
  • Command模式屬於行為模式,作為大名鼎鼎的23個設計模式之一,Command模式理解起來不如工廠模式,單例模式等那麼簡單直白。究其原因,行為模式著重於使用,如果沒有編程實踐,確實不如創造模式那麼直白。我們先看看UML類圖。 估計很多同學看著圖就暈了,那麼多東西,Command和Concrete ...
  • J2SE(Java 2 Platform Standard Edition) J2ME(Java 2 Platform Micro Edtion) J2EE(Java 2 Platform Enterprise Edition) Java語言特點:開源 跨平臺(JVM) 面向對象等 JRE與JDK ...
  • Java生鮮電商平臺-生鮮系統代碼審查以及優化方案(小程式/APP) 說明:Java生鮮電商平臺-生鮮系統代碼審查以及優化方案(小程式/APP) 代碼審查也就是我們常說的:CodeReview,常見的生鮮電商小程式或者APP中CodeReview有以下的規範與目標: 1. 目標和原則 提高代碼質量, ...
  • 一、獲取某個特定的方法,通過​反射機制。 package com.bjpowernode.java_learning; import java.lang.reflect.*; ​ public class D119_1_ReflectMethodOfSpecialClass { public sta ...
  • 用戶驗證源碼剖析,註意:一定要看代碼的中文註釋及其下麵的一行代碼!!! 1、準備一個路由和視圖類,全局路由配置暫時忽略,當流程執行到下麵的url:groupsSelectAll——> GroupsView的視圖類下的as_view()方法 from django.conf.urls import u ...
  • 剛開始使用idea, 這個工具雖然很強大, 但也因為如此,讓使用也變得稍微負責。 還沒有習慣idea這個生態環境,因此也遇到不少坑。class.getResourceAsStream獲取結果為NULL這個問題今天困擾了我很久,一直在文件路徑上面糾結,浪費了很多時間。終於在鬥爭了將近2小時之後才翻到一 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...