監督學習與sklearn庫

来源:https://www.cnblogs.com/huskysir/archive/2020/05/31/12615905.html
-Advertisement-
Play Games

一、監督學習基礎知識 利用一組帶有標簽的數據,學習從輸入到輸出的映射,然後將這種映射關係應用到未知數據上,達到分類或回歸的目的 分類:當輸出是離散的,學習任務為分類任務 回歸:當輸出是連續的,學習任務為回歸任務 二、分類學習 1、輸入與輸出 輸入:一組有標簽的訓練數據(也稱觀察和評估),標簽表明瞭這 ...


一、監督學習基礎知識

利用一組帶有標簽的數據,學習從輸入到輸出的映射,然後將這種映射關係應用到未知數據上,達到分類或回歸的目的

分類:當輸出是離散的,學習任務為分類任務

回歸:當輸出是連續的,學習任務為回歸任務

二、分類學習

1、輸入與輸出

輸入:一組有標簽的訓練數據(也稱觀察和評估),標簽表明瞭這些數據(觀察)的所署類別 輸出:分類模型根據這些訓練數據,訓練自己的模型參數,學習出一個適合這組數據的分類器,當有新數據(非訓練數據)需要進行類別判斷,就可以將這組新數據作為輸入送給學好的分類器進行判斷

2、分類任務

3、評價

訓練集(training set):顧名思義用來訓練模型的已標註數據,用來建立模型,發現規律

測試集(testing set):也是已標註數據,通常做法是將標註隱藏,輸送給訓練好的模型,通過結果與真實標註進行對比,評估模型的學習能力

訓練集/測試集的劃分方法:根據已有標註數據,隨機選出一部分數據(70%)數據作為訓練數據,餘下的作為測試數據,此外還有交叉驗證法,自助法用來評估分類模型

精確率:精確率是針對我們預測結果而言的,(以二分類為例)它表示的是預測為正的樣本中有多少是真正的正樣本。那麼預測為正就有兩種可能了,一種就是把正類預測為正類(TP),一種就是把負類預測為正類(FP), 也就是

召回率:是針對我們原來的樣本而言的,它表示的是樣本中的正例有多少被預測正確了。那也有兩種可能,一種是把原來的正類預測成正類(TP),另一種就是把原來的正類預測為負類(FN),也就是

假設我們手上有60個正樣本,40個負樣本,我們要找出所有的正樣本,分類演算法查找出50個,其中只有40個是真正的正樣本

TP: 將正類預測為正類數40

FN: 將正類預測為負類數20

FP: 將負類預測為正類數10

TN: 將負類預測為負類數30

準確率(accuracy)= (TP+TN)/(TP+FN+FP+TN) = 70%

精確率(precision)= TP/(TP+FP)=80%

召回率(recall)=TP/(TP+FN)=66.7%

4、sklearn庫

與聚類演算法被統一封裝在sklearn.cluster模塊不同,sklearn庫中的分類演算法並未被統一封裝在一個子模塊中,因此對分類演算法的import方式各有不同

Sklearn提供的分類函數包括:

k近鄰(knn)、朴素貝葉斯(naivebayes)、 支持向量機(svm)、 決策樹 (decision tree)、神經網路模型(Neural networks)等,這其中有線性分類器,也有非線性分類器

5、應用

金融:貸款是否批准進行評估

醫療診斷:判斷一個腫瘤是惡性還是良性

欺詐檢測:判斷一筆銀行的交易是否涉嫌欺詐

網頁分類:判斷網頁的所屬類別,財經或者是娛樂?

三、回歸分析

1、基礎知識

統計學分析數據的方法,目的在於瞭解兩個或多個變數間是否相關、研究其相關方向與強度,並建立數學模型以便觀察特定變數來預測研究者感興趣的變數。回歸分析可以幫助人們瞭解在自變數變化時因變數的變化量。一般來說,通過回歸分析我們可以由給出的自變數估計因變數的條件期望

2、回歸任務

3、sklearn庫

Sklearn提供的回歸函數主要被封裝在兩個子模塊中,分別是sklearn.linear_model和sklearn.preprocessing

sklearn.linear_modlel封裝的是一些線性函數,線性回歸函數包括有:

普通線性回歸函數( LinearRegression )

嶺回歸(Ridge)

Lasso(Lasso)

非線性回歸函數,如多項式回歸(PolynomialFeatures)則通過 sklearn.preprocessing子模塊進行調用

4、應用

回歸方法適合對一些帶有時序信息的數據進行預測或者趨勢擬合,常用在 金融及其他涉及時間序列分析的領域:

股票趨勢預測

交通流量預測

資料來源:《Python機器學習應用》——禮欣,嵩天北京理工大學,MOOC


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一、 1、打開方式 打開Chrome瀏覽器,按下F12或者右擊空白處然後點擊檢查 最左邊是顯示效果,中間是html代碼,右邊是html樣式。 2、樣式的修改 點擊中間代碼框,左上角的小箭頭,然後點擊css樣式,可以直接修改屬性的值。也可以點擊鍵盤上的上下箭頭,對屬性的值進行修改 需要註意的是,調試工 ...
  • 平時常用的一些功能性函數 關於原生JS 文件大小單位轉換 /** * @desc bytesToSize 位元組單位換算 * @param bytes 傳入以bit為單位的數據 */ const bytesToSize = function (bytes) { const k = 1024; if ( ...
  • Command模式屬於行為模式,作為大名鼎鼎的23個設計模式之一,Command模式理解起來不如工廠模式,單例模式等那麼簡單直白。究其原因,行為模式著重於使用,如果沒有編程實踐,確實不如創造模式那麼直白。我們先看看UML類圖。 估計很多同學看著圖就暈了,那麼多東西,Command和Concrete ...
  • J2SE(Java 2 Platform Standard Edition) J2ME(Java 2 Platform Micro Edtion) J2EE(Java 2 Platform Enterprise Edition) Java語言特點:開源 跨平臺(JVM) 面向對象等 JRE與JDK ...
  • Java生鮮電商平臺-生鮮系統代碼審查以及優化方案(小程式/APP) 說明:Java生鮮電商平臺-生鮮系統代碼審查以及優化方案(小程式/APP) 代碼審查也就是我們常說的:CodeReview,常見的生鮮電商小程式或者APP中CodeReview有以下的規範與目標: 1. 目標和原則 提高代碼質量, ...
  • 一、獲取某個特定的方法,通過​反射機制。 package com.bjpowernode.java_learning; import java.lang.reflect.*; ​ public class D119_1_ReflectMethodOfSpecialClass { public sta ...
  • 用戶驗證源碼剖析,註意:一定要看代碼的中文註釋及其下麵的一行代碼!!! 1、準備一個路由和視圖類,全局路由配置暫時忽略,當流程執行到下麵的url:groupsSelectAll——> GroupsView的視圖類下的as_view()方法 from django.conf.urls import u ...
  • 剛開始使用idea, 這個工具雖然很強大, 但也因為如此,讓使用也變得稍微負責。 還沒有習慣idea這個生態環境,因此也遇到不少坑。class.getResourceAsStream獲取結果為NULL這個問題今天困擾了我很久,一直在文件路徑上面糾結,浪費了很多時間。終於在鬥爭了將近2小時之後才翻到一 ...
一周排行
    -Advertisement-
    Play Games
  • 前言 在我們開發過程中基本上不可或缺的用到一些敏感機密數據,比如SQL伺服器的連接串或者是OAuth2的Secret等,這些敏感數據在代碼中是不太安全的,我們不應該在源代碼中存儲密碼和其他的敏感數據,一種推薦的方式是通過Asp.Net Core的機密管理器。 機密管理器 在 ASP.NET Core ...
  • 新改進提供的Taurus Rpc 功能,可以簡化微服務間的調用,同時可以不用再手動輸出模塊名稱,或調用路徑,包括負載均衡,這一切,由框架實現並提供了。新的Taurus Rpc 功能,將使得服務間的調用,更加輕鬆、簡約、高效。 ...
  • 順序棧的介面程式 目錄順序棧的介面程式頭文件創建順序棧入棧出棧利用棧將10進位轉16進位數驗證 頭文件 #include <stdio.h> #include <stdbool.h> #include <stdlib.h> 創建順序棧 // 指的是順序棧中的元素的數據類型,用戶可以根據需要進行修改 ...
  • 前言 整理這個官方翻譯的系列,原因是網上大部分的 tomcat 版本比較舊,此版本為 v11 最新的版本。 開源項目 從零手寫實現 tomcat minicat 別稱【嗅虎】心有猛虎,輕嗅薔薇。 系列文章 web server apache tomcat11-01-官方文檔入門介紹 web serv ...
  • C總結與剖析:關鍵字篇 -- <<C語言深度解剖>> 目錄C總結與剖析:關鍵字篇 -- <<C語言深度解剖>>程式的本質:二進位文件變數1.變數:記憶體上的某個位置開闢的空間2.變數的初始化3.為什麼要有變數4.局部變數與全局變數5.變數的大小由類型決定6.任何一個變數,記憶體賦值都是從低地址開始往高地 ...
  • 如果讓你來做一個有狀態流式應用的故障恢復,你會如何來做呢? 單機和多機會遇到什麼不同的問題? Flink Checkpoint 是做什麼用的?原理是什麼? ...
  • C++ 多級繼承 多級繼承是一種面向對象編程(OOP)特性,允許一個類從多個基類繼承屬性和方法。它使代碼更易於組織和維護,並促進代碼重用。 多級繼承的語法 在 C++ 中,使用 : 符號來指定繼承關係。多級繼承的語法如下: class DerivedClass : public BaseClass1 ...
  • 前言 什麼是SpringCloud? Spring Cloud 是一系列框架的有序集合,它利用 Spring Boot 的開發便利性簡化了分散式系統的開發,比如服務註冊、服務發現、網關、路由、鏈路追蹤等。Spring Cloud 並不是重覆造輪子,而是將市面上開發得比較好的模塊集成進去,進行封裝,從 ...
  • class_template 類模板和函數模板的定義和使用類似,我們已經進行了介紹。有時,有兩個或多個類,其功能是相同的,僅僅是數據類型不同。類模板用於實現類所需數據的類型參數化 template<class NameType, class AgeType> class Person { publi ...
  • 目錄system v IPC簡介共用記憶體需要用到的函數介面shmget函數--獲取對象IDshmat函數--獲得映射空間shmctl函數--釋放資源共用記憶體實現思路註意 system v IPC簡介 消息隊列、共用記憶體和信號量統稱為system v IPC(進程間通信機制),V是羅馬數字5,是UNI ...