機器學習之邏輯回歸

来源:https://www.cnblogs.com/lverkou/archive/2020/06/16/13149973.html
-Advertisement-
Play Games

什麼是監督學習?什麼是無監督學習? 監督學習:有目標y值,如線性回歸,分類演算法 無監督學習:無目標y值,如聚類 邏輯回歸是分類演算法,不要被名字誤導,得到的是離散值 引入邏輯回歸 邏輯回歸主要用於二分類 線上性回歸中:Y=W1X1+W2X2+W3X3 +...+b=WT*X 在邏輯回歸中,習慣用Z表示 ...


什麼是監督學習?什麼是無監督學習?

監督學習:有目標y值,如線性回歸,分類演算法 無監督學習:無目標y值,如聚類 邏輯回歸是分類演算法,不要被名字誤導,得到的是離散值

引入邏輯回歸

邏輯回歸主要用於二分類

線上性回歸中:Y=W1X1+W2X2+W3X3 +...+b=WT*X 在邏輯回歸中,習慣用Z表示,Z=W1X1+W2X2+W3X3 +...+b=WT*X 邏輯回歸線上性回歸的基礎上,將每條樣本打分,然後設置一個閾值,分為一個類別,而沒有達到這個閾值的分位另一個類別 習慣上,我們用0,1表示不同類別0為負例,1位正例。 Z取值(-∞,+∞):當Z>0表示正例1;            當Z<=0,表示負例0

 為了將Z值轉換為有界的概率值,我們引入sigmoid函數。

sigmoid函數

sigmoid函數也叫S型函數

當z=0時,p=sigmoid(z)=0.5,因此上式y預測值還可表示為

轉為概率:

 圖形為:

計算時,正例的概率為sigmoid(z),負例的概率為1-sigmoid(z).

樣本概率:p(y=1|x;w)=S(z)

     p(y=0|x;w)=1-S(z)

w的含義:以w作為參數

兩式子綜合即一個樣本的概率:p(y|x;w)=S(z)y(1-S(z))1-y

那麼要求解能夠使所有樣本聯合概率密度最大的w值,根據最大似然估計,所有樣本的聯合概率密度函數(似然函數)為:

 左右取對數:

上式最大即相反數最小,引入損失函數

邏輯回歸的損失函數(對數損失函數) 

 

可採用梯度下降求解參數w,即對w求偏導

除以m這一因數並不改變最終求導極值結果,通過除以m可以得到平均損失值,避免樣本數量對於損失值的影響

下圖用θ表示w:

對數損失函數來歷總結:樣本概率-->聯合概率密度--> 取對數-->取相反數

損失函數與sigmoid的關係

當數據為類別1時,我們應當讓的值儘可能大,反之,當數據為類別0時,我們應當讓的值儘可能小,即1 - 的值儘可能大

當數據為類別1時,我們應當讓sigmoid(z)的值儘可能大,損失值儘可能小,得到的預測結果與目標結果儘可能接近; 反之,當數據為類別0時,我們應當讓sigmoid(z)的值儘可能小,(即1 -sigmoid(z)的值儘可能大),損失值也儘可能的小,預測結果與目標結果越接近。

 

 

邏輯回歸實現二分類 

以下以鳶尾花數據集為例

# LogisticRegression:邏輯回歸的類
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
import warnings

warnings.filterwarnings("ignore")

iris = load_iris()
X, y = iris.data, iris.target
# 因為鳶尾花具有三個類別(y=0,1,2),4個特征(列),此處僅使用其中兩個特征,並且移除一個類別(類別0)。
X = X[y != 0, 2:]
y = y[y != 0]
# 此時,y的標簽為1與2,我們這裡將其改成0與1。(僅僅是為了習慣而已)
y[y == 1] = 0
y[y == 2] = 1
# 切分訓練集跟測試集 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=2)
# 創建邏輯回歸對象
lr = LogisticRegression()
# 訓練集進行訓練 確定w和b的值
lr.fit(X_train, y_train)
# 將測試集放到模型中得到預測的結果
y_hat = lr.predict(X_test)
print("權重:", lr.coef_)
print("偏置:", lr.intercept_)
print("真實值:", y_test)
print("預測值:", y_hat)

 對分類結果進行可視化

# 對分類的結果進行可視化
c1 = X[y == 0]
c2 = X[y == 1]
plt.scatter(x=c1[:, 0], y=c1[:, 1], c="g", label="類別0")
plt.scatter(x=c2[:, 0], y=c2[:, 1], c="r", label="類別1")
plt.xlabel("花瓣長度")
plt.ylabel("花瓣寬度")
plt.title("鳶尾花樣本分佈")
plt.legend()

 對分類結果進行可視化

# 對分類的結果進行可視化
c1 = X[y == 0]
c2 = X[y == 1]
plt.scatter(x=c1[:, 0], y=c1[:, 1], c="g", label="類別0")
plt.scatter(x=c2[:, 0], y=c2[:, 1], c="r", label="類別1")
plt.xlabel("花瓣長度")
plt.ylabel("花瓣寬度")
plt.title("鳶尾花樣本分佈")
plt.legend()

 樣本的真實類別與預測類別

plt.figure(figsize=(15, 5))
plt.plot(y_test, marker="o", ls="", ms=15, c="r", label="真實類別")
plt.plot(y_hat, marker="X", ls="", ms=15, c="g", label="預測類別")
plt.legend()
plt.xlabel("樣本序號")
plt.ylabel("類別")
plt.title("邏輯回歸分類預測結果")
plt.show()

 

 計算概率值

# 打分
# 獲取預測的概率值,包含數據屬於每個類別的概率。返回的概率是通過sigmoid函數計算的(二分類下 )
probability = lr.predict_proba(X_test)

# 展示前五行數據的概率值
display(probability[:5])
# 從索引的角度查看最大值,axis=1:只看列索引 
display(np.argmax(probability, axis=1))
# 產生序號,用於可視化的橫坐標。
index = np.arange(len(X_test))
# 提取0,1的概率 pro_0
= probability[:, 0] pro_1 = probability[:, 1] tick_label = np.where(y_test == y_hat, "O", "X") plt.figure(figsize=(15, 5)) # 繪製堆疊圖 plt.bar(index, height=pro_0, color="g", label="類別0概率值") # bottom=x,表示從x的值開始堆疊上去。 # tick_label 設置標簽刻度的文本內容。 plt.bar(index, height=pro_1, color='r', bottom=pro_0, label="類別1概率值", tick_label=tick_label) # 圖例位置可試著調整,放在圖外 plt.legend(loc="best", bbox_to_anchor=(1, 1)) plt.xlabel("樣本序號") plt.ylabel("各個類別的概率") plt.title("邏輯回歸分類概率") plt.show()

 模型lr.predict_proba方法返回的概率:會返回屬於樣本的每一個概率;是通過sigmoid(z)函數計算的(二分類下)。

繪製決策邊界

# 繪製決策邊界

# 傳入顏色
from matplotlib.colors import ListedColormap

# 定義函數,用於繪製決策邊界。
# model:模型 比如邏輯回歸模型
# X:傳入的數據集 (樣本集)
# y:傳入的類別
def plot_decision_boundary(model, X, y):
    # 定義了三種顏色和標記
    color = ["r", "g", "b"]
    marker = ["o", "v", "x"]
    # y一共有幾個類別 這裡只有0,1
    class_label = np.unique(y)
    # ListedColormap定義不同的顏色圖  
    # len :有幾個類別取幾個顏色
    cmap = ListedColormap(color[: len(class_label)])
    # x1和x2取不同的值 進行笛卡爾積
    x1_min, x2_min = np.min(X, axis=0)
    x1_max, x2_max = np.max(X, axis=0)
    # 在最小最大值的基礎上加減1是為了繪圖時不在邊界上,取值間隔為0.02
    x1 = np.arange(x1_min - 1, x1_max + 1, 0.02)
    x2 = np.arange(x2_min - 1, x2_max + 1, 0.02)
    # 擴展x1,x2以便meshgrid生成笛卡爾積 x1行擴展,x2列擴展 (想象成坐標格子)
    X1, X2 = np.meshgrid(x1, x2)
    # print("X1:{}\nX2:{}".format(X1,X2))
    # ravel把二維的X1 X2 拉成一維
    # Z的形狀要跟X1的形狀一致 Z為預測值0,1
    Z = model.predict(np.array([X1.ravel(), X2.ravel()]).T).reshape(X1.shape)
    # print("Z:",Z[0:5,:])
    # contourf繪製使用顏色填充的等高線。--不同的值畫不同的顏色 畫底板顏色
    # X1, X2, Z的形狀必須相同
    # alpha=0.5給一個透明度 讓樣本看得見
    plt.contourf(X1, X2, Z, cmap=cmap, alpha=0.5)
    # enumerate 函數用於遍歷序列中的元素以及它們的下標:返回index,value  
    # 繪製樣本顏色 一共兩種顏色 一次性先繪製為0的顏色,再繪製為1的顏色
    for i, class_ in enumerate(class_label):
        # print("i:",i)
        # print("class_:",class_)
        plt.scatter(x=X[y == class_, 0], y=X[y == class_, 1], 
                c=cmap.colors[i], label=class_, marker=marker[i])
    plt.legend()
    plt.show()

訓練集的劃分效果

# 訓練集的劃分效果
plot_decision_boundary(lr, X_train, y_train)
# 決策邊界的幾何意義:W*X=0就是那條決策線,>0就劃分為1,<0就劃分為0

 

 訓練集的劃分效果

# 測試集的劃分效果
plot_decision_boundary(lr, X_test, y_test)

邏輯回歸實現多分類

# 邏輯回歸實現多分類 是指y值有多個類
# 不把y==2的值踢出去
iris = load_iris()
X, y = iris.data, iris.target
# 僅使用其中的兩個特征。
X = X[:, 2:]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=0)
# sklearn中不同版本預設值可能不一樣  
# multi_class參數,從0.22版本起,預設值從“ovr”變成“auto”。auto的意思為自動選擇,如果是二分類,就使用ovr,如果是多分類,就使用“multinomial”。
# solver參數,從0.22版本起,預設值由“liblinear”改為“lbfgs”。solver控制的是優化策略,也就是求解參數w時候的優化方案。
 # 第一種 二分類
# lr = LogisticRegression(multi_class="ovr", solver="liblinear")
# 第二種 n分類(n>2)
# lr = LogisticRegression(multi_class="multinomial", solver="lbfgs")
lr = LogisticRegression()
lr.fit(X_train, y_train)
y_hat = lr.predict(X_test)
print("分類正確率:", np.sum(y_test == y_hat) / len(y_test))

分類正確率: 0.9736842105263158

訓練集決策邊界

# 訓練集決策邊界
plot_decision_boundary(lr, X_train, y_train)

 

 測試集決策邊界

plot_decision_boundary(lr, X_test, y_test)

 

 

 補充

用於多分類的還有:

  • 多項式(multinomial):z有正有負,用ez,它一定大於0,技巧:ez1/(  ez1+ ez2ez3)
  • 一對多(one versus rest) A B C ,是A,不是A;是B,不是B;是C,不是C。

完結散花

 

 

參考文獻:https://blog.csdn.net/u014106644/article/details/83660226,開課吧

 

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 也許你瞧不起以前的 css ,但是你不該再輕視眼下的 css 。近年來 css 的變數系統已逐步得到各大瀏覽器廠商支持,自定義選擇器等強勢襲來,嵌套系統/模塊系統也在路上…為了更好的掌握 css 這門語言,很有必要把之前零零散散的 css 知識回爐重造下。 css 作為一門語言而,也有其繼承原理,雖 ...
  • 將一些零散的知識點進行整理, 以便加深理解,方便查閱,也希望能幫到大家。 一、負載均衡演算法 1. 隨機 完全隨機 通過系統隨機函數,根據後端伺服器列表的大小值來隨機選擇其中一臺進行訪問。由概率統計理論可以得知,隨著調用量的增大,其實際效果越來越接近於平均分配流量到每一臺後端伺服器,也就是輪詢的效果。 ...
  • /** * 1.模式定義: * 過濾器(Filter Pattern)又稱為標準模式(Criteria Pattern)是一種設計模式,這種模式允許開發人員使用不同的標準來過濾一組對象, * 通過預算邏輯以解耦的方式將他們聯繫起來。這種類型的設計模式屬於結構模型,說白了,就是按條件篩選一組對象出來。 ...
  • 背景 之前做過一個項目,資料庫存儲採用的是mysql。當時面臨著業務指數級的增長,存儲容量不足。當時採用的措施是 1>短期解決容量的問題 mysql從5.6升級5.7,因為數據核心且重要,資料庫主從同步採用的是全同步, 利用5.7並行複製新特性,減少了主從同步的延遲,提高了吞吐量。 當時業務量高峰是 ...
  • 1.動態SQL簡介 動態 SQL是MyBatis強大特性之一. 動態 SQL 元素和使用 JSTL 或其他類似基於 XML 的文本處理器相似. MyBatis 採用功能強大的基於 OGNL 的表達式來簡化操作. 2.if 1).實現DynamicSQL public interface Employ ...
  • 消費方項目為SpringMVC 服務提供方為Spring+MyBatis 使用版本號: dubbo 2.6.6 zookeeper 3.6.1 出現異常: 類型:com.alibaba.dubbo.rpc.RpcException 主要信息: Invoke remote method timeout ...
  • C++中,指向常量的指針和常量型指針很容易搞混和記錯。為了記憶,今天特此記錄下來,以便以後查看。 1. 指向常量的指針(point to const): (1)定義:通常是指向常量的指針,也就是指針指向的內容是個常量。 (2)格式:定義格式例如:const double * ptr 或者double ...
  • 逗號運算符( , )是C++語言運算符中優先順序最低的一種運算符,結合順序是從左至右,用來順序求值(最後一個逗號後面表達式的值作為整個表達式的值)。 感覺這個東西還是挺冷門的,之前都不知道,平時也比較少用到,不過探究這個是個挺有趣的過程。 以下是幾個無聊的小實驗: 逗號+常數語句的返回值 int a ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...