機器學習實戰:基於Scikit-Learn和TensorFlow 讀書筆記 第6章 決策樹

来源:https://www.cnblogs.com/coderying/archive/2019/12/15/12045954.html
-Advertisement-
Play Games

數據挖掘作業,要實現決策樹,現記錄學習過程 win10系統,Python 3.7.0 構建一個決策樹,在鳶尾花數據集上訓練一個DecisionTreeClassifier: from sklearn.datasets import load_iris from sklearn.tree import ...


數據挖掘作業,要實現決策樹,現記錄學習過程

win10系統,Python 3.7.0

構建一個決策樹,在鳶尾花數據集上訓練一個DecisionTreeClassifier:

from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
iris = load_iris()
X = iris.data[:,2:]
y = iris.target
tree_clf = DecisionTreeClassifier(max_depth=2)
tree_clf.fit(X,y)

要將決策樹可視化,首先,使用export_graphviz()方法輸出一個圖形定義文件,命名為iris_tree.dot

 

這裡需要安裝graphviz

安裝方式:

① conda install python-graphviz

② pip install graphviz

在當前目錄下新建images/decision_trees目錄

不然會報錯

Traceback (most recent call last):
File "decisiontree.py", line 21, in <module>
filled=True)
File "E:\Anaconda\lib\site-packages\sklearn\tree\export.py", line 762, in export_graphviz
out_file = open(out_file, "w", encoding="utf-8")
FileNotFoundError: [Errno 2] No such file or directory: '.\\images\\decision_trees\\iris_tree.dot'

from sklearn.tree import export_graphviz
import os
PROJECT_ROOT_DIR = "."
CHAPTER_ID = "decision_trees"
def image_path(fig_id):
    return os.path.join(PROJECT_ROOT_DIR, "images", CHAPTER_ID, fig_id)

export_graphviz(tree_clf, out_file
=image_path("iris_tree.dot"), feature_names=iris.feature_names[2:], class_names=iris.target_names, rounded=True, filled=True)

運行過後生成了一個dot文件

 

 

 使用命令dot -Tpng iris_tree.dot -o iris_tree.png 將dot文件轉換為png文件方便顯示

 

 

 

 決策樹如上圖所示

petal length:花瓣長度   petal width:花瓣寬度

samples:統計出它應用於多少個訓練樣本實例

value:這個節點對於每一個類別的樣例有多少個  這個葉結點顯示包含0 個 Iris-Setosa,1 個 Iris-Versicolor 和 45 個 Iris-Virginica

 Gini:用於測量它的純度,如果一個節點包含的所有訓練樣例全都是同一類別的,我們就說這個節點是純的( Gini=0 )

Gini公式:

 Pik是第i個節點上,類別為k的訓練實例占比

 

 

 

深度為 2 的左側節點基尼指數為: 1 - (0/54)² - (49/54)² - (5/54)² = 0.68

進行預測

當找到了一朵鳶尾花並且想對它進行分類時,從根節點開始,詢問花朵的花瓣長度是否小於2.45釐米。如果是,將向下移動到根的左側子節點,在這種情況下,它是一片葉子節點,它不會再繼續問任何問題,決策樹預測你的花是iris-setosa

 

假設你找到了另一朵花,但這次的花瓣長度是大於2.45釐米的。必須向下移動到根的右側子節點,而這個節點不是葉節點,它會問另一個問題,花瓣寬度是否小於1.75釐米?如果是,則將這朵花分類成iris-versicolor ,不是,則分類成iris-versicolor

 

註意:scikit-learn使用的是CART演算法,該演算法僅生成二叉樹;非葉節點永遠只有兩個子節點。

估計分類概率

新樣本:花瓣長5釐米,花瓣寬1.5釐米,預測具體的類

print(tree_clf.predict_proba([[5,1.5]]))
print(tree_clf.predict([[5,1.5]]))

此處說明分類為iris-setosa的概率為0,分類為iris-versicolor的概率為0.90740741,分類為iris-virginica的概率為0.09259259

通過predict預測該花為iris-versicolor

 完整代碼

#在鳶尾花數據集上進行一個決策樹分類器的訓練
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import export_graphviz
import os
PROJECT_ROOT_DIR = "."
CHAPTER_ID = "decision_trees"
def image_path(fig_id):
    return os.path.join(PROJECT_ROOT_DIR, "images", CHAPTER_ID, fig_id)

iris = load_iris()
X = iris.data[:,2:]
y = iris.target
tree_clf = DecisionTreeClassifier(max_depth=2)
tree_clf.fit(X,y)
export_graphviz(tree_clf,
                out_file=image_path("iris_tree.dot"),
                feature_names=iris.feature_names[2:],
                class_names=iris.target_names,
                rounded=True,
                filled=True)      
print(tree_clf.predict_proba([[5,1.5]]))
#[0]:iris-setosa,     [1]:iris-versicolor,    [2]:iris-virginica"
print(tree_clf.predict([[5,1.5]]))

 

CART訓練演算法原理介紹:

Scikit-Learn使用的是分類與回歸樹(Classification And Regression Tree,簡稱CART)演算法來訓練決策樹(也叫作“生長”樹)。想法非常簡單:首先,使用單個特征k和閾值tk(例如,花瓣長度≤2.45釐米)將訓練集分成兩個子集。k和閾值tk怎麼選擇?答案是產生出最純子集(受其大小加權)的k和tk就是經演算法搜索確定的(t,tk)。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 大家都知道,Java中JVM的重要性,學習了JVM你對Java的運行機制、編譯過程和如何對Java程式進行調優相信都會有一個很好的認知。 廢話不多說,直接帶大家來初步認識一下JVM。 什麼是JVM? JVM(Java Virtual Machine)是一個抽象的電腦,和實際的電腦一樣,它具有指令 ...
  • 猜數字小游戲 1 # coding:utf-8 2 import random 3 4 5 #利用random生成一個1-10的隨機數 6 luckeyNum = random.randint(1,10) 7 8 #限定猜的次數 9 limitCount = 3 10 11 while limitC ...
  • 新聞 "Azure Functions 3.0系統上線" "GC性能架構——第1部分" "ConfigureAwait問題解答" "介紹System.Threading.Channels" "Windows Server Core容器鏡像小了40%" "F 性能提示和技巧" 視頻及幻燈片 "語言與運 ...
  • 線程池一大早就來到了公司,進到了屬於自己的“經理”辦公室,時間才剛剛8點,雖然他不用打卡。不覺中時間來到了8:40,公司的“中層管理”人員們陸續到來,打卡後坐到各自工位,稍作調整,準備參加公司的“晨會”。趁還有點時間,就給大家介紹下出席晨會的人員吧。線程池就是Java里的大名鼎鼎的ThreadPoo ...
  • "先鏈接到一個我的另一篇有關HTTP的博客" 第一次訪問時會有些慢~~~ http協議 因為編寫 Web 應用必須對 HTTP 有所瞭解,所以我們對 HTTP 進行介紹 HTTP 協議簡介 HTTP 超文本傳輸協議 (HTTP Hypertext transfer protocol),是一個屬於應用 ...
  • 1.Unable to save settings: Failed to save settings. Please restart PyCharm解決 將工程的.idea目錄刪掉,重啟pycharm即可。 2.error:please select a valid Python interpret ...
  • 前言 本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯繫我們以作處理。作者:Botreechan 1.進入地址我們可以發現,頁面有著非常整齊的目錄,那麼網頁源代碼中肯定也有非常規律的目錄,進去看看吧。如果你看不懂,建議先去小編的Python交流. ...
  • 本項目實現的是一個微riscv處理器核(tinyriscv),用verilog語言編寫,只求以最簡單、最通俗易懂的方式實現riscv指令的功能,因此沒有特意去對代碼做任何的優化,因此你會看到裡面寫的代碼有很多冗餘的地方。tinyriscv處理器核有以下特點: 1)實現了RV32I指令集,通過risc ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...