機器學習實戰:基於Scikit-Learn和TensorFlow 讀書筆記 第6章 決策樹

来源:https://www.cnblogs.com/coderying/archive/2019/12/15/12045954.html
-Advertisement-
Play Games

數據挖掘作業,要實現決策樹,現記錄學習過程 win10系統,Python 3.7.0 構建一個決策樹,在鳶尾花數據集上訓練一個DecisionTreeClassifier: from sklearn.datasets import load_iris from sklearn.tree import ...


數據挖掘作業,要實現決策樹,現記錄學習過程

win10系統,Python 3.7.0

構建一個決策樹,在鳶尾花數據集上訓練一個DecisionTreeClassifier:

from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
iris = load_iris()
X = iris.data[:,2:]
y = iris.target
tree_clf = DecisionTreeClassifier(max_depth=2)
tree_clf.fit(X,y)

要將決策樹可視化,首先,使用export_graphviz()方法輸出一個圖形定義文件,命名為iris_tree.dot

 

這裡需要安裝graphviz

安裝方式:

① conda install python-graphviz

② pip install graphviz

在當前目錄下新建images/decision_trees目錄

不然會報錯

Traceback (most recent call last):
File "decisiontree.py", line 21, in <module>
filled=True)
File "E:\Anaconda\lib\site-packages\sklearn\tree\export.py", line 762, in export_graphviz
out_file = open(out_file, "w", encoding="utf-8")
FileNotFoundError: [Errno 2] No such file or directory: '.\\images\\decision_trees\\iris_tree.dot'

from sklearn.tree import export_graphviz
import os
PROJECT_ROOT_DIR = "."
CHAPTER_ID = "decision_trees"
def image_path(fig_id):
    return os.path.join(PROJECT_ROOT_DIR, "images", CHAPTER_ID, fig_id)

export_graphviz(tree_clf, out_file
=image_path("iris_tree.dot"), feature_names=iris.feature_names[2:], class_names=iris.target_names, rounded=True, filled=True)

運行過後生成了一個dot文件

 

 

 使用命令dot -Tpng iris_tree.dot -o iris_tree.png 將dot文件轉換為png文件方便顯示

 

 

 

 決策樹如上圖所示

petal length:花瓣長度   petal width:花瓣寬度

samples:統計出它應用於多少個訓練樣本實例

value:這個節點對於每一個類別的樣例有多少個  這個葉結點顯示包含0 個 Iris-Setosa,1 個 Iris-Versicolor 和 45 個 Iris-Virginica

 Gini:用於測量它的純度,如果一個節點包含的所有訓練樣例全都是同一類別的,我們就說這個節點是純的( Gini=0 )

Gini公式:

 Pik是第i個節點上,類別為k的訓練實例占比

 

 

 

深度為 2 的左側節點基尼指數為: 1 - (0/54)² - (49/54)² - (5/54)² = 0.68

進行預測

當找到了一朵鳶尾花並且想對它進行分類時,從根節點開始,詢問花朵的花瓣長度是否小於2.45釐米。如果是,將向下移動到根的左側子節點,在這種情況下,它是一片葉子節點,它不會再繼續問任何問題,決策樹預測你的花是iris-setosa

 

假設你找到了另一朵花,但這次的花瓣長度是大於2.45釐米的。必須向下移動到根的右側子節點,而這個節點不是葉節點,它會問另一個問題,花瓣寬度是否小於1.75釐米?如果是,則將這朵花分類成iris-versicolor ,不是,則分類成iris-versicolor

 

註意:scikit-learn使用的是CART演算法,該演算法僅生成二叉樹;非葉節點永遠只有兩個子節點。

估計分類概率

新樣本:花瓣長5釐米,花瓣寬1.5釐米,預測具體的類

print(tree_clf.predict_proba([[5,1.5]]))
print(tree_clf.predict([[5,1.5]]))

此處說明分類為iris-setosa的概率為0,分類為iris-versicolor的概率為0.90740741,分類為iris-virginica的概率為0.09259259

通過predict預測該花為iris-versicolor

 完整代碼

#在鳶尾花數據集上進行一個決策樹分類器的訓練
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import export_graphviz
import os
PROJECT_ROOT_DIR = "."
CHAPTER_ID = "decision_trees"
def image_path(fig_id):
    return os.path.join(PROJECT_ROOT_DIR, "images", CHAPTER_ID, fig_id)

iris = load_iris()
X = iris.data[:,2:]
y = iris.target
tree_clf = DecisionTreeClassifier(max_depth=2)
tree_clf.fit(X,y)
export_graphviz(tree_clf,
                out_file=image_path("iris_tree.dot"),
                feature_names=iris.feature_names[2:],
                class_names=iris.target_names,
                rounded=True,
                filled=True)      
print(tree_clf.predict_proba([[5,1.5]]))
#[0]:iris-setosa,     [1]:iris-versicolor,    [2]:iris-virginica"
print(tree_clf.predict([[5,1.5]]))

 

CART訓練演算法原理介紹:

Scikit-Learn使用的是分類與回歸樹(Classification And Regression Tree,簡稱CART)演算法來訓練決策樹(也叫作“生長”樹)。想法非常簡單:首先,使用單個特征k和閾值tk(例如,花瓣長度≤2.45釐米)將訓練集分成兩個子集。k和閾值tk怎麼選擇?答案是產生出最純子集(受其大小加權)的k和tk就是經演算法搜索確定的(t,tk)。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 大家都知道,Java中JVM的重要性,學習了JVM你對Java的運行機制、編譯過程和如何對Java程式進行調優相信都會有一個很好的認知。 廢話不多說,直接帶大家來初步認識一下JVM。 什麼是JVM? JVM(Java Virtual Machine)是一個抽象的電腦,和實際的電腦一樣,它具有指令 ...
  • 猜數字小游戲 1 # coding:utf-8 2 import random 3 4 5 #利用random生成一個1-10的隨機數 6 luckeyNum = random.randint(1,10) 7 8 #限定猜的次數 9 limitCount = 3 10 11 while limitC ...
  • 新聞 "Azure Functions 3.0系統上線" "GC性能架構——第1部分" "ConfigureAwait問題解答" "介紹System.Threading.Channels" "Windows Server Core容器鏡像小了40%" "F 性能提示和技巧" 視頻及幻燈片 "語言與運 ...
  • 線程池一大早就來到了公司,進到了屬於自己的“經理”辦公室,時間才剛剛8點,雖然他不用打卡。不覺中時間來到了8:40,公司的“中層管理”人員們陸續到來,打卡後坐到各自工位,稍作調整,準備參加公司的“晨會”。趁還有點時間,就給大家介紹下出席晨會的人員吧。線程池就是Java里的大名鼎鼎的ThreadPoo ...
  • "先鏈接到一個我的另一篇有關HTTP的博客" 第一次訪問時會有些慢~~~ http協議 因為編寫 Web 應用必須對 HTTP 有所瞭解,所以我們對 HTTP 進行介紹 HTTP 協議簡介 HTTP 超文本傳輸協議 (HTTP Hypertext transfer protocol),是一個屬於應用 ...
  • 1.Unable to save settings: Failed to save settings. Please restart PyCharm解決 將工程的.idea目錄刪掉,重啟pycharm即可。 2.error:please select a valid Python interpret ...
  • 前言 本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯繫我們以作處理。作者:Botreechan 1.進入地址我們可以發現,頁面有著非常整齊的目錄,那麼網頁源代碼中肯定也有非常規律的目錄,進去看看吧。如果你看不懂,建議先去小編的Python交流. ...
  • 本項目實現的是一個微riscv處理器核(tinyriscv),用verilog語言編寫,只求以最簡單、最通俗易懂的方式實現riscv指令的功能,因此沒有特意去對代碼做任何的優化,因此你會看到裡面寫的代碼有很多冗餘的地方。tinyriscv處理器核有以下特點: 1)實現了RV32I指令集,通過risc ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...