Spark機器學習(6):決策樹演算法

来源:http://www.cnblogs.com/mstk/archive/2017/07/06/7128540.html
-Advertisement-
Play Games

1. 決策樹基本知識 決策樹就是通過一系列規則對數據進行分類的一種演算法,可以分為分類樹和回歸樹兩類,分類樹處理離散變數的,回歸樹是處理連續變數。 樣本一般都有很多個特征,有的特征對分類起很大的作用,有的特征對分類作用很小,甚至沒有作用。如決定是否對一個人貸款是,這個人的信用記錄、收入等就是主要的判斷 ...


1. 決策樹基本知識

決策樹就是通過一系列規則對數據進行分類的一種演算法,可以分為分類樹和回歸樹兩類,分類樹處理離散變數的,回歸樹是處理連續變數。

樣本一般都有很多個特征,有的特征對分類起很大的作用,有的特征對分類作用很小,甚至沒有作用。如決定是否對一個人貸款是,這個人的信用記錄、收入等就是主要的判斷依據,而性別、婚姻狀況等等就是次要的判斷依據。決策樹構建的過程,就是根據特征的決定性程度,先使用決定性程度高的特征分類,再使用決定性程度低的特征分類,這樣構建出一棵倒立的樹,就是我們需要的決策樹模型,可以用來對數據進行分類。

決策樹學習的過程可以分為三個步驟:1)特征選擇,即從眾多特征中選擇出一個作為當前節點的分類標準;2)決策樹生成,從上到下構建節點;3)剪枝,為了預防和消除過擬合,需要對決策樹剪枝。

2. 決策樹演算法

主要的決策樹演算法包括ID3、C4.5和CART。

ID3把信息增益作為選擇特征的標準。由於取值較多的特征(如學號)的信息增益比較大,這種演算法會偏向於取值較多的特征。而且該演算法只能用於離散型的數據,優點是不需要剪枝。

C4.5和ID3比較類似,區別在於使用信息增益比替代信息增益作為選擇特征的標準,因此比ID3更加科學,並且可以用於連續型的數據,但是需要剪枝。

CART(Classification And Regression Tree)採用的是Gini作為選擇的標準。Gini越大,說明不純度越大,這個特征就越不好。

3. MLlib的決策樹演算法

MLlib的決策樹演算法使用的隨機森林RandomForest的方法,不過並不是真正的隨機森林,因為實際上只有一棵決策樹。

直接上代碼:

import org.apache.log4j.{ Level, Logger }
import org.apache.spark.{ SparkConf, SparkContext }
import org.apache.spark.mllib.tree.DecisionTree
import org.apache.spark.mllib.tree.model.DecisionTreeModel
import org.apache.spark.mllib.util.MLUtils

/**
  * Created by Administrator on 2017/7/6.
  */
object DecisionTreeTest {

  def main(args: Array[String]): Unit = {

    // 設置運行環境
    val conf = new SparkConf().setAppName("Decision Tree")
      .setMaster("spark://master:7077").setJars(Seq("E:\\Intellij\\Projects\\MachineLearning\\MachineLearning.jar"))
    val sc = new SparkContext(conf)
    Logger.getRootLogger.setLevel(Level.WARN)

    // 讀取樣本數據並解析
    val dataRDD = MLUtils.loadLibSVMFile(sc, "hdfs://master:9000/ml/data/sample_dt_data.txt")
    // 樣本數據劃分,訓練樣本占0.8,測試樣本占0.2
    val dataParts = dataRDD.randomSplit(Array(0.8, 0.2))
    val trainRDD = dataParts(0)
    val testRDD = dataParts(1)

    // 決策樹參數
    val numClasses = 5
    val categoricalFeaturesInfo = Map[Int, Int]()
    val impurity = "gini"
    val maxDepth = 5
    val maxBins = 32
    // 建立決策樹模型並訓練
    val model = DecisionTree.trainClassifier(trainRDD, numClasses, categoricalFeaturesInfo,
      impurity, maxDepth, maxBins)

    // 對測試樣本進行測試
    val predictionAndLabel = testRDD.map { point =>
      val score = model.predict(point.features)
      (score, point.label, point.features)
    }
    val showPredict = predictionAndLabel.take(50)
    println("Prediction" + "\t" + "Label" + "\t" + "Data")
    for (i <- 0 to showPredict.length - 1) {
      println(showPredict(i)._1 + "\t" + showPredict(i)._2 + "\t" + showPredict(i)._3)
    }

    // 誤差計算
    val accuracy = 1.0 * predictionAndLabel.filter(x => x._1 == x._2).count() / testRDD.count()
    println("Accuracy = " + accuracy)

    // 保存模型
    val ModelPath = "hdfs://master:9000/ml/model/Decision_Tree_Model"
    model.save(sc, ModelPath)
    val sameModel = DecisionTreeModel.load(sc, ModelPath)

  }

運行結果:


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 原文網上抄錄 ...
  • 在逆向過程中經常會遇到反調試,如下段代碼: 0008bd8e movs r1, #0xa ; argument #2 for method imp___symbolstub1__dlopen 0008bd90 blx imp___symbolstub1__dlopen 0008bd94 movw r ...
  • 兩種方式, 推薦方式一 方式一 downloadOnly 創建一個 ImageActivity 以上代碼 從另一個activity得到 圖片的 url , 然後使用Glide 圖片載入庫 將圖片顯示到 ImageView上, 長按ImageView可以將圖片保存到手機的 Pictures/Beaut ...
  • Objective-C中提供了兩種記憶體管理機制MRC(MannulReference Counting)和ARC(Automatic Reference Counting),分別提供對記憶體的手動和自動管理,來滿足不同的需求. ARC: ARC是Auto Reference Counting的縮寫,即 ...
  • 1、新建一個Activity,並把各個生命周期列印出來 2、運行Activity,得到如下信息 onCreate--> onStart--> onResume--> 3、按crtl+f12切換成橫屏時 onSaveInstanceState--> onPause--> onStop--> onDes ...
  • 很長時間沒看這方面的內容了,寫篇文章讓自己牢記一下,順便分享一下。 首先,寫代碼以便檢驗結果。測試代碼: public class Test { public static void main(String[] args) { new Test2(); } } 子類代碼: public class ...
  • 項目中需要根據條件獲取一些數據,但是如果條件相同的情況下,要去掉條件一樣的並且某個值是最小的數據,留下的是最大值數據。 簡單記錄一下sql: ...
  • 安裝hadoop的步驟比較繁瑣,但是並不難。 在CentOS上安裝Hadoop2.7 1. 安裝 CentOS,註:圖形界面並無必要 2. 在CentOS里設置靜態IP,手工編輯如下4個文件 /etc/hosts /etc/sysconfig/netwok /etc/hostname /etc/sy ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...