spark 機器學習 隨機森林 實現(二)

来源:https://www.cnblogs.com/xiguage119/archive/2019/06/19/11050879.html
-Advertisement-
Play Games

通過天氣,溫度,風速3個特征,建立隨機森林,判斷特征的優先順序結果 天氣 溫度 風速結果(0否,1是)天氣(0晴天,1陰天,2下雨)溫度(0熱,1舒適,2冷)風速(0沒風,1微風,2大風)1 1:0 2:1 3:0結果去打球 1欄位:晴天 2欄位:溫度舒適 3欄位:風速沒風[hadoop@h201 p ...


通過天氣,溫度,風速3個特征,建立隨機森林,判斷特征的優先順序
結果 天氣 溫度 風速
結果(0否,1是)
天氣(0晴天,1陰天,2下雨)
溫度(0熱,1舒適,2冷)
風速(0沒風,1微風,2大風)
1 1:0 2:1 3:0
結果去打球 1欄位:晴天 2欄位:溫度舒適 3欄位:風速沒風
[hadoop@h201 pp]$ cat pp1.txt
1 1:0 2:1 3:0
0 1:2 2:2 3:2
1 1:0 2:0 3:0
1 1:0 2:0 3:1
1 1:0 2:1 3:1
1 1:0 2:1 3:1
1 1:0 2:1 3:0
0 1:1 2:2 3:2
0 1:1 2:2 3:2
0 1:2 2:2 3:2
0 1:2 2:1 3:1
0 1:2 2:1 3:2
0 1:1 2:2 3:2
1 1:0 2:1 3:0
本例子 用官方提供代碼進行更改完成
hadoop fs -put pp1.txt /

scala> import org.apache.spark.mllib.tree.RandomForest
scala> import org.apache.spark.mllib.tree.model.RandomForestModel
scala> import org.apache.spark.mllib.util.MLUtils

val data = MLUtils.loadLibSVMFile(sc, "hdfs://h201:9000/pp1.txt")
//標記點是將密集向量或者稀疏向量與應答標簽相關聯(結果),在MLlib中,標記點用於監督學習演算法。LIBSVM是林智仁教授等開發設計的一個簡單、易用和快速有效的SVM模式識別與回歸的軟體包。MLlib已經提供了MLUtils.loadLibSVMFile方法讀取存儲在LIBSVM格式文本文件中的訓練數據

//數據格式 :空格分割,第一部分為結果,後面為特征向量

scala> val splits = data.randomSplit(Array(0.7, 0.3))
scala> val (trainingData, testData) = (splits(0), splits(1))

scala> val numClasses = 2
//分類數
scala> val categoricalFeaturesInfo = Map[Int, Int]()
// categoricalFeaturesInfo 為空,意味著所有的特征為連續型變數
scala> val numTrees = 3
//樹的個數
scala> val featureSubsetStrategy = "auto"
//特征子集採樣策略,auto 表示演算法自主選取
scala> val impurity = "gini"

//以性別舉例:性別 :1-(1/2)^2-(1/2)^2 =0.5
scala> val maxDepth = 4
//樹的最大層次
scala> val maxBins = 32
//特征最大裝箱數

val model = RandomForest.trainClassifier(trainingData, numClasses, categoricalFeaturesInfo,
 numTrees, featureSubsetStrategy, impurity, maxDepth, maxBins)
//訓練隨機森林分類器

val labelAndPreds = testData.map { point =>
 val prediction = model.predict(point.features)
 (point.label, prediction)
}
scala> val testErr = labelAndPreds.filter(r => r._1 != r._2).count.toDouble / testData.count()
scala> println("Test Error = " + testErr)
// 測試數據評價訓練好的分類器並計算錯誤率

scala> println("Learned classification forest model:\n" + model.toDebugString)

scala> model.save(sc, "myModelPath")
//持久化保存隨機森林

scala> val sameModel = RandomForestModel.load(sc, "myModelPath")
//載入隨機森林


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 題目 編寫一個 SQL 查詢,獲取 表中第二高的薪水(Salary) 。 例如上述 表,SQL查詢應該返回 作為第二高的薪水。如果不存在第二高的薪水,那麼查詢應返回 。 解決方案 方法一 :使用 和 子句 將不同的薪資按降序排序,然後使用 子句獲得第二高的薪資。 然而,如果沒有這樣的第二最高工資,這 ...
  • 字典 字典又稱為符號表、關聯數組或映射(map),是一種用於保存鍵值對(key value)的數據結構。 那麼 C 語言中有沒有這樣 key value 型的內置數據結構呢? 答案:沒有。 說起鍵值對,是不是想到了 Java 中的 Map?Java中的 Map 實現有兩個:HashMap 和 Tre ...
  • 查詢外鍵欄位信息SET pagesize 1000COL 外鍵擁有者 FOR A20COL 外鍵表 FOR A30COL 外鍵列 FOR A20COL 主鍵擁有者 FOR A20COL 主鍵表 FOR A30COL 主鍵列 FOR A20COL 外鍵名 FOR A30COL 主鍵名 FOR A30 ...
  • 1.查看虛擬機的預設網關和子網掩碼 a.vm菜單欄點擊編輯->虛擬網路編輯器 b.選擇VMnet8,點擊NAT設置,查看子網掩碼、網關IP 2. 修改伺服器的網路配置 a. 修改主機名 hostnamectl set-hostname node01(可選) b. 編輯網卡配置 vi /etc/sys ...
  • 1.-- 查看表結構 DESC 表名; 主要是欄位類型,主鍵,是否允許為空等。 2. 查看表中欄位的結構信息 可以用來查看表中欄位的註釋等,比如 select table_name,column_name,column_comment from information_schema.columns ...
  • 認識資料庫 1 什麼是數據(Data) 描述事物的符號記錄稱為數據,描述事物的符號既可以是數字,也可以是文字、圖片,圖像、聲音、語言等,數據由多種表現形式,它們都可以經過數字化後存入電腦 在電腦中描述一個事物,就需要抽取這一事物的典型特征,組成一條記錄,就相當於文件里的一行內容,如: 單純的一條 ...
  • EXCEL的列:組織id,供應商編號,供應商地點,料號,最小拆分量、採購提前期、最小訂購量、最小包裝量 --採購導入更新MOQ四個值,若有為空的那列,會保留原來的值,不會去更新那列的值 PROCEDURE UPDATE_PO_MOQ AS CURSOR PO_MOQ_CUR IS SELECT ID ...
  • SQL Server目前正日益成為WindowNT操作系統上面最為重要的一種資料庫管理系統,隨著 SQL Server2000的推出,微軟的這種資料庫服務系統真正地實現了在WindowsNT/2000系列操作系統一統天下的局面,在微軟的操作系統上,沒有任何一種資料庫系統能與之抗衡,包括資料庫領域中的 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...