機器學習1

来源:https://www.cnblogs.com/qing0228/archive/2019/07/04/11135514.html
-Advertisement-
Play Games

機器學習主要由監督學習、無監督學習。 監督學習主要用於解決分類和回歸問題。 無監督學習主要用於解決聚類問題。 在機器學習過程中主要有以下幾個步驟: 數據預處理 特征工程 數據建模 結果評估 首先介紹數據預處理,主要包括數據清洗、數據採樣以及數據集的拆分三個部分。 在數據清洗過程中主要對各種臟數據進行 ...


    機器學習主要由監督學習、無監督學習。

  監督學習主要用於解決分類和回歸問題。

  無監督學習主要用於解決聚類問題。

  在機器學習過程中主要有以下幾個步驟:

  • 數據預處理
  • 特征工程
  • 數據建模
  • 結果評估

  首先介紹數據預處理,主要包括數據清洗、數據採樣以及數據集的拆分三個部分。

  在數據清洗過程中主要對各種臟數據進行對應方式的處理,力保數據的完整性、合法性、一致性、唯一性以及權威性。

  在數據集的拆分中,主要將數據集拆分為三部分,分別是訓練集、預測集、驗證數據集。其中驗證數據集主要是為了在構建過程中評估模型、提供無偏估計進而調整模型參數。而日常使用中常用的拆分方式為:留出法和k-折交叉驗證法。兩種方法使用時均需要採用互斥拆分。在使用留出法時需要註意拆分保持前後數據的分佈一致,避免劃分過程中引入額外偏差導致結果產生影響。k-折交叉驗證法將數據分為大小相似的k個互斥子集,並儘量保持每個自己數據分佈的一致性,從而可以獲取k組訓練-測試集。

  其次是特征工程的講解。主要包括特征編碼、特征選擇、特征降維以及規範化幾個方面。

  特征編碼是對數據集中出現的字元串信息轉換為數值形式。one-hot編碼採用N位寄存器的方法對N個狀態進行編碼。例如,性別屬性包括男、女兩個值,對其進行編碼,0代表男生、1代表女生。語義編碼是採用詞潛入的方式,詞嵌入信息可以編碼語義信息,生成特征語義表示。使用語義編碼可以體現數據間的語音關係。例如http://www.sohu.com/a/129290647_473283TensorFlow自動句子語義編碼,谷歌開源機器學習模型 Skip-Thoughts

  特征選擇主要包括過濾法、包裹法和嵌入法。

  特征降維。特征降維可以減少特征屬性的個數,確保特征屬性之間是相互獨立的。而且過多的特征屬性會妨礙模型查找規律。比如一個模型中有多個屬性,分別是性別、年齡、名字、收入、婚否等多個屬性,但是我們接下來要對數據中的男女進行分類的話,只需要考慮性別即可,其餘屬性即可剔除,這就是達到了數據降維的目的。機器學習中常用的降維方法為PCA、LDA

  規範化主要是將數據標準化、進行區間縮放或者進行歸一化。

  數據建模

  根據所需解決的問題,進行判斷,問題是屬於分類問題、回歸問題還是聚類問題。判定好問題類型,選擇合適的演算法來針對問題具體解決。

  對於分類問題,主要有以下幾個演算法:決策樹、貝葉斯、支持向量機、邏輯回歸和繼承學習等

  對於回歸問題有:線性回歸、嶺回歸等

  對於聚類問題有:K-means、高斯混合聚類、層次聚類以及密度聚類等

  最後進行結果評估。

  評估指標有很多,如果是有監督學習的話,僅僅根據測試機的預測準確率是遠不夠的,可以參考:https://blog.csdn.net/zk_ken/article/details/82013289

  

 

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 原文鏈接:https://www.cnblogs.com/qmfsun/p/4598650.html date "+今天是%Y-%d-%m,現在是%H:%M:%S" 1. 顯示時間date命令可以按照指定格式顯示日期,只鍵入date則以預設格式顯示當前時間。如下: 如果需要以指定的格式顯示日期,可以 ...
  • 下圖1為 Linux 性能優化排查工具的總結 診斷 CPU 工具 查看 CPU 核數 總核數 = 物理CPU個數 X 每顆物理CPU的核數 總邏輯CPU數 = 物理CPU個數 X 每顆物理CPU的核數 X 超線程數 查看物理CPU個數 cat /proc/cpuinfo| grep "physica ...
  • 1. 前言 emmm….最近學習大數據,需要搭建Hadoop框架,當弄好linux系統之後,第一件事就是SSH免密登錄的設置。對於SSH,我覺得使用過linux系統的程式員應該並不陌生。可是吧,用起來簡單,真讓你說出個所以然,還是件比較困難的事(大佬繞路,此篇文章不屬於你~)。然後,我就好奇心大發, ...
  • 1、原系統的備份 避免重裝遇到故障無法恢復,給自己留一條後路。 重裝系統之前首先進行一次系統備份,我使用的備份軟體是dism++,這個軟體還可以完成其他的諸如空間回收、系統優化等操作; 軟體地址:https://www.chuyu.me/zh-Hans/ 2、重裝之後,軟體的安裝 首先安裝輸入法,微 ...
  • 一.LNMP介紹 1.使前端web服務和後端存儲服務進行串聯 2.主要實現處理php動態請求 工作原理: L:linux N:nginx M:mysql P:php 二、lnmp部署 我的環境:centos6.9+nginx+mysql5.6+php5 文件存儲系統NFS 1.部署安裝linux系統 ...
  • --根據員工號或員工姓名獲取員工的信息--根據員工號或員工姓名刪除員工的信息--創建包規範CREATE OR REPLACE PACKAGE overload_pkgIS FUNCTION get_info(eno NUMBER) RETURN emp%ROWTYPE; FUNCTION get_i ...
  • 資料庫之MySQL的基本使用,內容包括 資料庫簡介,MySQL安裝,數據完整性,命令行腳本。其中,資料庫簡介包括 資料庫,RDBMS,RDBMS和資料庫的關係,SQL,MySQL 簡介;資料庫安裝包括 伺服器端安裝和客戶端安裝;數據完整性包括 數據類型,約束;命令行腳本包括 資料庫的操作,數據表的操... ...
  • 一.什麼是kafkakafka的目標是實現一個為處理實時數據提供一個統一、高吞吐、低延遲的平臺。是分散式發佈-訂閱消息系統,是一個分散式的,可劃分的,冗餘備份的持久性的日誌服務。Kafka使用場景:1 日誌收集:一個公司可以用Kafka可以收集各種服務的log,通過kafka以統一介面服務的方式開放 ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...