機器學習1

来源:https://www.cnblogs.com/qing0228/archive/2019/07/04/11135514.html
-Advertisement-
Play Games

機器學習主要由監督學習、無監督學習。 監督學習主要用於解決分類和回歸問題。 無監督學習主要用於解決聚類問題。 在機器學習過程中主要有以下幾個步驟: 數據預處理 特征工程 數據建模 結果評估 首先介紹數據預處理,主要包括數據清洗、數據採樣以及數據集的拆分三個部分。 在數據清洗過程中主要對各種臟數據進行 ...


    機器學習主要由監督學習、無監督學習。

  監督學習主要用於解決分類和回歸問題。

  無監督學習主要用於解決聚類問題。

  在機器學習過程中主要有以下幾個步驟:

  • 數據預處理
  • 特征工程
  • 數據建模
  • 結果評估

  首先介紹數據預處理,主要包括數據清洗、數據採樣以及數據集的拆分三個部分。

  在數據清洗過程中主要對各種臟數據進行對應方式的處理,力保數據的完整性、合法性、一致性、唯一性以及權威性。

  在數據集的拆分中,主要將數據集拆分為三部分,分別是訓練集、預測集、驗證數據集。其中驗證數據集主要是為了在構建過程中評估模型、提供無偏估計進而調整模型參數。而日常使用中常用的拆分方式為:留出法和k-折交叉驗證法。兩種方法使用時均需要採用互斥拆分。在使用留出法時需要註意拆分保持前後數據的分佈一致,避免劃分過程中引入額外偏差導致結果產生影響。k-折交叉驗證法將數據分為大小相似的k個互斥子集,並儘量保持每個自己數據分佈的一致性,從而可以獲取k組訓練-測試集。

  其次是特征工程的講解。主要包括特征編碼、特征選擇、特征降維以及規範化幾個方面。

  特征編碼是對數據集中出現的字元串信息轉換為數值形式。one-hot編碼採用N位寄存器的方法對N個狀態進行編碼。例如,性別屬性包括男、女兩個值,對其進行編碼,0代表男生、1代表女生。語義編碼是採用詞潛入的方式,詞嵌入信息可以編碼語義信息,生成特征語義表示。使用語義編碼可以體現數據間的語音關係。例如http://www.sohu.com/a/129290647_473283TensorFlow自動句子語義編碼,谷歌開源機器學習模型 Skip-Thoughts

  特征選擇主要包括過濾法、包裹法和嵌入法。

  特征降維。特征降維可以減少特征屬性的個數,確保特征屬性之間是相互獨立的。而且過多的特征屬性會妨礙模型查找規律。比如一個模型中有多個屬性,分別是性別、年齡、名字、收入、婚否等多個屬性,但是我們接下來要對數據中的男女進行分類的話,只需要考慮性別即可,其餘屬性即可剔除,這就是達到了數據降維的目的。機器學習中常用的降維方法為PCA、LDA

  規範化主要是將數據標準化、進行區間縮放或者進行歸一化。

  數據建模

  根據所需解決的問題,進行判斷,問題是屬於分類問題、回歸問題還是聚類問題。判定好問題類型,選擇合適的演算法來針對問題具體解決。

  對於分類問題,主要有以下幾個演算法:決策樹、貝葉斯、支持向量機、邏輯回歸和繼承學習等

  對於回歸問題有:線性回歸、嶺回歸等

  對於聚類問題有:K-means、高斯混合聚類、層次聚類以及密度聚類等

  最後進行結果評估。

  評估指標有很多,如果是有監督學習的話,僅僅根據測試機的預測準確率是遠不夠的,可以參考:https://blog.csdn.net/zk_ken/article/details/82013289

  

 

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 原文鏈接:https://www.cnblogs.com/qmfsun/p/4598650.html date "+今天是%Y-%d-%m,現在是%H:%M:%S" 1. 顯示時間date命令可以按照指定格式顯示日期,只鍵入date則以預設格式顯示當前時間。如下: 如果需要以指定的格式顯示日期,可以 ...
  • 下圖1為 Linux 性能優化排查工具的總結 診斷 CPU 工具 查看 CPU 核數 總核數 = 物理CPU個數 X 每顆物理CPU的核數 總邏輯CPU數 = 物理CPU個數 X 每顆物理CPU的核數 X 超線程數 查看物理CPU個數 cat /proc/cpuinfo| grep "physica ...
  • 1. 前言 emmm….最近學習大數據,需要搭建Hadoop框架,當弄好linux系統之後,第一件事就是SSH免密登錄的設置。對於SSH,我覺得使用過linux系統的程式員應該並不陌生。可是吧,用起來簡單,真讓你說出個所以然,還是件比較困難的事(大佬繞路,此篇文章不屬於你~)。然後,我就好奇心大發, ...
  • 1、原系統的備份 避免重裝遇到故障無法恢復,給自己留一條後路。 重裝系統之前首先進行一次系統備份,我使用的備份軟體是dism++,這個軟體還可以完成其他的諸如空間回收、系統優化等操作; 軟體地址:https://www.chuyu.me/zh-Hans/ 2、重裝之後,軟體的安裝 首先安裝輸入法,微 ...
  • 一.LNMP介紹 1.使前端web服務和後端存儲服務進行串聯 2.主要實現處理php動態請求 工作原理: L:linux N:nginx M:mysql P:php 二、lnmp部署 我的環境:centos6.9+nginx+mysql5.6+php5 文件存儲系統NFS 1.部署安裝linux系統 ...
  • --根據員工號或員工姓名獲取員工的信息--根據員工號或員工姓名刪除員工的信息--創建包規範CREATE OR REPLACE PACKAGE overload_pkgIS FUNCTION get_info(eno NUMBER) RETURN emp%ROWTYPE; FUNCTION get_i ...
  • 資料庫之MySQL的基本使用,內容包括 資料庫簡介,MySQL安裝,數據完整性,命令行腳本。其中,資料庫簡介包括 資料庫,RDBMS,RDBMS和資料庫的關係,SQL,MySQL 簡介;資料庫安裝包括 伺服器端安裝和客戶端安裝;數據完整性包括 數據類型,約束;命令行腳本包括 資料庫的操作,數據表的操... ...
  • 一.什麼是kafkakafka的目標是實現一個為處理實時數據提供一個統一、高吞吐、低延遲的平臺。是分散式發佈-訂閱消息系統,是一個分散式的,可劃分的,冗餘備份的持久性的日誌服務。Kafka使用場景:1 日誌收集:一個公司可以用Kafka可以收集各種服務的log,通過kafka以統一介面服務的方式開放 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...