機器學習1_ZenDei技術網路在線

機器學習1

-Advertisement-

機器學習主要由監督學習、無監督學習。監督學習主要用於解決分類和回歸問題。無監督學習主要用於解決聚類問題。在機器學習過程中主要有以下幾個步驟：數據預處理特征工程數據建模結果評估首先介紹數據預處理，主要包括數據清洗、數據採樣以及數據集的拆分三個部分。在數據清洗過程中主要對各種臟數據進行 ...

機器學習主要由監督學習、無監督學習。

　　監督學習主要用於解決分類和回歸問題。

　　無監督學習主要用於解決聚類問題。

　　在機器學習過程中主要有以下幾個步驟：

數據預處理
特征工程
數據建模
結果評估

　　首先介紹數據預處理，主要包括數據清洗、數據採樣以及數據集的拆分三個部分。

　　在數據清洗過程中主要對各種臟數據進行對應方式的處理，力保數據的完整性、合法性、一致性、唯一性以及權威性。

　　在數據集的拆分中，主要將數據集拆分為三部分，分別是訓練集、預測集、驗證數據集。其中驗證數據集主要是為了在構建過程中評估模型、提供無偏估計進而調整模型參數。而日常使用中常用的拆分方式為：留出法和k-折交叉驗證法。兩種方法使用時均需要採用互斥拆分。在使用留出法時需要註意拆分保持前後數據的分佈一致，避免劃分過程中引入額外偏差導致結果產生影響。k-折交叉驗證法將數據分為大小相似的k個互斥子集，並儘量保持每個自己數據分佈的一致性，從而可以獲取k組訓練-測試集。

　　其次是特征工程的講解。主要包括特征編碼、特征選擇、特征降維以及規範化幾個方面。

　　特征編碼是對數據集中出現的字元串信息轉換為數值形式。one-hot編碼採用N位寄存器的方法對N個狀態進行編碼。例如，性別屬性包括男、女兩個值，對其進行編碼，0代表男生、1代表女生。語義編碼是採用詞潛入的方式，詞嵌入信息可以編碼語義信息，生成特征語義表示。使用語義編碼可以體現數據間的語音關係。例如，http://www.sohu.com/a/129290647_473283 中TensorFlow自動句子語義編碼，谷歌開源機器學習模型 Skip-Thoughts。

　　特征選擇主要包括過濾法、包裹法和嵌入法。

　　特征降維。特征降維可以減少特征屬性的個數，確保特征屬性之間是相互獨立的。而且過多的特征屬性會妨礙模型查找規律。比如一個模型中有多個屬性，分別是性別、年齡、名字、收入、婚否等多個屬性，但是我們接下來要對數據中的男女進行分類的話，只需要考慮性別即可，其餘屬性即可剔除，這就是達到了數據降維的目的。機器學習中常用的降維方法為PCA、LDA。

　　規範化主要是將數據標準化、進行區間縮放或者進行歸一化。

　　數據建模

　　根據所需解決的問題，進行判斷，問題是屬於分類問題、回歸問題還是聚類問題。判定好問題類型，選擇合適的演算法來針對問題具體解決。

　　對於分類問題，主要有以下幾個演算法：決策樹、貝葉斯、支持向量機、邏輯回歸和繼承學習等

　　對於回歸問題有：線性回歸、嶺回歸等

　　對於聚類問題有：K-means、高斯混合聚類、層次聚類以及密度聚類等

　　最後進行結果評估。

　　評估指標有很多，如果是有監督學習的話，僅僅根據測試機的預測準確率是遠不夠的，可以參考：https://blog.csdn.net/zk_ken/article/details/82013289

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

date命令詳解

原文鏈接：https://www.cnblogs.com/qmfsun/p/4598650.html date "+今天是%Y-%d-%m，現在是%H:%M:%S" 1. 顯示時間date命令可以按照指定格式顯示日期，只鍵入date則以預設格式顯示當前時間。如下：如果需要以指定的格式顯示日期，可以 ...
Linux 性能優化排查工具

下圖1為 Linux 性能優化排查工具的總結診斷 CPU 工具查看 CPU 核數總核數 = 物理CPU個數 X 每顆物理CPU的核數總邏輯CPU數 = 物理CPU個數 X 每顆物理CPU的核數 X 超線程數查看物理CPU個數 cat /proc/cpuinfo| grep "physica ...
Hadoop起步之圖解SSH、免密登錄原理和實現

1. 前言 emmm….最近學習大數據，需要搭建Hadoop框架，當弄好linux系統之後，第一件事就是SSH免密登錄的設置。對於SSH，我覺得使用過linux系統的程式員應該並不陌生。可是吧，用起來簡單，真讓你說出個所以然，還是件比較困難的事（大佬繞路，此篇文章不屬於你~）。然後，我就好奇心大發， ...
windows重裝系統之前與之後進行的操作

1、原系統的備份避免重裝遇到故障無法恢復，給自己留一條後路。重裝系統之前首先進行一次系統備份，我使用的備份軟體是dism++，這個軟體還可以完成其他的諸如空間回收、系統優化等操作；軟體地址：https://www.chuyu.me/zh-Hans/ 2、重裝之後，軟體的安裝首先安裝輸入法，微 ...
LNMP集群架構篇

一.LNMP介紹 1.使前端web服務和後端存儲服務進行串聯 2.主要實現處理php動態請求工作原理： L:linux N：nginx M：mysql P：php 二、lnmp部署我的環境：centos6.9+nginx+mysql5.6+php5 文件存儲系統NFS 1.部署安裝linux系統 ...
Oracle資料庫---包

--根據員工號或員工姓名獲取員工的信息--根據員工號或員工姓名刪除員工的信息--創建包規範CREATE OR REPLACE PACKAGE overload_pkgIS FUNCTION get_info(eno NUMBER) RETURN emp%ROWTYPE; FUNCTION get_i ...
資料庫之MySQL的基本使用

資料庫之MySQL的基本使用，內容包括資料庫簡介，MySQL安裝，數據完整性，命令行腳本。其中，資料庫簡介包括資料庫，RDBMS，RDBMS和資料庫的關係，SQL，MySQL 簡介；資料庫安裝包括伺服器端安裝和客戶端安裝；數據完整性包括數據類型，約束；命令行腳本包括資料庫的操作，數據表的操... ...
kafka原理與組件

一．什麼是kafkakafka的目標是實現一個為處理實時數據提供一個統一、高吞吐、低延遲的平臺。是分散式發佈-訂閱消息系統，是一個分散式的，可劃分的，冗餘備份的持久性的日誌服務。Kafka使用場景：1 日誌收集：一個公司可以用Kafka可以收集各種服務的log，通過kafka以統一介面服務的方式開放 ...