機器學習主要由監督學習、無監督學習。 監督學習主要用於解決分類和回歸問題。 無監督學習主要用於解決聚類問題。 在機器學習過程中主要有以下幾個步驟: 數據預處理 特征工程 數據建模 結果評估 首先介紹數據預處理,主要包括數據清洗、數據採樣以及數據集的拆分三個部分。 在數據清洗過程中主要對各種臟數據進行 ...
機器學習主要由監督學習、無監督學習。
監督學習主要用於解決分類和回歸問題。
無監督學習主要用於解決聚類問題。
在機器學習過程中主要有以下幾個步驟:
- 數據預處理
- 特征工程
- 數據建模
- 結果評估
首先介紹數據預處理,主要包括數據清洗、數據採樣以及數據集的拆分三個部分。
在數據清洗過程中主要對各種臟數據進行對應方式的處理,力保數據的完整性、合法性、一致性、唯一性以及權威性。
在數據集的拆分中,主要將數據集拆分為三部分,分別是訓練集、預測集、驗證數據集。其中驗證數據集主要是為了在構建過程中評估模型、提供無偏估計進而調整模型參數。而日常使用中常用的拆分方式為:留出法和k-折交叉驗證法。兩種方法使用時均需要採用互斥拆分。在使用留出法時需要註意拆分保持前後數據的分佈一致,避免劃分過程中引入額外偏差導致結果產生影響。k-折交叉驗證法將數據分為大小相似的k個互斥子集,並儘量保持每個自己數據分佈的一致性,從而可以獲取k組訓練-測試集。
其次是特征工程的講解。主要包括特征編碼、特征選擇、特征降維以及規範化幾個方面。
特征編碼是對數據集中出現的字元串信息轉換為數值形式。one-hot編碼採用N位寄存器的方法對N個狀態進行編碼。例如,性別屬性包括男、女兩個值,對其進行編碼,0代表男生、1代表女生。語義編碼是採用詞潛入的方式,詞嵌入信息可以編碼語義信息,生成特征語義表示。使用語義編碼可以體現數據間的語音關係。例如,http://www.sohu.com/a/129290647_473283 中TensorFlow自動句子語義編碼,谷歌開源機器學習模型 Skip-Thoughts。
特征選擇主要包括過濾法、包裹法和嵌入法。
特征降維。特征降維可以減少特征屬性的個數,確保特征屬性之間是相互獨立的。而且過多的特征屬性會妨礙模型查找規律。比如一個模型中有多個屬性,分別是性別、年齡、名字、收入、婚否等多個屬性,但是我們接下來要對數據中的男女進行分類的話,只需要考慮性別即可,其餘屬性即可剔除,這就是達到了數據降維的目的。機器學習中常用的降維方法為PCA、LDA。
規範化主要是將數據標準化、進行區間縮放或者進行歸一化。
數據建模
根據所需解決的問題,進行判斷,問題是屬於分類問題、回歸問題還是聚類問題。判定好問題類型,選擇合適的演算法來針對問題具體解決。
對於分類問題,主要有以下幾個演算法:決策樹、貝葉斯、支持向量機、邏輯回歸和繼承學習等
對於回歸問題有:線性回歸、嶺回歸等
對於聚類問題有:K-means、高斯混合聚類、層次聚類以及密度聚類等
最後進行結果評估。
評估指標有很多,如果是有監督學習的話,僅僅根據測試機的預測準確率是遠不夠的,可以參考:https://blog.csdn.net/zk_ken/article/details/82013289