解釋之前,先說明這樣做的目的:如果一個模型我們只打算對現有數據用一次就不再用了,那麼正則化沒必要了,因為我們沒打算在將來他還有用,正則化的目的是為了讓模型的生命更長久,把它扔到現實的數據海洋中活得好,活得久。 再簡單解釋一下正則化,以下內容來自PRML前三章,具體頁數記不清了。 上圖中的模型是線性回 ...
解釋之前,先說明這樣做的目的:如果一個模型我們只打算對現有數據用一次就不再用了,那麼正則化沒必要了,因為我們沒打算在將來他還有用,正則化的目的是為了讓模型的生命更長久,把它扔到現實的數據海洋中活得好,活得久。
再簡單解釋一下正則化,以下內容來自PRML前三章,具體頁數記不清了。
上圖中的模型是線性回歸,有兩個特征,要優化的參數分別是w1和w2,左圖的正則化是l2,右圖是l1。藍色線就是優化過程中遇到的等高線,一圈代表一個目標函數值,圓心就是樣本觀測值(假設一個樣本),半徑就是誤差值,受限條件就是紅色邊界(就是正則化那部分),二者相交處,才是最優參數。可見右邊的最優參數只可能在坐標軸上,所以就會出現0權重參數,使得模型稀疏。
再補充一個角度:
正則化其實就是對模型的參數設定一個先驗,這是貝葉斯學派的觀點,不過我覺得也可以一種理解。
L1正則是laplace先驗,l2是高斯先驗,分別由參數sigma確定。
求不要追究sigma是不是也有先驗,那一路追究下去可以天荒地老。