歸一化與標準化

-Advertisement-

在機器學習和數據挖掘中，經常會聽到兩個名詞：歸一化（Normalization）與標準化（Standardization）。它們具體是什麼？帶來什麼益處？具體怎麼用？本文來具體討論這些問題。

作者：無影隨想
時間：2016年1月。
出處：http://www.zhaokv.com/2016/01/normalization-and-standardization.html
聲明：版權所有，轉載請聯繫作者並註明出處

在機器學習和數據挖掘中，經常會聽到兩個名詞：歸一化（Normalization）與標準化（Standardization）。它們具體是什麼？帶來什麼益處？具體怎麼用？本文來具體討論這些問題。

一、是什麼

1. 歸一化

常用的方法是通過對原始數據進行線性變換把數據映射到[0,1]之間，變換函數為：

$x'=\frac{x-\min}{\max-\min}$

其中$\min$是樣本中最小值，$\max$是樣本中最大值，註意在數據流場景下最大值與最小值是變化的。另外，最大值與最小值非常容易受異常點影響，所以這種方法魯棒性較差，只適合傳統精確小數據場景。

2. 標準化

常用的方法是z-score標準化，經過處理後的數據均值為0，標準差為1，處理方法是：

$x'=\frac{x-\mu}{\sigma}$

其中$\mu$是樣本的均值，$\sigma$是樣本的標準差，它們可以通過現有樣本進行估計。在已有樣本足夠多的情況下比較穩定，適合現代嘈雜大數據場景。

二、帶來什麼

歸一化的依據非常簡單，不同變數往往量綱不同，歸一化可以消除量綱對最終結果的影響，使不同變數具有可比性。比如兩個人體重差10KG，身高差0.02M，在衡量兩個人的差別時體重的差距會把身高的差距完全掩蓋，歸一化之後就不會有這樣的問題。

標準化的原理比較複雜，它表示的是原始值與均值之間差多少個標準差，是一個相對值，所以也有去除量綱的功效。同時，它還帶來兩個附加的好處：均值為0，標準差為1。

均值為0有什麼好處呢？它可以使數據以0為中心左右分佈（這不是廢話嘛），而數據以0為中心左右分佈會帶來很多便利。比如在去中心化的數據上做SVD分解等價於在原始數據上做PCA；機器學習中很多函數如Sigmoid、Tanh、Softmax等都以0為中心左右分佈（不一定對稱）。

標準差為1有什麼好處呢？這個更複雜一些。對於$x_i$與$x_{i'}$兩點間距離，往往表示為

$D(x_i,x_{i'})=\sum\limits_{j=1}^pw_j\cdot d_j(x_{ij},x_{i'j});\sum\limits_{j=1}^pw_j=1$

其中$d_j(x_{ij},x_{i'j})$是屬性$j$兩個點之間的距離，$w_j$是該屬性間距離在總距離中的權重，註意設$w_j=1,\forall j$並不能實現每個屬性對最後的結果貢獻度相同。對於給定的數據集，所有點對間距離的平均值是個定值，即

$\bar{D}=\frac{1}{N^2}\sum\limits_{i=1}^N\sum\limits_{i'=1}^ND(x_i,x_{i'})=\sum\limits_{j=1}^pw_j\cdot \bar{d}_j$

是個常數，其中

$\bar{d}_j=\frac{1}{N^2}\sum\limits_{i=1}^N\sum\limits_{i'=1}^Nd_j(x_{ij}, x_{x'j})$

可見第$j$個變數對最終整體平均距離的影響是$w_j\cdot \bar{d}_j$，所以設$w_j\sim 1/\bar{d}_j$可以使所有屬性對全數據集平均距離的貢獻相同。現在設$d_j$為歐式距離（或稱為二範數）的平方，它是最常用的距離衡量方法之一，則有

$\bar{d_j}=\frac{1}{N^2}\sum\limits_{i=1}^N\sum\limits_{i'=1}^N(x_{ij}-x_{i'j})^2=2\cdot var_j$

其中$var_j$是$Var(X_j)$的樣本估計，也就是說每個變數的重要程度正比於這個變數在這個數據集上的方差。如果我們讓每一維變數的標準差都為1（即方差都為1），每維變數在計算距離的時候重要程度相同。

三、怎麼用

在涉及到計算點與點之間的距離時，使用歸一化或標準化都會對最後的結果有所提升，甚至會有質的區別。那在歸一化與標準化之間應該如何選擇呢？根據上一節我們看到，如果把所有維度的變數一視同仁，在最後計算距離中發揮相同的作用應該選擇標準化，如果想保留原始數據中由標準差所反映的潛在權重關係應該選擇歸一化。另外，標準化更適合現代嘈雜大數據場景。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

2016年準備轉型碼農的第一帖！

最近準備做一個公司物品申領系統，資料庫的表已經設計好，目前正在搭建開發和運行環境。計劃使用ASP.Net + SQL Server完成此次的設計。以下為會員註冊的存儲過程，預計把註冊頁面中的兩個Text框中的數值作為參數傳入資料庫中，最後返回1或0表示成功/失敗： 1 ALTER procedure...
淺談一下sql 查詢語句的一些問題和優化

昨天在做一個sql代碼查詢的問題，發現了一些可優化的東西，藉此記錄一下。1，善用with as之前在寫sql 分頁查詢的時候，就只是用嵌套查詢，然後一個普通的關聯幾個表查詢，例如：SELECT * FROM( SELECT TOP 100 lr.SKU,lr.ItemPrice,lr.La...
【mysql】關於checkpoint機制

一、簡介思考一下這個場景：如果重做日誌可以無限地增大，同時緩衝池也足夠大，那麼是不需要將緩衝池中頁的新版本刷新回磁碟。因為當發生宕機時，完全可以通過重做日誌來恢復整個資料庫系統中的數據到宕機發生的時刻。但是這需要兩個前提條件：1、緩衝池可以緩存資料庫中所有的數據；2、重做日誌可以無限增大因此Chec...
SQL Server時間粒度系列----第3節旬、月時間粒度詳解

本文目錄列表：1、SQL Server旬時間粒度2、SQL Server月有關時間粒度3、SQL Server函數重構4、總結語5、參考清單列表SQL Server旬時間粒度 SQL Server不存在旬這個時間粒度，這個時間粒度在我們國家存在的。一個月分為上、中、下3旬，上旬和中旬均10天，分別對...
Oracle的rownum原理和使用

整理和學習了一下網上高手關於rownum的帖子：參考資料： http://www.cnblogs.com/mabaishui/archive/2009/10/20/1587165.html對於Oracle的rownum問題，很多資料都說不支持>，>=，=，between……and，只能用以上符號（，...
MyCAT簡易入門

MyCAT是mysql中間件，前身是阿裡大名鼎鼎的Cobar，Cobar在開源了一段時間後，不了了之。於是MyCAT扛起了這面大旗，在大數據時代，其重要性愈發彰顯。這篇文章主要是MyCAT的入門部署。一、安裝java因Mycat是用java開發的，所以需要在實驗環境下安裝java，官方建議jdk1....
使用T-sql建庫建表建約束

為什麼要使用sql語句建庫建表？現在假設這樣一個場景，公司的項目經過測試沒問題後需要在客戶的實際環境中進行演示，那就需要對數據進行移植，現在問題來了：客戶的資料庫版本和公司開發階段使用的資料庫不相容怎麼移植？行之有效的辦法就是編寫比較通用的SQL語句，編寫完畢後存入*.sql文件中，最後複製到客...
[ MySql學習心得 ] --Two

五、MySql 中常用子句 1.where子句我們都知道在查詢數據時，未必會查整個表中的數據，當有條件查詢時，就會用到where子句。其結構： select * from [表名] where [條件]。 2.like子句 like子句就是模糊查詢，有下麵一些通配符： ...