歸一化與標準化

来源:http://www.cnblogs.com/zhaokui/archive/2016/01/08/5112287.html
-Advertisement-
Play Games

在機器學習和數據挖掘中,經常會聽到兩個名詞:歸一化(Normalization)與標準化(Standardization)。它們具體是什麼?帶來什麼益處?具體怎麼用?本文來具體討論這些問題。


作者:無影隨想 
時間:2016年1月。 
出處:http://www.zhaokv.com/2016/01/normalization-and-standardization.html
聲明:版權所有,轉載請聯繫作者並註明出處

在機器學習和數據挖掘中,經常會聽到兩個名詞:歸一化(Normalization)與標準化(Standardization)。它們具體是什麼?帶來什麼益處?具體怎麼用?本文來具體討論這些問題。

一、是什麼

1. 歸一化

常用的方法是通過對原始數據進行線性變換把數據映射到[0,1]之間,變換函數為:

$x'=\frac{x-\min}{\max-\min}$

其中$\min$是樣本中最小值,$\max$是樣本中最大值,註意在數據流場景下最大值與最小值是變化的。另外,最大值與最小值非常容易受異常點影響,所以這種方法魯棒性較差,只適合傳統精確小數據場景。

2. 標準化

常用的方法是z-score標準化,經過處理後的數據均值為0,標準差為1,處理方法是:

$x'=\frac{x-\mu}{\sigma}$

其中$\mu$是樣本的均值,$\sigma$是樣本的標準差,它們可以通過現有樣本進行估計。在已有樣本足夠多的情況下比較穩定,適合現代嘈雜大數據場景。

二、帶來什麼

歸一化的依據非常簡單,不同變數往往量綱不同,歸一化可以消除量綱對最終結果的影響,使不同變數具有可比性。比如兩個人體重差10KG,身高差0.02M,在衡量兩個人的差別時體重的差距會把身高的差距完全掩蓋,歸一化之後就不會有這樣的問題。

標準化的原理比較複雜,它表示的是原始值與均值之間差多少個標準差,是一個相對值,所以也有去除量綱的功效。同時,它還帶來兩個附加的好處:均值為0,標準差為1。

均值為0有什麼好處呢?它可以使數據以0為中心左右分佈(這不是廢話嘛),而數據以0為中心左右分佈會帶來很多便利。比如在去中心化的數據上做SVD分解等價於在原始數據上做PCA;機器學習中很多函數如SigmoidTanhSoftmax等都以0為中心左右分佈(不一定對稱)。

標準差為1有什麼好處呢?這個更複雜一些。對於$x_i$與$x_{i'}$兩點間距離,往往表示為

$D(x_i,x_{i'})=\sum\limits_{j=1}^pw_j\cdot d_j(x_{ij},x_{i'j});\sum\limits_{j=1}^pw_j=1$

其中$d_j(x_{ij},x_{i'j})$是屬性$j$兩個點之間的距離,$w_j$是該屬性間距離在總距離中的權重,註意設$w_j=1,\forall j$並不能實現每個屬性對最後的結果貢獻度相同。對於給定的數據集,所有點對間距離的平均值是個定值,即

$\bar{D}=\frac{1}{N^2}\sum\limits_{i=1}^N\sum\limits_{i'=1}^ND(x_i,x_{i'})=\sum\limits_{j=1}^pw_j\cdot \bar{d}_j$

是個常數,其中

$\bar{d}_j=\frac{1}{N^2}\sum\limits_{i=1}^N\sum\limits_{i'=1}^Nd_j(x_{ij}, x_{x'j})$

可見第$j$個變數對最終整體平均距離的影響是$w_j\cdot \bar{d}_j$,所以設$w_j\sim 1/\bar{d}_j$可以使所有屬性對全數據集平均距離的貢獻相同。現在設$d_j$為歐式距離(或稱為二範數)的平方,它是最常用的距離衡量方法之一,則有

$\bar{d_j}=\frac{1}{N^2}\sum\limits_{i=1}^N\sum\limits_{i'=1}^N(x_{ij}-x_{i'j})^2=2\cdot var_j$

其中$var_j$是$Var(X_j)$的樣本估計,也就是說每個變數的重要程度正比於這個變數在這個數據集上的方差。如果我們讓每一維變數的標準差都為1(即方差都為1),每維變數在計算距離的時候重要程度相同。

三、怎麼用

在涉及到計算點與點之間的距離時,使用歸一化或標準化都會對最後的結果有所提升,甚至會有質的區別。那在歸一化與標準化之間應該如何選擇呢?根據上一節我們看到,如果把所有維度的變數一視同仁,在最後計算距離中發揮相同的作用應該選擇標準化,如果想保留原始數據中由標準差所反映的潛在權重關係應該選擇歸一化。另外,標準化更適合現代嘈雜大數據場景。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 最近準備做一個公司物品申領系統,資料庫的表已經設計好,目前正在搭建開發和運行環境。計劃使用ASP.Net + SQL Server完成此次的設計。以下為會員註冊的存儲過程,預計把註冊頁面中的兩個Text框中的數值作為參數傳入資料庫中,最後返回1或0表示成功/失敗: 1 ALTER procedure...
  • 昨天在做一個sql代碼查詢的問題,發現了一些可優化的東西,藉此記錄一下。1,善用with as之前在寫sql 分頁查詢的時候,就只是用嵌套查詢,然後一個普通的關聯幾個表查詢,例如:SELECT * FROM( SELECT TOP 100 lr.SKU,lr.ItemPrice,lr.La...
  • 一、簡介思考一下這個場景:如果重做日誌可以無限地增大,同時緩衝池也足夠大,那麼是不需要將緩衝池中頁的新版本刷新回磁碟。因為當發生宕機時,完全可以通過重做日誌來恢復整個資料庫系統中的數據到宕機發生的時刻。但是這需要兩個前提條件:1、緩衝池可以緩存資料庫中所有的數據;2、重做日誌可以無限增大因此Chec...
  • 本文目錄列表:1、SQL Server旬時間粒度2、SQL Server月有關時間粒度3、SQL Server函數重構4、總結語5、參考清單列表SQL Server旬時間粒度 SQL Server不存在旬這個時間粒度,這個時間粒度在我們國家存在的。一個月分為上、中、下3旬,上旬和中旬均10天,分別對...
  • 整理和學習了一下網上高手關於rownum的帖子:參考資料: http://www.cnblogs.com/mabaishui/archive/2009/10/20/1587165.html對於Oracle的rownum問題,很多資料都說不支持>,>=,=,between……and,只能用以上符號(,...
  • MyCAT是mysql中間件,前身是阿裡大名鼎鼎的Cobar,Cobar在開源了一段時間後,不了了之。於是MyCAT扛起了這面大旗,在大數據時代,其重要性愈發彰顯。這篇文章主要是MyCAT的入門部署。一、安裝java因Mycat是用java開發的,所以需要在實驗環境下安裝java,官方建議jdk1....
  • 為什麼要使用sql語句建庫建表? 現在假設這樣一個場景,公司的項目經過測試沒問題後需要在客戶的實際環境中進行演示,那就需要對數據進行移植,現在問題來了:客戶的資料庫版本和公司開發階段使用的資料庫不相容怎麼移植? 行之有效的辦法就是編寫比較通用的SQL語句,編寫完畢後存入*.sql文件中,最後複製到客...
  • 五、MySql 中常用子句 1.where子句 我們都知道在查詢數據時,未必會查整個表中的數據,當有條件查詢時,就會用到where子句。其結構: select * from [表名] where [條件]。 2.like子句 like子句就是模糊查詢,有下麵一些通配符: ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...