【風控】非平衡樣本問題的定義和解決辦法

-Advertisement-

定義各類別的出現概率不均衡的情況如信用風險中正常用戶遠多於逾期、違約用戶；流失風險中留存用戶多於流失用戶隱患降低對少類樣本的靈敏性。但我們建模就是要找到這少類樣本，所以必須對數據加以處理，來提高靈敏性。解決方案 1. 過採樣對壞的人群提高權重，即複製壞樣本，提高壞樣本的占比。優點：簡 ...

定義

各類別的出現概率不均衡的情況

如信用風險中正常用戶遠多於逾期、違約用戶；流失風險中留存用戶多於流失用戶

隱患

降低對少類樣本的靈敏性。但我們建模就是要找到這少類樣本，所以必須對數據加以處理，來提高靈敏性。

解決方案

1. 過採樣

對壞的人群提高權重，即複製壞樣本，提高壞樣本的占比。

優點：

簡單，對數據質量要求不高

缺點：

容易過擬合

2. 欠採樣

對好的人群降低權重，通過抽樣，降低好樣本的占比

優點：

簡單，對數據質量要求不高

缺點：

丟失重要信息

3. Smote 合成少數過採樣技術

優點：

不易過擬合，保留信息

缺點：

不能對有缺失值和類別變數做處理（原始smote方法）

解決辦法：可以將類別型進行編碼或聚類，對缺失值進行處理後再使用

操作方法：

1. 最鄰近演算法，計算出每個少數類樣本的k個近鄰

對於每個違約樣本，計算出其k個近鄰違約樣本

2. 從k個近鄰中隨機挑選n個樣本進行隨機線性插值 （n<=k）

隨機降低過擬合風險
線性保證方法高效簡單（見下方公式）

3. 構造新的少數類樣本

New = x_i + rand(0,1) * (y_j - x_i) , j = 1,2,...,n

其中x_i為少類中的一個觀測點，y_j為k個鄰近中隨機抽取的樣本

上萬的樣本，5%左右違約率可以了，不需做以上處理。

或者使用帶權重的對於樣本的考量，比如從業務的角度，出現一個壞的，會抵消20個號的影響，則可以認為好壞比為20比1

4. 將新樣本與原數據合成，產生新的訓練集

在冷啟動時，沒有好壞客戶的數據，一般用通過率來驗證模型的好壞。不能過高，也不能很低。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

按鍵長短按

u8 key_return = NO_KEY; u8 key_tmp = NO_KEY; u8 key_lock = 0;//按鍵自鎖標誌,自己加的 if (key_val == NO_KEY || key_val != key_ctl.key_val) //按鍵沒有按下或者本次按鍵與上一次按鍵不相 ...
Linux之Shell編程(14)

條件判斷： [ condition ]，condition前後都有空格常用的判斷條件： 1）兩個整數的比較 = 字元串比較 -lt 小於 -le 小於等於 -eq 等於 -gt 大於 -ge 大於等於 -ne 不等於 2）按照文件許可權進行判斷 -r有讀的許可權 -w有寫的許可權 -x有執行的許可權 3） ...
大數據之路【第十三篇】:數據挖掘---中文分詞

一、數據挖掘中文分詞 • 一段文字不僅僅在於字面上是什麼，還在於怎麼切分和理解。• 例如： – 阿三炒飯店： – 阿三 / 炒飯 / 店阿三 / 炒 / 飯店• 和英文不同，中文詞之間沒有空格，所以實現中文搜索引擎，比英文多了一項分詞的任務。• 如果沒有中文分詞會出現： – 搜索“達內”，會出現 ...
Database mirroring connection error 4 'An error occurred while receiving data: '10054(An existing connection was forcibly closed by the remote host.)

公司一SQL Server鏡像發生了故障轉移（主備切換），檢查SQL Server鏡像發生主備切換的原因，在錯誤日誌中發現下麵錯誤： Date 2019/8/31 14:09:17 Log SQL Server (Archive #4 - 2019/9/1 0:00:00) Source spid3... ...
Redis—數據操作

redis是key-value的數據，所以每個數據都是一個鍵值對。數據操作的全部命令，可以查看中文網站。鍵的類型是字元串值的類型分為五種：字元串string 哈希hash 列表list 集合set 有序集合zset 字元串string 哈希hash 列表list 集合set 有序集合zset ...
hadoop 偽分佈啟動-fs格式化

1.獨立模式(standalone|local) nothing! 本地文件系統。不需要啟用單獨進程。 2.pesudo(偽分佈模式) 等同於完全分散式，只有一個節點。 SSH: //(Socket), //public + private /server : sshd ps -Af | grep ...
MySQL查詢——select

SELECT select的完整語法：上述如果都有：執行順序from->where->group by->having->order by->limit->select 列的結果顯示 1、去掉重覆的數據：distinct（針對於記錄而言，不是針對於列的數據而言） 2、運算符：+、-、*、/、%（只 ...
面試題：InnoDB中一棵B+樹能存多少行數據？

1.一個問題 InnoDB一棵B+樹可以存放多少行數據？這個問題的簡單回答是：約2千萬。為什麼是這麼多呢？因為這是可以算出來的，要搞清楚這個問題，我們先從InnoDB索引數據結構、數據組織方式說起。我們都知道電腦在存儲數據的時候，有最小存儲單元，這就好比我們今天進行現金的流通最小單位是一毛。在計 ...