定義 各類別的出現概率不均衡的情況 如信用風險中正常用戶遠多於逾期、違約用戶;流失風險中留存用戶多於流失用戶 隱患 降低對少類樣本的靈敏性。但我們建模就是要找到這少類樣本,所以必須對數據加以處理,來提高靈敏性。 解決方案 1. 過採樣 對壞的人群提高權重,即複製壞樣本,提高壞樣本的占比。 優點: 簡 ...
定義
各類別的出現概率不均衡的情況
如信用風險中正常用戶遠多於逾期、違約用戶;流失風險中留存用戶多於流失用戶
隱患
降低對少類樣本的靈敏性。但我們建模就是要找到這少類樣本,所以必須對數據加以處理,來提高靈敏性。
解決方案
1. 過採樣
對壞的人群提高權重,即複製壞樣本,提高壞樣本的占比。
優點:
簡單,對數據質量要求不高
缺點:
容易過擬合
2. 欠採樣
對好的人群降低權重,通過抽樣,降低好樣本的占比
優點:
簡單,對數據質量要求不高
缺點:
丟失重要信息
3. Smote 合成少數過採樣技術
優點:
不易過擬合,保留信息
缺點:
不能對有缺失值和類別變數做處理(原始smote方法)
解決辦法:可以將類別型進行編碼或聚類,對缺失值進行處理後再使用
操作方法:
1. 最鄰近演算法,計算出每個少數類樣本的k個近鄰
對於每個違約樣本,計算出其k個近鄰違約樣本
2. 從k個近鄰中隨機挑選n個樣本進行隨機線性插值 (n<=k)
- 隨機 降低過擬合風險
- 線性 保證方法高效簡單(見下方公式)
3. 構造新的少數類樣本
New = xi + rand(0,1) * (yj - xi) , j = 1,2,...,n
其中xi為少類中的一個觀測點,yj為k個鄰近中隨機抽取的樣本
上萬的樣本,5%左右違約率可以了,不需做以上處理。
或者使用帶權重的對於樣本的考量,比如從業務的角度,出現一個壞的,會抵消20個號的影響,則可以認為好壞比為20比1
4. 將新樣本與原數據合成,產生新的訓練集
在冷啟動時,沒有好壞客戶的數據,一般用通過率來驗證模型的好壞。不能過高,也不能很低。