實戰解析:打造風控特征變數平臺,賦能數據驅動決策

来源:https://www.cnblogs.com/DTinsight/p/18054515
-Advertisement-
Play Games

金融業務產品授信準入、交易營銷等環節存在廣泛的風控訴求,隨著業務種類增多,傳統的專家規則、評分卡模型難以應付日趨複雜的風控場景。 在傳統風控以專家規則系統為主流應用的語境下,規則模型的入參習慣被稱為“變數”。基於專家規則的風險評估,存在規則觸發閾值難量化的特點,規則命中精準度提升存在瓶頸。 隨著機器 ...


金融業務產品授信準入、交易營銷等環節存在廣泛的風控訴求,隨著業務種類增多,傳統的專家規則、評分卡模型難以應付日趨複雜的風控場景。

在傳統風控以專家規則系統為主流應用的語境下,規則模型的入參習慣被稱為“變數”。基於專家規則的風險評估,存在規則觸發閾值難量化的特點,規則命中精準度提升存在瓶頸。

隨著機器學習及神經網路演算法的技術落地,更多開始採用“特征”來代指供給演算法模型的入參。具體來說,“特征”在其產出過程中,作為上游外數介面的出參,在應用端輸入過程中,作為下游規則模型的入參。

建設背景

特征變數數據來源包括客戶基本信息、財務狀況、消費行為和社交網路圖譜等,其在不同風控模型中輸入反映借款人的信用狀況和風險水平的度量,高效的特征抽取管理是一系列線上化風控動作的數據基礎。

在銀行保險等同業金融機構中,由於風險業務來源的在組織架構上的複雜性,不同條線之間不可避免地存在煙囪式的特征變數開發,策略建模人員的數據需求往往在某一產品中已開發部署但並未形成統一管理共用的平臺機制,造成了業務間用數口徑及策略生成一致性的偏差。

因此,需要對風險業務用數流程進一步產品化抽象,來規範特征變數的衍生、存儲、調用及監測,統一風控特征變數平臺也應運而生。

痛點分析

在風控任務開發場景中,模型任務從預先開發的變數存儲表中取數。實際開發中往往存在特征開發部署門檻高、複雜特征抽取難度大、特征應用口徑不一致、特征加工流程不統一等業務及開發痛點。

01 實時特征變數開發門檻高

風控業務相關策略建模人員技術棧以Python、SQL能力為主,對基於Java語義的Flink開發有一定學習成本,除了基於離線數據的模型訓練部署,實時特征處理能力不足。

02 複雜特征變數抽取難度大

部分外部數據源介面的返回報文嵌套層級較多,出參位置混亂,介面取數難度較大,對抽取特征缺乏統一平臺管理維護。

03 特征變數應用口徑不一致

在構建風控模型時模型任務存在相同的特征變數需求,但不同團隊或不同項目中存在針對相同的原始數據重覆進行特征工程處理的情況,導致特征變數邏輯變更後相應SQL的一致性和準確性問題。

04 特征變數加工流程難統一

下游策略、模型側的新增特征變數需求缺乏一致標準化的加工路徑,導致對應變數表出入參命名雜亂,當新增欄位通過原SQL無法讀取上游表,產生更多複雜嵌套的Join操作,隨著衍生特征及變數集的配置,任務規模及資源占用情況往往難以控制。

風控特征變數體系建設方案

風控特征變數體系建設聚焦於金融機構實時風險識別與防控,通過對多源異構數據的批流抽取、聚合與衍生加工,沉澱標準化、易擴展的統一特征變數平臺,實現從數據接入、特征變數生成、為下游模型訓練及決策執行供數的端到端閉環,提升風險事件響應速度與決策精準度。

01 技術能力

風控業務往往面臨實時數據處理需求,在客戶交易、信貸審批等場景中,流計算能夠實時更新客戶信用評級、額度管控等風險信息,為下游決策引擎提供實時化跨系統的風險識別能力。

file

實時風控技術系架構中,計算包括了批計算、流計算及圖計算,以流計算能力為例,Flink提供了底層面向實時特征計算的能力,主要用於數據ETL、寬表加工、視窗計算、雙流Join等場景,通過預計算、狀態聚合計算等能力實現原始特征變數、標準特征變數、衍生特征變數的加工,為決策模型提供特征支持。

模型引擎主要負責存儲和管理經訓練的各類模型,如信用評分模型、欺詐檢測模型、流失預警模型等。

決策引擎集中管理規則集、決策樹、決策矩陣、評分卡等策略模型,規則集調用特征變數服務及模型引擎的模型服務參與決策流的邏輯運算。

特征變數引擎基於異構數據源,進行數據抽取、加工計算、標準化管理維護,實現風控人員自助查詢,更加便捷、規範地進行業務取數和數據分析。

file

02 數據來源

以信貸業務數據源為例,根據授信主體不同通常可分為To C個人信貸及To B對公信貸。在實際業務審查中,客戶經理通常以現金流水平及負債水平兩大指標進行客戶授信可行性分析。

在個人信貸場景下,客戶現金流水平可拆解為社保繳納、銀行及三方支付平臺收入流水。負債水平則主要來源於人行徵信,涵蓋了個人名下各金融機構發放的全部貸款、占用風險敞口的金融產品及對外擔保信息,徵信數據來源除人行外包括其他第三方個人持牌徵信機構,如百行徵信、樸道徵信及錢塘徵信。

在對公信貸場景下,小微普惠類貸款的風險來源聚集於其實控人,現金流水平除實控人個人流水外同步採集對公賬戶流水,負債水平則額外接入其人行企業徵信。中大型企業授信及行業專項貸款下,其主體風險行為事件難以依賴徵信稅務數據直接度量,區別於小微普惠類貸款,需結合企業實地庫存與關聯企業經營狀況進一步線下盡調。

針對以上兩類信貸業務,特征加工往往採集以下多維數據來源:

file

03 數據處理

面向不同風控場景的數據源,採用批、流、預計算等模式融合的特征變數加工方式,實現對業務需求的敏捷開發與存算成本管控。

批計算:針對大規模歷史數據集,採用批處理進行特征變數加工。對數據中的缺失值、異常值等問題,採用插值、平滑等方法進行處理,保證數據質量。

流計算:針對實時數據流,採用流式處理模式進行特征變數加工。通過實時流處理技術,實現對數據實時分析,滿足風控場景對實時性的要求。同時,採用事件驅動的架構,確保數據處理的高效與靈活性。

預計算:針對業務系統數據,視其變化頻率預先計算並存儲特征變數,可以有效降低流計算成本,提高決策系統從特征引擎取數的效率。

04 平臺建設

具體來說,特征變數平臺需要整合徵信系統、三方數據源、企業內部系統等多來源數據併進行流批能力的衍生加工,能夠支持不同業務場景的風控模型入參需求。對於不同複雜度的特征變數支持可配置的、業務主導的低代碼加工方式。因此,特征變數平臺的建設通常包含以下幾個方面:

1、特征變數抽取與生成
自動化數據清洗與預處理,將原始數據轉化為可供建模使用的特征。提供畫布+組件化的一站式WEB IDE模式提升開發效率,支持用戶自定義或系統內置的特征計算邏輯。

2、特征變數存儲與管理

基於分散式存儲機制,存儲大規模的歷史及實時特征數據。實現特征版本控制,記錄特征計算邏輯的變更歷史,確保模型訓練時可以回溯至特定版本的數據。

3、特征變數服務化

提供特征服務介面,為各種模型訓練、預測以及決策引擎提供實時或批量特征查詢服務。通過輸出組件可以快速對接下游規則引擎、實時數倉、消息隊列,滿足複雜業務場景下低延遲、高併發訪問的性能需求。

4、特征變數探索與分析

提供豐富的統計分析工具,幫助分析人員快速瞭解特征變數分佈、關聯關係等。可視化界面展示特征重要性、影響度等指標,輔助特征選擇與迭代。

5、與內外部系統的集成

集成金融機構內部交易系統、CRM系統、ERP系統等多種數據源。支持與其他風控組件(如規則引擎、模型庫等)以及外部徵信等第三方數據服務商的對接。

05 建設收益

在某銀行客戶特征變數項目的落地實踐中,平臺服務於貸前授信場景的特征變數加工衍生管理需求,對接上游多樣化數據來源,如外部的運營商、工商、司法數據;銀行內部的客戶設備信息、賬戶交易信息;貸前收集的資產估值、額度測算數據。通過實時特征變數計算能力,向下游申請評分卡等模型供數。

file

1、組件化抽取特征變數

平臺從SQL命令中批量解析特征變數,面向模型任務的取數需求,用戶可在平臺自由加工組合所需特征變數寫入相應主題hive表以供讀取加工。

2、特征變數集同步更新

頁面支持增、刪、編輯特征變數集,平臺表結構操作自動同步至物理模型表。當特征變數邏輯發生變化時,僅需編輯對應標準特征變數衍生代碼或原始特征變數標準化操作,避免面向大段sql函數的複雜開發。

3、穩定性及異常監測

平臺提供的監控看板功能支持了對特征變數的波動及變數集調用情況的監測,特征變數值監控確保上游數據異常時,下游任務及時停止,最大可能避免模型用數時特征變數差異過大造成的模型結果失真;統計各變數集調用情況,實時推送基線告警及強弱規則校驗信息。

4、平臺統一管控

平臺提供成員管理、審批中心、調用分析、自動歸檔、任務重啟等管控手段,支持任務優先順序調整,統一調度任務運行以提高數據服務達成效果及集群資源利用率。

平臺部署上線,覆蓋支持了消費貸、小微信用貸等業務下30+授信場景。特征變數平臺通過與下游規則模型引擎的結合,實現了實時決策能力在風控場景的落地,滿足了貸前授信場景下提高用戶在信用卡申請、貸款審批過程中的客戶體驗和放款效率,此外,也為貸後催收、交易反欺詐等場景供數,支持下游系統實時監控用戶的異常交易行為,進行反洗錢身份識別,併進行實時告警推送。

《數棧產品白皮書》下載地址:https://www.dtstack.com/resources/1004?src=szsm

《數據治理行業實踐白皮書》下載地址:https://www.dtstack.com/resources/1001?src=szsm

想瞭解或咨詢更多有關大數據產品、行業解決方案、客戶案例的朋友,瀏覽袋鼠雲官網:https://www.dtstack.com/?src=szbky


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 通過本篇教程,我們學習瞭如何在 Taurus.MVC WebMVC 中處理表單提交和進行數據驗證。我們創建了一個包含表單的視圖,併在控制器中接收表單數據,併進行數據驗證和其他邏輯操作。 ...
  • 一:實驗介紹 tomcat需要下載JDK,因為tomcat是Java語言編寫的,運行在Java虛擬機上。 以下是tomcat對應JDK版本,安裝tomcat需要安裝對應的JDK版本 我這裡安裝的是9版本,則需要安裝1.8版本以上的JDK 二:下載JDK 進入JDK中文官網https://www.or ...
  • 一:下載phpStudy 1進入官網https://www.xp.cn/download.html 選擇穩定的2018版本 2執行下載好的文件,選擇下載地址 註意!這裡的安裝路徑不能有中文 3亮兩個綠燈代表正常運行,如果亮紅燈要儘快排除故障 二:點擊查看phpStudy的功能 這裡不做詳細介紹,自行 ...
  • 安裝配置jdk 下載 jdk jdk-8u171-linux-x64.tar.gz 將該壓縮包放到/usr/local/jdk目錄下然後解壓(jdk目錄需要自己手動創建) tar zxvf jdk-8u171-linux-x64.tar.gz 配置環境變數 vim /etc/profile 在文件尾 ...
  • MPR121 Breakout 是一個 接近 電容式 觸摸感測器,連接到arduino、esp32等單片機,可以用來做一些 觸摸 感應的小玩意。 他有12個觸摸點,使用 i2c 協議來操控,非常方便。 預設情況下,Add 引腳 接地了,板子的i2c地址是 0x5A,如果你要同時連接多個 板子,那麼 ...
  • STM32ADC單通道轉換 1. 初始化 ADC功能初始化主要分三部分,GPIO初始化、ADC模式初始化與NVIC初始化。 1.1初始化GPIO void ADC_GPIO_Config(void) // 配置ADC通道引腳 { GPIO_InitTypeDef GPIO_InitStructure ...
  • 隨著大數據技術的演進和信息安全性需求的提升,數據規模的持續擴張為數據運維工作帶來了嚴峻考驗。面對海量數據所形成的繁重管理壓力,運維人員面臨效率瓶頸,而不斷攀升的人力成本也使得單純依賴擴充運維團隊來解決問題變得不再實際可行。 由此可見,智能化與高效便捷是運維發展的必然方向。袋鼠雲所推出的巡檢報告功能, ...
  • 前言: insert into t2 select * from t1; 這條語句會對查詢表 t1 加鎖嗎?不要輕易下結論。對GreatSQL的鎖進行研究之前,首先要確認一下事務的隔離級別,不同的事務隔離級別,鎖的表現是不一樣的。 實驗: 創建測試表t1,t2 greatsql> create ta ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...