實戰解析:打造風控特征變數平臺,賦能數據驅動決策

来源:https://www.cnblogs.com/DTinsight/p/18054515
-Advertisement-
Play Games

金融業務產品授信準入、交易營銷等環節存在廣泛的風控訴求,隨著業務種類增多,傳統的專家規則、評分卡模型難以應付日趨複雜的風控場景。 在傳統風控以專家規則系統為主流應用的語境下,規則模型的入參習慣被稱為“變數”。基於專家規則的風險評估,存在規則觸發閾值難量化的特點,規則命中精準度提升存在瓶頸。 隨著機器 ...


金融業務產品授信準入、交易營銷等環節存在廣泛的風控訴求,隨著業務種類增多,傳統的專家規則、評分卡模型難以應付日趨複雜的風控場景。

在傳統風控以專家規則系統為主流應用的語境下,規則模型的入參習慣被稱為“變數”。基於專家規則的風險評估,存在規則觸發閾值難量化的特點,規則命中精準度提升存在瓶頸。

隨著機器學習及神經網路演算法的技術落地,更多開始採用“特征”來代指供給演算法模型的入參。具體來說,“特征”在其產出過程中,作為上游外數介面的出參,在應用端輸入過程中,作為下游規則模型的入參。

建設背景

特征變數數據來源包括客戶基本信息、財務狀況、消費行為和社交網路圖譜等,其在不同風控模型中輸入反映借款人的信用狀況和風險水平的度量,高效的特征抽取管理是一系列線上化風控動作的數據基礎。

在銀行保險等同業金融機構中,由於風險業務來源的在組織架構上的複雜性,不同條線之間不可避免地存在煙囪式的特征變數開發,策略建模人員的數據需求往往在某一產品中已開發部署但並未形成統一管理共用的平臺機制,造成了業務間用數口徑及策略生成一致性的偏差。

因此,需要對風險業務用數流程進一步產品化抽象,來規範特征變數的衍生、存儲、調用及監測,統一風控特征變數平臺也應運而生。

痛點分析

在風控任務開發場景中,模型任務從預先開發的變數存儲表中取數。實際開發中往往存在特征開發部署門檻高、複雜特征抽取難度大、特征應用口徑不一致、特征加工流程不統一等業務及開發痛點。

01 實時特征變數開發門檻高

風控業務相關策略建模人員技術棧以Python、SQL能力為主,對基於Java語義的Flink開發有一定學習成本,除了基於離線數據的模型訓練部署,實時特征處理能力不足。

02 複雜特征變數抽取難度大

部分外部數據源介面的返回報文嵌套層級較多,出參位置混亂,介面取數難度較大,對抽取特征缺乏統一平臺管理維護。

03 特征變數應用口徑不一致

在構建風控模型時模型任務存在相同的特征變數需求,但不同團隊或不同項目中存在針對相同的原始數據重覆進行特征工程處理的情況,導致特征變數邏輯變更後相應SQL的一致性和準確性問題。

04 特征變數加工流程難統一

下游策略、模型側的新增特征變數需求缺乏一致標準化的加工路徑,導致對應變數表出入參命名雜亂,當新增欄位通過原SQL無法讀取上游表,產生更多複雜嵌套的Join操作,隨著衍生特征及變數集的配置,任務規模及資源占用情況往往難以控制。

風控特征變數體系建設方案

風控特征變數體系建設聚焦於金融機構實時風險識別與防控,通過對多源異構數據的批流抽取、聚合與衍生加工,沉澱標準化、易擴展的統一特征變數平臺,實現從數據接入、特征變數生成、為下游模型訓練及決策執行供數的端到端閉環,提升風險事件響應速度與決策精準度。

01 技術能力

風控業務往往面臨實時數據處理需求,在客戶交易、信貸審批等場景中,流計算能夠實時更新客戶信用評級、額度管控等風險信息,為下游決策引擎提供實時化跨系統的風險識別能力。

file

實時風控技術系架構中,計算包括了批計算、流計算及圖計算,以流計算能力為例,Flink提供了底層面向實時特征計算的能力,主要用於數據ETL、寬表加工、視窗計算、雙流Join等場景,通過預計算、狀態聚合計算等能力實現原始特征變數、標準特征變數、衍生特征變數的加工,為決策模型提供特征支持。

模型引擎主要負責存儲和管理經訓練的各類模型,如信用評分模型、欺詐檢測模型、流失預警模型等。

決策引擎集中管理規則集、決策樹、決策矩陣、評分卡等策略模型,規則集調用特征變數服務及模型引擎的模型服務參與決策流的邏輯運算。

特征變數引擎基於異構數據源,進行數據抽取、加工計算、標準化管理維護,實現風控人員自助查詢,更加便捷、規範地進行業務取數和數據分析。

file

02 數據來源

以信貸業務數據源為例,根據授信主體不同通常可分為To C個人信貸及To B對公信貸。在實際業務審查中,客戶經理通常以現金流水平及負債水平兩大指標進行客戶授信可行性分析。

在個人信貸場景下,客戶現金流水平可拆解為社保繳納、銀行及三方支付平臺收入流水。負債水平則主要來源於人行徵信,涵蓋了個人名下各金融機構發放的全部貸款、占用風險敞口的金融產品及對外擔保信息,徵信數據來源除人行外包括其他第三方個人持牌徵信機構,如百行徵信、樸道徵信及錢塘徵信。

在對公信貸場景下,小微普惠類貸款的風險來源聚集於其實控人,現金流水平除實控人個人流水外同步採集對公賬戶流水,負債水平則額外接入其人行企業徵信。中大型企業授信及行業專項貸款下,其主體風險行為事件難以依賴徵信稅務數據直接度量,區別於小微普惠類貸款,需結合企業實地庫存與關聯企業經營狀況進一步線下盡調。

針對以上兩類信貸業務,特征加工往往採集以下多維數據來源:

file

03 數據處理

面向不同風控場景的數據源,採用批、流、預計算等模式融合的特征變數加工方式,實現對業務需求的敏捷開發與存算成本管控。

批計算:針對大規模歷史數據集,採用批處理進行特征變數加工。對數據中的缺失值、異常值等問題,採用插值、平滑等方法進行處理,保證數據質量。

流計算:針對實時數據流,採用流式處理模式進行特征變數加工。通過實時流處理技術,實現對數據實時分析,滿足風控場景對實時性的要求。同時,採用事件驅動的架構,確保數據處理的高效與靈活性。

預計算:針對業務系統數據,視其變化頻率預先計算並存儲特征變數,可以有效降低流計算成本,提高決策系統從特征引擎取數的效率。

04 平臺建設

具體來說,特征變數平臺需要整合徵信系統、三方數據源、企業內部系統等多來源數據併進行流批能力的衍生加工,能夠支持不同業務場景的風控模型入參需求。對於不同複雜度的特征變數支持可配置的、業務主導的低代碼加工方式。因此,特征變數平臺的建設通常包含以下幾個方面:

1、特征變數抽取與生成
自動化數據清洗與預處理,將原始數據轉化為可供建模使用的特征。提供畫布+組件化的一站式WEB IDE模式提升開發效率,支持用戶自定義或系統內置的特征計算邏輯。

2、特征變數存儲與管理

基於分散式存儲機制,存儲大規模的歷史及實時特征數據。實現特征版本控制,記錄特征計算邏輯的變更歷史,確保模型訓練時可以回溯至特定版本的數據。

3、特征變數服務化

提供特征服務介面,為各種模型訓練、預測以及決策引擎提供實時或批量特征查詢服務。通過輸出組件可以快速對接下游規則引擎、實時數倉、消息隊列,滿足複雜業務場景下低延遲、高併發訪問的性能需求。

4、特征變數探索與分析

提供豐富的統計分析工具,幫助分析人員快速瞭解特征變數分佈、關聯關係等。可視化界面展示特征重要性、影響度等指標,輔助特征選擇與迭代。

5、與內外部系統的集成

集成金融機構內部交易系統、CRM系統、ERP系統等多種數據源。支持與其他風控組件(如規則引擎、模型庫等)以及外部徵信等第三方數據服務商的對接。

05 建設收益

在某銀行客戶特征變數項目的落地實踐中,平臺服務於貸前授信場景的特征變數加工衍生管理需求,對接上游多樣化數據來源,如外部的運營商、工商、司法數據;銀行內部的客戶設備信息、賬戶交易信息;貸前收集的資產估值、額度測算數據。通過實時特征變數計算能力,向下游申請評分卡等模型供數。

file

1、組件化抽取特征變數

平臺從SQL命令中批量解析特征變數,面向模型任務的取數需求,用戶可在平臺自由加工組合所需特征變數寫入相應主題hive表以供讀取加工。

2、特征變數集同步更新

頁面支持增、刪、編輯特征變數集,平臺表結構操作自動同步至物理模型表。當特征變數邏輯發生變化時,僅需編輯對應標準特征變數衍生代碼或原始特征變數標準化操作,避免面向大段sql函數的複雜開發。

3、穩定性及異常監測

平臺提供的監控看板功能支持了對特征變數的波動及變數集調用情況的監測,特征變數值監控確保上游數據異常時,下游任務及時停止,最大可能避免模型用數時特征變數差異過大造成的模型結果失真;統計各變數集調用情況,實時推送基線告警及強弱規則校驗信息。

4、平臺統一管控

平臺提供成員管理、審批中心、調用分析、自動歸檔、任務重啟等管控手段,支持任務優先順序調整,統一調度任務運行以提高數據服務達成效果及集群資源利用率。

平臺部署上線,覆蓋支持了消費貸、小微信用貸等業務下30+授信場景。特征變數平臺通過與下游規則模型引擎的結合,實現了實時決策能力在風控場景的落地,滿足了貸前授信場景下提高用戶在信用卡申請、貸款審批過程中的客戶體驗和放款效率,此外,也為貸後催收、交易反欺詐等場景供數,支持下游系統實時監控用戶的異常交易行為,進行反洗錢身份識別,併進行實時告警推送。

《數棧產品白皮書》下載地址:https://www.dtstack.com/resources/1004?src=szsm

《數據治理行業實踐白皮書》下載地址:https://www.dtstack.com/resources/1001?src=szsm

想瞭解或咨詢更多有關大數據產品、行業解決方案、客戶案例的朋友,瀏覽袋鼠雲官網:https://www.dtstack.com/?src=szbky


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 通過本篇教程,我們學習瞭如何在 Taurus.MVC WebMVC 中處理表單提交和進行數據驗證。我們創建了一個包含表單的視圖,併在控制器中接收表單數據,併進行數據驗證和其他邏輯操作。 ...
  • 一:實驗介紹 tomcat需要下載JDK,因為tomcat是Java語言編寫的,運行在Java虛擬機上。 以下是tomcat對應JDK版本,安裝tomcat需要安裝對應的JDK版本 我這裡安裝的是9版本,則需要安裝1.8版本以上的JDK 二:下載JDK 進入JDK中文官網https://www.or ...
  • 一:下載phpStudy 1進入官網https://www.xp.cn/download.html 選擇穩定的2018版本 2執行下載好的文件,選擇下載地址 註意!這裡的安裝路徑不能有中文 3亮兩個綠燈代表正常運行,如果亮紅燈要儘快排除故障 二:點擊查看phpStudy的功能 這裡不做詳細介紹,自行 ...
  • 安裝配置jdk 下載 jdk jdk-8u171-linux-x64.tar.gz 將該壓縮包放到/usr/local/jdk目錄下然後解壓(jdk目錄需要自己手動創建) tar zxvf jdk-8u171-linux-x64.tar.gz 配置環境變數 vim /etc/profile 在文件尾 ...
  • MPR121 Breakout 是一個 接近 電容式 觸摸感測器,連接到arduino、esp32等單片機,可以用來做一些 觸摸 感應的小玩意。 他有12個觸摸點,使用 i2c 協議來操控,非常方便。 預設情況下,Add 引腳 接地了,板子的i2c地址是 0x5A,如果你要同時連接多個 板子,那麼 ...
  • STM32ADC單通道轉換 1. 初始化 ADC功能初始化主要分三部分,GPIO初始化、ADC模式初始化與NVIC初始化。 1.1初始化GPIO void ADC_GPIO_Config(void) // 配置ADC通道引腳 { GPIO_InitTypeDef GPIO_InitStructure ...
  • 隨著大數據技術的演進和信息安全性需求的提升,數據規模的持續擴張為數據運維工作帶來了嚴峻考驗。面對海量數據所形成的繁重管理壓力,運維人員面臨效率瓶頸,而不斷攀升的人力成本也使得單純依賴擴充運維團隊來解決問題變得不再實際可行。 由此可見,智能化與高效便捷是運維發展的必然方向。袋鼠雲所推出的巡檢報告功能, ...
  • 前言: insert into t2 select * from t1; 這條語句會對查詢表 t1 加鎖嗎?不要輕易下結論。對GreatSQL的鎖進行研究之前,首先要確認一下事務的隔離級別,不同的事務隔離級別,鎖的表現是不一樣的。 實驗: 創建測試表t1,t2 greatsql> create ta ...
一周排行
    -Advertisement-
    Play Games
  • 基於.NET Framework 4.8 開發的深度學習模型部署測試平臺,提供了YOLO框架的主流系列模型,包括YOLOv8~v9,以及其系列下的Det、Seg、Pose、Obb、Cls等應用場景,同時支持圖像與視頻檢測。模型部署引擎使用的是OpenVINO™、TensorRT、ONNX runti... ...
  • 十年沉澱,重啟開發之路 十年前,我沉浸在開發的海洋中,每日與代碼為伍,與演算法共舞。那時的我,滿懷激情,對技術的追求近乎狂熱。然而,隨著歲月的流逝,生活的忙碌逐漸占據了我的大部分時間,讓我無暇顧及技術的沉澱與積累。 十年間,我經歷了職業生涯的起伏和變遷。從初出茅廬的菜鳥到逐漸嶄露頭角的開發者,我見證了 ...
  • C# 是一種簡單、現代、面向對象和類型安全的編程語言。.NET 是由 Microsoft 創建的開發平臺,平臺包含了語言規範、工具、運行,支持開發各種應用,如Web、移動、桌面等。.NET框架有多個實現,如.NET Framework、.NET Core(及後續的.NET 5+版本),以及社區版本M... ...
  • 前言 本文介紹瞭如何使用三菱提供的MX Component插件實現對三菱PLC軟元件數據的讀寫,記錄了使用電腦模擬,模擬PLC,直至完成測試的詳細流程,並重點介紹了在這個過程中的易錯點,供參考。 用到的軟體: 1. PLC開發編程環境GX Works2,GX Works2下載鏈接 https:// ...
  • 前言 整理這個官方翻譯的系列,原因是網上大部分的 tomcat 版本比較舊,此版本為 v11 最新的版本。 開源項目 從零手寫實現 tomcat minicat 別稱【嗅虎】心有猛虎,輕嗅薔薇。 系列文章 web server apache tomcat11-01-官方文檔入門介紹 web serv ...
  • 1、jQuery介紹 jQuery是什麼 jQuery是一個快速、簡潔的JavaScript框架,是繼Prototype之後又一個優秀的JavaScript代碼庫(或JavaScript框架)。jQuery設計的宗旨是“write Less,Do More”,即倡導寫更少的代碼,做更多的事情。它封裝 ...
  • 前言 之前的文章把js引擎(aardio封裝庫) 微軟開源的js引擎(ChakraCore))寫好了,這篇文章整點js代碼來測一下bug。測試網站:https://fanyi.youdao.com/index.html#/ 逆向思路 逆向思路可以看有道翻譯js逆向(MD5加密,AES加密)附完整源碼 ...
  • 引言 現代的操作系統(Windows,Linux,Mac OS)等都可以同時打開多個軟體(任務),這些軟體在我們的感知上是同時運行的,例如我們可以一邊瀏覽網頁,一邊聽音樂。而CPU執行代碼同一時間只能執行一條,但即使我們的電腦是單核CPU也可以同時運行多個任務,如下圖所示,這是因為我們的 CPU 的 ...
  • 掌握使用Python進行文本英文統計的基本方法,並瞭解如何進一步優化和擴展這些方法,以應對更複雜的文本分析任務。 ...
  • 背景 Redis多數據源常見的場景: 分區數據處理:當數據量增長時,單個Redis實例可能無法處理所有的數據。通過使用多個Redis數據源,可以將數據分區存儲在不同的實例中,使得數據處理更加高效。 多租戶應用程式:對於多租戶應用程式,每個租戶可以擁有自己的Redis數據源,以確保數據隔離和安全性。 ...