實戰解析:打造風控特征變數平臺,賦能數據驅動決策

来源:https://www.cnblogs.com/DTinsight/p/18054515
-Advertisement-
Play Games

金融業務產品授信準入、交易營銷等環節存在廣泛的風控訴求,隨著業務種類增多,傳統的專家規則、評分卡模型難以應付日趨複雜的風控場景。 在傳統風控以專家規則系統為主流應用的語境下,規則模型的入參習慣被稱為“變數”。基於專家規則的風險評估,存在規則觸發閾值難量化的特點,規則命中精準度提升存在瓶頸。 隨著機器 ...


金融業務產品授信準入、交易營銷等環節存在廣泛的風控訴求,隨著業務種類增多,傳統的專家規則、評分卡模型難以應付日趨複雜的風控場景。

在傳統風控以專家規則系統為主流應用的語境下,規則模型的入參習慣被稱為“變數”。基於專家規則的風險評估,存在規則觸發閾值難量化的特點,規則命中精準度提升存在瓶頸。

隨著機器學習及神經網路演算法的技術落地,更多開始採用“特征”來代指供給演算法模型的入參。具體來說,“特征”在其產出過程中,作為上游外數介面的出參,在應用端輸入過程中,作為下游規則模型的入參。

建設背景

特征變數數據來源包括客戶基本信息、財務狀況、消費行為和社交網路圖譜等,其在不同風控模型中輸入反映借款人的信用狀況和風險水平的度量,高效的特征抽取管理是一系列線上化風控動作的數據基礎。

在銀行保險等同業金融機構中,由於風險業務來源的在組織架構上的複雜性,不同條線之間不可避免地存在煙囪式的特征變數開發,策略建模人員的數據需求往往在某一產品中已開發部署但並未形成統一管理共用的平臺機制,造成了業務間用數口徑及策略生成一致性的偏差。

因此,需要對風險業務用數流程進一步產品化抽象,來規範特征變數的衍生、存儲、調用及監測,統一風控特征變數平臺也應運而生。

痛點分析

在風控任務開發場景中,模型任務從預先開發的變數存儲表中取數。實際開發中往往存在特征開發部署門檻高、複雜特征抽取難度大、特征應用口徑不一致、特征加工流程不統一等業務及開發痛點。

01 實時特征變數開發門檻高

風控業務相關策略建模人員技術棧以Python、SQL能力為主,對基於Java語義的Flink開發有一定學習成本,除了基於離線數據的模型訓練部署,實時特征處理能力不足。

02 複雜特征變數抽取難度大

部分外部數據源介面的返回報文嵌套層級較多,出參位置混亂,介面取數難度較大,對抽取特征缺乏統一平臺管理維護。

03 特征變數應用口徑不一致

在構建風控模型時模型任務存在相同的特征變數需求,但不同團隊或不同項目中存在針對相同的原始數據重覆進行特征工程處理的情況,導致特征變數邏輯變更後相應SQL的一致性和準確性問題。

04 特征變數加工流程難統一

下游策略、模型側的新增特征變數需求缺乏一致標準化的加工路徑,導致對應變數表出入參命名雜亂,當新增欄位通過原SQL無法讀取上游表,產生更多複雜嵌套的Join操作,隨著衍生特征及變數集的配置,任務規模及資源占用情況往往難以控制。

風控特征變數體系建設方案

風控特征變數體系建設聚焦於金融機構實時風險識別與防控,通過對多源異構數據的批流抽取、聚合與衍生加工,沉澱標準化、易擴展的統一特征變數平臺,實現從數據接入、特征變數生成、為下游模型訓練及決策執行供數的端到端閉環,提升風險事件響應速度與決策精準度。

01 技術能力

風控業務往往面臨實時數據處理需求,在客戶交易、信貸審批等場景中,流計算能夠實時更新客戶信用評級、額度管控等風險信息,為下游決策引擎提供實時化跨系統的風險識別能力。

file

實時風控技術系架構中,計算包括了批計算、流計算及圖計算,以流計算能力為例,Flink提供了底層面向實時特征計算的能力,主要用於數據ETL、寬表加工、視窗計算、雙流Join等場景,通過預計算、狀態聚合計算等能力實現原始特征變數、標準特征變數、衍生特征變數的加工,為決策模型提供特征支持。

模型引擎主要負責存儲和管理經訓練的各類模型,如信用評分模型、欺詐檢測模型、流失預警模型等。

決策引擎集中管理規則集、決策樹、決策矩陣、評分卡等策略模型,規則集調用特征變數服務及模型引擎的模型服務參與決策流的邏輯運算。

特征變數引擎基於異構數據源,進行數據抽取、加工計算、標準化管理維護,實現風控人員自助查詢,更加便捷、規範地進行業務取數和數據分析。

file

02 數據來源

以信貸業務數據源為例,根據授信主體不同通常可分為To C個人信貸及To B對公信貸。在實際業務審查中,客戶經理通常以現金流水平及負債水平兩大指標進行客戶授信可行性分析。

在個人信貸場景下,客戶現金流水平可拆解為社保繳納、銀行及三方支付平臺收入流水。負債水平則主要來源於人行徵信,涵蓋了個人名下各金融機構發放的全部貸款、占用風險敞口的金融產品及對外擔保信息,徵信數據來源除人行外包括其他第三方個人持牌徵信機構,如百行徵信、樸道徵信及錢塘徵信。

在對公信貸場景下,小微普惠類貸款的風險來源聚集於其實控人,現金流水平除實控人個人流水外同步採集對公賬戶流水,負債水平則額外接入其人行企業徵信。中大型企業授信及行業專項貸款下,其主體風險行為事件難以依賴徵信稅務數據直接度量,區別於小微普惠類貸款,需結合企業實地庫存與關聯企業經營狀況進一步線下盡調。

針對以上兩類信貸業務,特征加工往往採集以下多維數據來源:

file

03 數據處理

面向不同風控場景的數據源,採用批、流、預計算等模式融合的特征變數加工方式,實現對業務需求的敏捷開發與存算成本管控。

批計算:針對大規模歷史數據集,採用批處理進行特征變數加工。對數據中的缺失值、異常值等問題,採用插值、平滑等方法進行處理,保證數據質量。

流計算:針對實時數據流,採用流式處理模式進行特征變數加工。通過實時流處理技術,實現對數據實時分析,滿足風控場景對實時性的要求。同時,採用事件驅動的架構,確保數據處理的高效與靈活性。

預計算:針對業務系統數據,視其變化頻率預先計算並存儲特征變數,可以有效降低流計算成本,提高決策系統從特征引擎取數的效率。

04 平臺建設

具體來說,特征變數平臺需要整合徵信系統、三方數據源、企業內部系統等多來源數據併進行流批能力的衍生加工,能夠支持不同業務場景的風控模型入參需求。對於不同複雜度的特征變數支持可配置的、業務主導的低代碼加工方式。因此,特征變數平臺的建設通常包含以下幾個方面:

1、特征變數抽取與生成
自動化數據清洗與預處理,將原始數據轉化為可供建模使用的特征。提供畫布+組件化的一站式WEB IDE模式提升開發效率,支持用戶自定義或系統內置的特征計算邏輯。

2、特征變數存儲與管理

基於分散式存儲機制,存儲大規模的歷史及實時特征數據。實現特征版本控制,記錄特征計算邏輯的變更歷史,確保模型訓練時可以回溯至特定版本的數據。

3、特征變數服務化

提供特征服務介面,為各種模型訓練、預測以及決策引擎提供實時或批量特征查詢服務。通過輸出組件可以快速對接下游規則引擎、實時數倉、消息隊列,滿足複雜業務場景下低延遲、高併發訪問的性能需求。

4、特征變數探索與分析

提供豐富的統計分析工具,幫助分析人員快速瞭解特征變數分佈、關聯關係等。可視化界面展示特征重要性、影響度等指標,輔助特征選擇與迭代。

5、與內外部系統的集成

集成金融機構內部交易系統、CRM系統、ERP系統等多種數據源。支持與其他風控組件(如規則引擎、模型庫等)以及外部徵信等第三方數據服務商的對接。

05 建設收益

在某銀行客戶特征變數項目的落地實踐中,平臺服務於貸前授信場景的特征變數加工衍生管理需求,對接上游多樣化數據來源,如外部的運營商、工商、司法數據;銀行內部的客戶設備信息、賬戶交易信息;貸前收集的資產估值、額度測算數據。通過實時特征變數計算能力,向下游申請評分卡等模型供數。

file

1、組件化抽取特征變數

平臺從SQL命令中批量解析特征變數,面向模型任務的取數需求,用戶可在平臺自由加工組合所需特征變數寫入相應主題hive表以供讀取加工。

2、特征變數集同步更新

頁面支持增、刪、編輯特征變數集,平臺表結構操作自動同步至物理模型表。當特征變數邏輯發生變化時,僅需編輯對應標準特征變數衍生代碼或原始特征變數標準化操作,避免面向大段sql函數的複雜開發。

3、穩定性及異常監測

平臺提供的監控看板功能支持了對特征變數的波動及變數集調用情況的監測,特征變數值監控確保上游數據異常時,下游任務及時停止,最大可能避免模型用數時特征變數差異過大造成的模型結果失真;統計各變數集調用情況,實時推送基線告警及強弱規則校驗信息。

4、平臺統一管控

平臺提供成員管理、審批中心、調用分析、自動歸檔、任務重啟等管控手段,支持任務優先順序調整,統一調度任務運行以提高數據服務達成效果及集群資源利用率。

平臺部署上線,覆蓋支持了消費貸、小微信用貸等業務下30+授信場景。特征變數平臺通過與下游規則模型引擎的結合,實現了實時決策能力在風控場景的落地,滿足了貸前授信場景下提高用戶在信用卡申請、貸款審批過程中的客戶體驗和放款效率,此外,也為貸後催收、交易反欺詐等場景供數,支持下游系統實時監控用戶的異常交易行為,進行反洗錢身份識別,併進行實時告警推送。

《數棧產品白皮書》下載地址:https://www.dtstack.com/resources/1004?src=szsm

《數據治理行業實踐白皮書》下載地址:https://www.dtstack.com/resources/1001?src=szsm

想瞭解或咨詢更多有關大數據產品、行業解決方案、客戶案例的朋友,瀏覽袋鼠雲官網:https://www.dtstack.com/?src=szbky


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 通過本篇教程,我們學習瞭如何在 Taurus.MVC WebMVC 中處理表單提交和進行數據驗證。我們創建了一個包含表單的視圖,併在控制器中接收表單數據,併進行數據驗證和其他邏輯操作。 ...
  • 一:實驗介紹 tomcat需要下載JDK,因為tomcat是Java語言編寫的,運行在Java虛擬機上。 以下是tomcat對應JDK版本,安裝tomcat需要安裝對應的JDK版本 我這裡安裝的是9版本,則需要安裝1.8版本以上的JDK 二:下載JDK 進入JDK中文官網https://www.or ...
  • 一:下載phpStudy 1進入官網https://www.xp.cn/download.html 選擇穩定的2018版本 2執行下載好的文件,選擇下載地址 註意!這裡的安裝路徑不能有中文 3亮兩個綠燈代表正常運行,如果亮紅燈要儘快排除故障 二:點擊查看phpStudy的功能 這裡不做詳細介紹,自行 ...
  • 安裝配置jdk 下載 jdk jdk-8u171-linux-x64.tar.gz 將該壓縮包放到/usr/local/jdk目錄下然後解壓(jdk目錄需要自己手動創建) tar zxvf jdk-8u171-linux-x64.tar.gz 配置環境變數 vim /etc/profile 在文件尾 ...
  • MPR121 Breakout 是一個 接近 電容式 觸摸感測器,連接到arduino、esp32等單片機,可以用來做一些 觸摸 感應的小玩意。 他有12個觸摸點,使用 i2c 協議來操控,非常方便。 預設情況下,Add 引腳 接地了,板子的i2c地址是 0x5A,如果你要同時連接多個 板子,那麼 ...
  • STM32ADC單通道轉換 1. 初始化 ADC功能初始化主要分三部分,GPIO初始化、ADC模式初始化與NVIC初始化。 1.1初始化GPIO void ADC_GPIO_Config(void) // 配置ADC通道引腳 { GPIO_InitTypeDef GPIO_InitStructure ...
  • 隨著大數據技術的演進和信息安全性需求的提升,數據規模的持續擴張為數據運維工作帶來了嚴峻考驗。面對海量數據所形成的繁重管理壓力,運維人員面臨效率瓶頸,而不斷攀升的人力成本也使得單純依賴擴充運維團隊來解決問題變得不再實際可行。 由此可見,智能化與高效便捷是運維發展的必然方向。袋鼠雲所推出的巡檢報告功能, ...
  • 前言: insert into t2 select * from t1; 這條語句會對查詢表 t1 加鎖嗎?不要輕易下結論。對GreatSQL的鎖進行研究之前,首先要確認一下事務的隔離級別,不同的事務隔離級別,鎖的表現是不一樣的。 實驗: 創建測試表t1,t2 greatsql> create ta ...
一周排行
    -Advertisement-
    Play Games
  • PasteSpider是什麼? 一款使用.net編寫的開源的Linux容器部署助手,支持一鍵發佈,平滑升級,自動伸縮, Key-Value配置,項目網關,環境隔離,運行報表,差量升級,私有倉庫,集群部署,版本管理等! 30分鐘上手,讓開發也可以很容易的學會在linux上部署你得項目! [從需求角度介 ...
  • SQLSugar是什麼 **1. 輕量級ORM框架,專為.NET CORE開發人員設計,它提供了簡單、高效的方式來處理資料庫操作,使開發人員能夠更輕鬆地與資料庫進行交互 2. 簡化資料庫操作和數據訪問,允許開發人員在C#代碼中直接操作資料庫,而不需要編寫複雜的SQL語句 3. 支持多種資料庫,包括但 ...
  • 在C#中,經常會有一些耗時較長的CPU密集型運算,因為如果直接在UI線程執行這樣的運算就會出現UI不響應的問題。解決這類問題的主要途徑是使用多線程,啟動一個後臺線程,把運算操作放在這個後臺線程中完成。但是原生介面的線程操作有一些難度,如果要更進一步的去完成線程間的通訊就會難上加難。 因此,.NET類 ...
  • 一:背景 1. 講故事 前些天有位朋友在微信上丟了一個崩潰的dump給我,讓我幫忙看下為什麼出現了崩潰,在 Windows 的事件查看器上顯示的是經典的 訪問違例 ,即 c0000005 錯誤碼,不管怎麼說有dump就可以上windbg開幹了。 二:WinDbg 分析 1. 程式為誰崩潰了 在 Wi ...
  • CSharpe中的IO+NPOI+序列化 文件文件夾操作 學習一下常見的文件、文件夾的操作。 什麼是IO流? I:就是input O:就是output,故稱:輸入輸出流 將數據讀入記憶體或者記憶體輸出的過程。 常見的IO流操作,一般說的是[記憶體]與[磁碟]之間的輸入輸出。 作用 持久化數據,保證數據不再 ...
  • C#.NET與JAVA互通之MD5哈希V2024 配套視頻: 要點: 1.計算MD5時,SDK自帶的計算哈希(ComputeHash)方法,輸入輸出參數都是byte數組。就涉及到字元串轉byte數組轉換時,編碼選擇的問題。 2.輸入參數,字元串轉byte數組時,編碼雙方要統一,一般為:UTF-8。 ...
  • CodeWF.EventBus,一款靈活的事件匯流排庫,實現模塊間解耦通信。支持多種.NET項目類型,如WPF、WinForms、ASP.NET Core等。採用簡潔設計,輕鬆實現事件的發佈與訂閱。通過有序的消息處理,確保事件得到妥善處理。簡化您的代碼,提升系統可維護性。 ...
  • 一、基本的.NET框架概念 .NET框架是一個由微軟開發的軟體開發平臺,它提供了一個運行時環境(CLR - Common Language Runtime)和一套豐富的類庫(FCL - Framework Class Library)。CLR負責管理代碼的執行,而FCL則提供了大量預先編寫好的代碼, ...
  • 本章將和大家分享在ASP.NET Core中如何使用高級客戶端NEST來操作我們的Elasticsearch。 NEST是一個高級別的Elasticsearch .NET客戶端,它仍然非常接近原始Elasticsearch API的映射。所有的請求和響應都是通過類型來暴露的,這使得它非常適合快速上手 ...
  • 參考delphi的代碼更改為C# Delphi 檢測密碼強度 規則(仿 google) 仿 google 評分規則 一、密碼長度: 5 分: 小於等於 4 個字元 10 分: 5 到 7 字元 25 分: 大於等於 8 個字元 二、字母: 0 分: 沒有字母 10 分: 全都是小(大)寫字母 20 ...