金融業務產品授信準入、交易營銷等環節存在廣泛的風控訴求,隨著業務種類增多,傳統的專家規則、評分卡模型難以應付日趨複雜的風控場景。 在傳統風控以專家規則系統為主流應用的語境下,規則模型的入參習慣被稱為“變數”。基於專家規則的風險評估,存在規則觸發閾值難量化的特點,規則命中精準度提升存在瓶頸。 隨著機器 ...
金融業務產品授信準入、交易營銷等環節存在廣泛的風控訴求,隨著業務種類增多,傳統的專家規則、評分卡模型難以應付日趨複雜的風控場景。
在傳統風控以專家規則系統為主流應用的語境下,規則模型的入參習慣被稱為“變數”。基於專家規則的風險評估,存在規則觸發閾值難量化的特點,規則命中精準度提升存在瓶頸。
隨著機器學習及神經網路演算法的技術落地,更多開始採用“特征”來代指供給演算法模型的入參。具體來說,“特征”在其產出過程中,作為上游外數介面的出參,在應用端輸入過程中,作為下游規則模型的入參。
建設背景
特征變數數據來源包括客戶基本信息、財務狀況、消費行為和社交網路圖譜等,其在不同風控模型中輸入反映借款人的信用狀況和風險水平的度量,高效的特征抽取管理是一系列線上化風控動作的數據基礎。
在銀行保險等同業金融機構中,由於風險業務來源的在組織架構上的複雜性,不同條線之間不可避免地存在煙囪式的特征變數開發,策略建模人員的數據需求往往在某一產品中已開發部署但並未形成統一管理共用的平臺機制,造成了業務間用數口徑及策略生成一致性的偏差。
因此,需要對風險業務用數流程進一步產品化抽象,來規範特征變數的衍生、存儲、調用及監測,統一風控特征變數平臺也應運而生。
痛點分析
在風控任務開發場景中,模型任務從預先開發的變數存儲表中取數。實際開發中往往存在特征開發部署門檻高、複雜特征抽取難度大、特征應用口徑不一致、特征加工流程不統一等業務及開發痛點。
01 實時特征變數開發門檻高
風控業務相關策略建模人員技術棧以Python、SQL能力為主,對基於Java語義的Flink開發有一定學習成本,除了基於離線數據的模型訓練部署,實時特征處理能力不足。
02 複雜特征變數抽取難度大
部分外部數據源介面的返回報文嵌套層級較多,出參位置混亂,介面取數難度較大,對抽取特征缺乏統一平臺管理維護。
03 特征變數應用口徑不一致
在構建風控模型時模型任務存在相同的特征變數需求,但不同團隊或不同項目中存在針對相同的原始數據重覆進行特征工程處理的情況,導致特征變數邏輯變更後相應SQL的一致性和準確性問題。
04 特征變數加工流程難統一
下游策略、模型側的新增特征變數需求缺乏一致標準化的加工路徑,導致對應變數表出入參命名雜亂,當新增欄位通過原SQL無法讀取上游表,產生更多複雜嵌套的Join操作,隨著衍生特征及變數集的配置,任務規模及資源占用情況往往難以控制。
風控特征變數體系建設方案
風控特征變數體系建設聚焦於金融機構實時風險識別與防控,通過對多源異構數據的批流抽取、聚合與衍生加工,沉澱標準化、易擴展的統一特征變數平臺,實現從數據接入、特征變數生成、為下游模型訓練及決策執行供數的端到端閉環,提升風險事件響應速度與決策精準度。
01 技術能力
風控業務往往面臨實時數據處理需求,在客戶交易、信貸審批等場景中,流計算能夠實時更新客戶信用評級、額度管控等風險信息,為下游決策引擎提供實時化跨系統的風險識別能力。
在實時風控技術系架構中,計算包括了批計算、流計算及圖計算,以流計算能力為例,Flink提供了底層面向實時特征計算的能力,主要用於數據ETL、寬表加工、視窗計算、雙流Join等場景,通過預計算、狀態聚合計算等能力實現原始特征變數、標準特征變數、衍生特征變數的加工,為決策模型提供特征支持。
模型引擎主要負責存儲和管理經訓練的各類模型,如信用評分模型、欺詐檢測模型、流失預警模型等。
決策引擎集中管理規則集、決策樹、決策矩陣、評分卡等策略模型,規則集調用特征變數服務及模型引擎的模型服務參與決策流的邏輯運算。
特征變數引擎基於異構數據源,進行數據抽取、加工計算、標準化管理維護,實現風控人員自助查詢,更加便捷、規範地進行業務取數和數據分析。
02 數據來源
以信貸業務數據源為例,根據授信主體不同通常可分為To C個人信貸及To B對公信貸。在實際業務審查中,客戶經理通常以現金流水平及負債水平兩大指標進行客戶授信可行性分析。
在個人信貸場景下,客戶現金流水平可拆解為社保繳納、銀行及三方支付平臺收入流水。負債水平則主要來源於人行徵信,涵蓋了個人名下各金融機構發放的全部貸款、占用風險敞口的金融產品及對外擔保信息,徵信數據來源除人行外包括其他第三方個人持牌徵信機構,如百行徵信、樸道徵信及錢塘徵信。
在對公信貸場景下,小微普惠類貸款的風險來源聚集於其實控人,現金流水平除實控人個人流水外同步採集對公賬戶流水,負債水平則額外接入其人行企業徵信。中大型企業授信及行業專項貸款下,其主體風險行為事件難以依賴徵信稅務數據直接度量,區別於小微普惠類貸款,需結合企業實地庫存與關聯企業經營狀況進一步線下盡調。
針對以上兩類信貸業務,特征加工往往採集以下多維數據來源:
03 數據處理
面向不同風控場景的數據源,採用批、流、預計算等模式融合的特征變數加工方式,實現對業務需求的敏捷開發與存算成本管控。
批計算:針對大規模歷史數據集,採用批處理進行特征變數加工。對數據中的缺失值、異常值等問題,採用插值、平滑等方法進行處理,保證數據質量。
流計算:針對實時數據流,採用流式處理模式進行特征變數加工。通過實時流處理技術,實現對數據實時分析,滿足風控場景對實時性的要求。同時,採用事件驅動的架構,確保數據處理的高效與靈活性。
預計算:針對業務系統數據,視其變化頻率預先計算並存儲特征變數,可以有效降低流計算成本,提高決策系統從特征引擎取數的效率。
04 平臺建設
具體來說,特征變數平臺需要整合徵信系統、三方數據源、企業內部系統等多來源數據併進行流批能力的衍生加工,能夠支持不同業務場景的風控模型入參需求。對於不同複雜度的特征變數支持可配置的、業務主導的低代碼加工方式。因此,特征變數平臺的建設通常包含以下幾個方面:
1、特征變數抽取與生成
自動化數據清洗與預處理,將原始數據轉化為可供建模使用的特征。提供畫布+組件化的一站式WEB IDE模式提升開發效率,支持用戶自定義或系統內置的特征計算邏輯。
2、特征變數存儲與管理
基於分散式存儲機制,存儲大規模的歷史及實時特征數據。實現特征版本控制,記錄特征計算邏輯的變更歷史,確保模型訓練時可以回溯至特定版本的數據。
3、特征變數服務化
提供特征服務介面,為各種模型訓練、預測以及決策引擎提供實時或批量特征查詢服務。通過輸出組件可以快速對接下游規則引擎、實時數倉、消息隊列,滿足複雜業務場景下低延遲、高併發訪問的性能需求。
4、特征變數探索與分析
提供豐富的統計分析工具,幫助分析人員快速瞭解特征變數分佈、關聯關係等。可視化界面展示特征重要性、影響度等指標,輔助特征選擇與迭代。
5、與內外部系統的集成
集成金融機構內部交易系統、CRM系統、ERP系統等多種數據源。支持與其他風控組件(如規則引擎、模型庫等)以及外部徵信等第三方數據服務商的對接。
05 建設收益
在某銀行客戶特征變數項目的落地實踐中,平臺服務於貸前授信場景的特征變數加工衍生管理需求,對接上游多樣化數據來源,如外部的運營商、工商、司法數據;銀行內部的客戶設備信息、賬戶交易信息;貸前收集的資產估值、額度測算數據。通過實時特征變數計算能力,向下游申請評分卡等模型供數。
1、組件化抽取特征變數
平臺從SQL命令中批量解析特征變數,面向模型任務的取數需求,用戶可在平臺自由加工組合所需特征變數寫入相應主題hive表以供讀取加工。
2、特征變數集同步更新
頁面支持增、刪、編輯特征變數集,平臺表結構操作自動同步至物理模型表。當特征變數邏輯發生變化時,僅需編輯對應標準特征變數衍生代碼或原始特征變數標準化操作,避免面向大段sql函數的複雜開發。
3、穩定性及異常監測
平臺提供的監控看板功能支持了對特征變數的波動及變數集調用情況的監測,特征變數值監控確保上游數據異常時,下游任務及時停止,最大可能避免模型用數時特征變數差異過大造成的模型結果失真;統計各變數集調用情況,實時推送基線告警及強弱規則校驗信息。
4、平臺統一管控
平臺提供成員管理、審批中心、調用分析、自動歸檔、任務重啟等管控手段,支持任務優先順序調整,統一調度任務運行以提高數據服務達成效果及集群資源利用率。
平臺部署上線,覆蓋支持了消費貸、小微信用貸等業務下30+授信場景。特征變數平臺通過與下游規則模型引擎的結合,實現了實時決策能力在風控場景的落地,滿足了貸前授信場景下提高用戶在信用卡申請、貸款審批過程中的客戶體驗和放款效率,此外,也為貸後催收、交易反欺詐等場景供數,支持下游系統實時監控用戶的異常交易行為,進行反洗錢身份識別,併進行實時告警推送。
《數棧產品白皮書》下載地址:https://www.dtstack.com/resources/1004?src=szsm
《數據治理行業實踐白皮書》下載地址:https://www.dtstack.com/resources/1001?src=szsm
想瞭解或咨詢更多有關大數據產品、行業解決方案、客戶案例的朋友,瀏覽袋鼠雲官網:https://www.dtstack.com/?src=szbky