基於大數據聚類社群的作弊用戶發現方法

来源:https://www.cnblogs.com/xiaodf/archive/2019/10/12/11659907.html
-Advertisement-
Play Games

前面的文章中我們講道,像趣頭條類的APP對於收徒和閱讀行為給予用戶現金獎勵的方式勢必會受到大量羊毛黨黑產的註意,其實單個用戶能薅到的錢是沒有多少的,為了達到利益最大化,黑產肯定會利用各種手段構建大量賬號來薅APP運營企業的羊毛,因為收徒的獎勵遠高於閱讀,所以賺取收徒獎勵就成了最嚴重的薅羊毛手段。前文 ...


前面的文章中我們講道,像趣頭條類的APP對於收徒和閱讀行為給予用戶現金獎勵的方式勢必會受到大量羊毛黨黑產的註意,其實單個用戶能薅到的錢是沒有多少的,為了達到利益最大化,黑產肯定會利用各種手段構建大量賬號來薅APP運營企業的羊毛,因為收徒的獎勵遠高於閱讀,所以賺取收徒獎勵就成了最嚴重的薅羊毛手段。前文提到為了更好的識別出這些異常用戶,我們利用用戶的師徒關係構建連通圖,把同一個連通圖上的用戶視為一個社群,利用Spark Grahpx實現了一個簡單高效的社群發現功能。具體內容可以查看上一篇文章《基於Spark Grahpx+Neo4j 實現用戶社群發現》,但生成社群不是目的,我們的目標是能夠對社群用戶進行分析,根據規則和演算法的方法找出社群內的異常用戶及異常社群,從而達到風控的目的。

規則的方法主要是,我們在設備,IP,用戶基礎信息,用戶行為信息等維度組合構建用戶的風控畫像,然後開發規則引擎,制定閾值,過濾出超過閾值的異常用戶。但只通過規則的方法往往是不夠的,大量的用戶單從個體上看看不出多少異常,但如果上升一個層次,從社群的整體角度去分析,就會發現用戶的很多相似之處。

就像我們之前文章說的壞人往往是扎堆的,物以類聚,人以群分,而且黑產想達到一定規模,肯定會藉助作弊設備,腳本,機器等手段,機器的行為一般都有一些相似性,我們就可以利用這些相似性對用戶進行聚類分析,所以除了規則的方法外,我們還可以用機器學習的方法將具有相似行為的用戶進行聚類,然後求出類簇的TOP N相似特征,查看是否可疑,比如設備是否相似,行為是否相似,基本信息,賬號等是否相似,通過機器學習的方法,我們能找出很多規則沒法判定的異常用戶。

聚類就是把相似的用戶聚在一起,一般的方法就是計算兩個用戶特征向量的相似度,這就遇到了第一個問題,對於大量用戶來說,兩兩用戶計算相似度計算量是非常可怕的,比如50萬用戶兩兩計算相似度,總共要計算50w * 50w =2500億次,這計算量就太大了,如果用戶量再大點根本無法計算。對於這種情況,人們一般會利用局部敏感哈希等優化演算法將數據進行降維,然後通過哈希把相似的用戶儘可能的放到同一個桶里,最後再對同一個桶里的數據進行兩兩計算,這樣計算量就小很多了。

下圖是局部敏感哈希演算法的一個示意圖,普通的哈希演算法是儘量將數據打散到不同的桶里,達到減少碰撞的目的,但局部敏感哈希旨在將相似的用戶放到相同的桶里。Spark的Mllib庫里也提供了LSH局部敏感哈希演算法的實現,有興趣的朋友可以自行查看。

不過我們在用Spark LSH跑數據的過程中,遇到了每次都是最後幾個task特別緩慢的情況,可能跟數據傾斜或CPU計算能力不足有關,多次調試都沒有太好的效果,又限於資源有限,只能另想別的方法,忽然想到我們之前已經按師徒關係生成的社群,本身就是一種把相似用戶放到同一個桶里的操作,而且我們根據師徒關係構建連通圖得到的社群應該是已經很好的把有可能是一個團夥的人聚到了一起,這樣的話,只需對每個社群進行相似度計算就可以了。

計算相似度的方法有多種,像歐氏距離,漢明距離,餘弦相似度,Jaccard 繫數等都是常用的度量方法,但鑒於我們提取的用戶特征既有數值型,又有字元型,而且用戶特征維度一樣,我們想通過定義用戶有多少個共同特征就判為相似的邏輯,所以我們選擇了一個比較簡單的f,即對比兩用戶特征數組相同特征數,滿足閾值即為相似。

不同社群用戶數
上圖是我們根據師徒關係生成的不同社群及社群人數,下圖為我們基於這些社群,分別計算出的社群內相似用戶及用戶的相似特征。


從上圖可以看出這些相似用戶,有些社群全部是同一個手機型號,並且開機時間相同,手機一直處於充電狀態,師徒高度集中等等,這些都是比較可疑的用戶,需要風控人員重點分析。

至此,我們通過社群相似度計算實現了一個簡單的風控聚類模型,基於這個模型找出了一些相似用戶,而且我們可以增加更多的用戶特征,調節模型閾值來達到更好的風控效果。後面我們還計劃給每個特征定義權重,這樣就可以對社群進行打分,進而可以更直觀的判斷社群的優劣與否。

定義特征權重如下

打分規則
目前相似社群風控分數打分規則為:

  1. 特征占比大於等於50%的特征為該相似社群的相似特征;
  2. 相似社群風控分數 = 相似特征占比乘以特征權重的累加和
  3. 如果存在權重大於等於10的相似特征,相似社群風控分數要再加上用戶數mod 100,即每100用戶加1分

比如下麵為相似社群的用戶數和相似特征占比


778 //相似社群用戶數

97% of 'app_ver' is '3.9.1', //權重為2

72% of 'masterid' is '599aa668c0d9db00014239e7', //權重為5

53% of 'battery_consumption' is '100' //權重為10


//計算相似社群風控分數如下
Score = 0.972 + 0.725 + 0.5310 + (778 mod 100) 1 = 17.84

查詢結果表如下


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • mysql ...
  • 1 MongoDB 分片(高可用) 1.1 準備工作 三台虛擬機 安裝MongoDB 虛擬機相互之間可以相互通信 虛擬機與主機之間可以相互通信 1.2 安裝MongoDB 在Ubuntu16.04 中安裝 MongoDB 。參考步驟 "MongoDB官方網站" 安裝時會報錯 提示需要安裝apt tr ...
  • 因為公司基本都是用存儲過程所以本來寫的乾貨基本都是存儲過程的。 用以上語句來說一下例子: 查詢 一定要指定欄位就算你要查全部欄位也不要用*號來代替 ,以及 能用TOP儘量TOP 避免沒必要的鎖 必須加 WITH(NOLOCK) 避免產生沒有必要的鎖出來。 因為欄位多,數據多一個索引沒有走。 加了欄位 ...
  • [TOC] 簡單瞭解 mongoDB mongoDB 特點 下載與安裝 下載地址 https://www.mongodb.com/download center/community 安裝流程參考 點擊 修改資料庫存儲位置 可視化工具 簡單使用mongoDB 數據操作 數據類型 作 者:郭楷豐 出 處 ...
  • Oracle資料庫備份還原筆記 通過查閱資料知道Oracle備份還原的方式有三種。分別的是導出/導入、熱備份和冷備份。導出/導入是一種邏輯備份、而熱備份和冷備份是物理備份。[參考資料(]) 這裡只記錄導出/導入的備份和還原的方式。實際工作中遇到一個需求:需要將伺服器上的資料庫備份,導入自己本機的數據 ...
  • 首先要認識大數據 什麼是大數據?可能有人會說寫字樓的所有人的資料信息就是個大數據。NO!這裡的數據只能說比較大,但卻不能稱之為大數據。百度百科上給出了很明確的解釋“大數據(big data),指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞 ...
  • 1.創建學生管理系統資料庫xscj create detabase 資料庫名; 2.打開資料庫 use 資料庫名; //創建資料庫之後,該資料庫不會自動成為當前資料庫需要用use來指定 3.創建表名 4.在表xs中增加“獎學金等級”列 ,並刪除表中的“姓名”列 alter table 表名 add ...
  • 轉自:http://www.maomao365.com/?p=10025 摘要: 下文使用sql腳本生成中文名字的方法分享,如下所示: 實驗環境:sql server 2008 R2 在工作中,我們有時需要批量生成隨機姓名,下麵將講述使用sql腳本生成隨機"名字"的方法分享,如下所示:實現思路: 1 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...