基於大數據聚類社群的作弊用戶發現方法

来源:https://www.cnblogs.com/xiaodf/archive/2019/10/12/11659907.html
-Advertisement-
Play Games

前面的文章中我們講道,像趣頭條類的APP對於收徒和閱讀行為給予用戶現金獎勵的方式勢必會受到大量羊毛黨黑產的註意,其實單個用戶能薅到的錢是沒有多少的,為了達到利益最大化,黑產肯定會利用各種手段構建大量賬號來薅APP運營企業的羊毛,因為收徒的獎勵遠高於閱讀,所以賺取收徒獎勵就成了最嚴重的薅羊毛手段。前文 ...


前面的文章中我們講道,像趣頭條類的APP對於收徒和閱讀行為給予用戶現金獎勵的方式勢必會受到大量羊毛黨黑產的註意,其實單個用戶能薅到的錢是沒有多少的,為了達到利益最大化,黑產肯定會利用各種手段構建大量賬號來薅APP運營企業的羊毛,因為收徒的獎勵遠高於閱讀,所以賺取收徒獎勵就成了最嚴重的薅羊毛手段。前文提到為了更好的識別出這些異常用戶,我們利用用戶的師徒關係構建連通圖,把同一個連通圖上的用戶視為一個社群,利用Spark Grahpx實現了一個簡單高效的社群發現功能。具體內容可以查看上一篇文章《基於Spark Grahpx+Neo4j 實現用戶社群發現》,但生成社群不是目的,我們的目標是能夠對社群用戶進行分析,根據規則和演算法的方法找出社群內的異常用戶及異常社群,從而達到風控的目的。

規則的方法主要是,我們在設備,IP,用戶基礎信息,用戶行為信息等維度組合構建用戶的風控畫像,然後開發規則引擎,制定閾值,過濾出超過閾值的異常用戶。但只通過規則的方法往往是不夠的,大量的用戶單從個體上看看不出多少異常,但如果上升一個層次,從社群的整體角度去分析,就會發現用戶的很多相似之處。

就像我們之前文章說的壞人往往是扎堆的,物以類聚,人以群分,而且黑產想達到一定規模,肯定會藉助作弊設備,腳本,機器等手段,機器的行為一般都有一些相似性,我們就可以利用這些相似性對用戶進行聚類分析,所以除了規則的方法外,我們還可以用機器學習的方法將具有相似行為的用戶進行聚類,然後求出類簇的TOP N相似特征,查看是否可疑,比如設備是否相似,行為是否相似,基本信息,賬號等是否相似,通過機器學習的方法,我們能找出很多規則沒法判定的異常用戶。

聚類就是把相似的用戶聚在一起,一般的方法就是計算兩個用戶特征向量的相似度,這就遇到了第一個問題,對於大量用戶來說,兩兩用戶計算相似度計算量是非常可怕的,比如50萬用戶兩兩計算相似度,總共要計算50w * 50w =2500億次,這計算量就太大了,如果用戶量再大點根本無法計算。對於這種情況,人們一般會利用局部敏感哈希等優化演算法將數據進行降維,然後通過哈希把相似的用戶儘可能的放到同一個桶里,最後再對同一個桶里的數據進行兩兩計算,這樣計算量就小很多了。

下圖是局部敏感哈希演算法的一個示意圖,普通的哈希演算法是儘量將數據打散到不同的桶里,達到減少碰撞的目的,但局部敏感哈希旨在將相似的用戶放到相同的桶里。Spark的Mllib庫里也提供了LSH局部敏感哈希演算法的實現,有興趣的朋友可以自行查看。

不過我們在用Spark LSH跑數據的過程中,遇到了每次都是最後幾個task特別緩慢的情況,可能跟數據傾斜或CPU計算能力不足有關,多次調試都沒有太好的效果,又限於資源有限,只能另想別的方法,忽然想到我們之前已經按師徒關係生成的社群,本身就是一種把相似用戶放到同一個桶里的操作,而且我們根據師徒關係構建連通圖得到的社群應該是已經很好的把有可能是一個團夥的人聚到了一起,這樣的話,只需對每個社群進行相似度計算就可以了。

計算相似度的方法有多種,像歐氏距離,漢明距離,餘弦相似度,Jaccard 繫數等都是常用的度量方法,但鑒於我們提取的用戶特征既有數值型,又有字元型,而且用戶特征維度一樣,我們想通過定義用戶有多少個共同特征就判為相似的邏輯,所以我們選擇了一個比較簡單的f,即對比兩用戶特征數組相同特征數,滿足閾值即為相似。

不同社群用戶數
上圖是我們根據師徒關係生成的不同社群及社群人數,下圖為我們基於這些社群,分別計算出的社群內相似用戶及用戶的相似特征。


從上圖可以看出這些相似用戶,有些社群全部是同一個手機型號,並且開機時間相同,手機一直處於充電狀態,師徒高度集中等等,這些都是比較可疑的用戶,需要風控人員重點分析。

至此,我們通過社群相似度計算實現了一個簡單的風控聚類模型,基於這個模型找出了一些相似用戶,而且我們可以增加更多的用戶特征,調節模型閾值來達到更好的風控效果。後面我們還計劃給每個特征定義權重,這樣就可以對社群進行打分,進而可以更直觀的判斷社群的優劣與否。

定義特征權重如下

打分規則
目前相似社群風控分數打分規則為:

  1. 特征占比大於等於50%的特征為該相似社群的相似特征;
  2. 相似社群風控分數 = 相似特征占比乘以特征權重的累加和
  3. 如果存在權重大於等於10的相似特征,相似社群風控分數要再加上用戶數mod 100,即每100用戶加1分

比如下麵為相似社群的用戶數和相似特征占比


778 //相似社群用戶數

97% of 'app_ver' is '3.9.1', //權重為2

72% of 'masterid' is '599aa668c0d9db00014239e7', //權重為5

53% of 'battery_consumption' is '100' //權重為10


//計算相似社群風控分數如下
Score = 0.972 + 0.725 + 0.5310 + (778 mod 100) 1 = 17.84

查詢結果表如下


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • mysql ...
  • 1 MongoDB 分片(高可用) 1.1 準備工作 三台虛擬機 安裝MongoDB 虛擬機相互之間可以相互通信 虛擬機與主機之間可以相互通信 1.2 安裝MongoDB 在Ubuntu16.04 中安裝 MongoDB 。參考步驟 "MongoDB官方網站" 安裝時會報錯 提示需要安裝apt tr ...
  • 因為公司基本都是用存儲過程所以本來寫的乾貨基本都是存儲過程的。 用以上語句來說一下例子: 查詢 一定要指定欄位就算你要查全部欄位也不要用*號來代替 ,以及 能用TOP儘量TOP 避免沒必要的鎖 必須加 WITH(NOLOCK) 避免產生沒有必要的鎖出來。 因為欄位多,數據多一個索引沒有走。 加了欄位 ...
  • [TOC] 簡單瞭解 mongoDB mongoDB 特點 下載與安裝 下載地址 https://www.mongodb.com/download center/community 安裝流程參考 點擊 修改資料庫存儲位置 可視化工具 簡單使用mongoDB 數據操作 數據類型 作 者:郭楷豐 出 處 ...
  • Oracle資料庫備份還原筆記 通過查閱資料知道Oracle備份還原的方式有三種。分別的是導出/導入、熱備份和冷備份。導出/導入是一種邏輯備份、而熱備份和冷備份是物理備份。[參考資料(]) 這裡只記錄導出/導入的備份和還原的方式。實際工作中遇到一個需求:需要將伺服器上的資料庫備份,導入自己本機的數據 ...
  • 首先要認識大數據 什麼是大數據?可能有人會說寫字樓的所有人的資料信息就是個大數據。NO!這裡的數據只能說比較大,但卻不能稱之為大數據。百度百科上給出了很明確的解釋“大數據(big data),指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞 ...
  • 1.創建學生管理系統資料庫xscj create detabase 資料庫名; 2.打開資料庫 use 資料庫名; //創建資料庫之後,該資料庫不會自動成為當前資料庫需要用use來指定 3.創建表名 4.在表xs中增加“獎學金等級”列 ,並刪除表中的“姓名”列 alter table 表名 add ...
  • 轉自:http://www.maomao365.com/?p=10025 摘要: 下文使用sql腳本生成中文名字的方法分享,如下所示: 實驗環境:sql server 2008 R2 在工作中,我們有時需要批量生成隨機姓名,下麵將講述使用sql腳本生成隨機"名字"的方法分享,如下所示:實現思路: 1 ...
一周排行
    -Advertisement-
    Play Games
  • 前言 在我們開發過程中基本上不可或缺的用到一些敏感機密數據,比如SQL伺服器的連接串或者是OAuth2的Secret等,這些敏感數據在代碼中是不太安全的,我們不應該在源代碼中存儲密碼和其他的敏感數據,一種推薦的方式是通過Asp.Net Core的機密管理器。 機密管理器 在 ASP.NET Core ...
  • 新改進提供的Taurus Rpc 功能,可以簡化微服務間的調用,同時可以不用再手動輸出模塊名稱,或調用路徑,包括負載均衡,這一切,由框架實現並提供了。新的Taurus Rpc 功能,將使得服務間的調用,更加輕鬆、簡約、高效。 ...
  • 順序棧的介面程式 目錄順序棧的介面程式頭文件創建順序棧入棧出棧利用棧將10進位轉16進位數驗證 頭文件 #include <stdio.h> #include <stdbool.h> #include <stdlib.h> 創建順序棧 // 指的是順序棧中的元素的數據類型,用戶可以根據需要進行修改 ...
  • 前言 整理這個官方翻譯的系列,原因是網上大部分的 tomcat 版本比較舊,此版本為 v11 最新的版本。 開源項目 從零手寫實現 tomcat minicat 別稱【嗅虎】心有猛虎,輕嗅薔薇。 系列文章 web server apache tomcat11-01-官方文檔入門介紹 web serv ...
  • C總結與剖析:關鍵字篇 -- <<C語言深度解剖>> 目錄C總結與剖析:關鍵字篇 -- <<C語言深度解剖>>程式的本質:二進位文件變數1.變數:記憶體上的某個位置開闢的空間2.變數的初始化3.為什麼要有變數4.局部變數與全局變數5.變數的大小由類型決定6.任何一個變數,記憶體賦值都是從低地址開始往高地 ...
  • 如果讓你來做一個有狀態流式應用的故障恢復,你會如何來做呢? 單機和多機會遇到什麼不同的問題? Flink Checkpoint 是做什麼用的?原理是什麼? ...
  • C++ 多級繼承 多級繼承是一種面向對象編程(OOP)特性,允許一個類從多個基類繼承屬性和方法。它使代碼更易於組織和維護,並促進代碼重用。 多級繼承的語法 在 C++ 中,使用 : 符號來指定繼承關係。多級繼承的語法如下: class DerivedClass : public BaseClass1 ...
  • 前言 什麼是SpringCloud? Spring Cloud 是一系列框架的有序集合,它利用 Spring Boot 的開發便利性簡化了分散式系統的開發,比如服務註冊、服務發現、網關、路由、鏈路追蹤等。Spring Cloud 並不是重覆造輪子,而是將市面上開發得比較好的模塊集成進去,進行封裝,從 ...
  • class_template 類模板和函數模板的定義和使用類似,我們已經進行了介紹。有時,有兩個或多個類,其功能是相同的,僅僅是數據類型不同。類模板用於實現類所需數據的類型參數化 template<class NameType, class AgeType> class Person { publi ...
  • 目錄system v IPC簡介共用記憶體需要用到的函數介面shmget函數--獲取對象IDshmat函數--獲得映射空間shmctl函數--釋放資源共用記憶體實現思路註意 system v IPC簡介 消息隊列、共用記憶體和信號量統稱為system v IPC(進程間通信機制),V是羅馬數字5,是UNI ...