文章來源:公眾號-智能化IT系統。 貝葉斯的原理類似於概率反轉,通過先驗概率推導出後驗概率。其公式如下: 在大數據分析中,該定理可以很好的做推導預測,很多電商以及用戶取向可以參照此方式,從已有數據推導出未知數據,以歸類做後續操作。 例如,在一個購房機構的網站,已有8個客戶,信息如下: 這時來了一個新 ...
文章來源:公眾號-智能化IT系統。
貝葉斯的原理類似於概率反轉,通過先驗概率推導出後驗概率。其公式如下:
在大數據分析中,該定理可以很好的做推導預測,很多電商以及用戶取向可以參照此方式,從已有數據推導出未知數據,以歸類做後續操作。
例如,在一個購房機構的網站,已有8個客戶,信息如下:
用戶ID | 年齡 | 性別 | 收入 | 婚姻狀況 | 是否買房 |
1 | 27 | 男 | 15W | 否 | 否 |
2 | 47 | 女 | 30W | 是 | 是 |
3 | 32 | 男 | 12W | 否 | 否 |
4 | 24 | 男 | 45W | 否 | 是 |
5 | 45 | 男 | 30W | 是 | 否 |
6 | 56 | 男 | 32W | 是 | 是 |
7 | 31 | 男 | 15W | 否 | 否 |
8 | 23 | 女 | 30W | 是 | 否 |
這時來了一個新的客戶,還沒買房,其信息如下:
年齡 | 性別 | 收入 | 婚姻狀況 |
34 | 女 | 31W | 否 |
那麼怎麼判斷她是否會買呢,是否需要給她做買房推薦呢?
我們用貝葉斯理論來計算其概率。在上述已有的8個客戶中,有四個維度,年齡,性別,收入,婚姻狀況,這四個緯度構成衡量最終是否買房的標準。我們按照最終是否買房,把記錄分為兩個表:
買了房的(圖表1):
用戶ID | 年齡 | 性別 | 收入 | 婚姻狀況 | 是否買房 |
2 | 47 | 女 | 30W | 是 | 是 |
4 | 24 | 男 | 45W | 否 | 是 |
6 | 56 | 男 | 32W | 是 | 是 |
沒買房的(圖表2):
用戶ID | 年齡 | 性別 | 收入 | 婚姻狀況 | 是否買房 |
1 | 27 | 男 | 15W | 否 | 否 |
3 | 32 | 男 | 12W | 否 | 否 |
5 | 45 | 男 | 30W | 是 | 否 |
7 | 31 | 男 | 15W | 否 | 否 |
8 | 23 | 女 | 30W | 是 | 否 |
買房的概率我們用P(a1)表示,為3/8,沒買房的概率我們用P(a2)表示,為5/8。
我們依次從這四個緯度分析:
年齡:
這裡我們按照年齡段,分為20-30,30-40,40+三個階段。這個新客戶的年齡在30-40。
P(b1|a1) --- 30-40買房的概率是1/3
P(b1|a2) --- 30-40沒買房的概率是2/5
收入:
這裡我們按照薪水,分為10-20,20-40,40+三個級別。這個新客戶的收入在20-40。
P(b2|a1) --- 20-40買房的概率是2/3
P(b2|a2) --- 20-40沒買房的概率是2/5
婚姻狀況:
新客戶是未婚
P(b3|a1) --- 未婚買房的概率是1/3
P(b3|a2) --- 未婚沒買房的概率是3/5
性別:
新客戶是女
P(b4|a1) --- 女性買房的概率是1/3
P(b4|a2) --- 女性沒買房的概率是1/5
OK,現在開始做整合:
新用戶買房的統計概率為P(b|a1)P(a1),其中P(b|a1)為P(b1|a1)P(b2|a1)P(b3|a1)P(b4|a1),那麼為0.33*0.66*0.33*0.33*3/8 = 0.0089
新用戶不會買房的統計概率為P(b|a2)P(a2),其中P(b|a2)為P(b1|a2)P(b2|a2)P(b3|a2)P(b4|a2),那麼為0.4*0.4*0.6*0.2*5/8 = 0.012
由結果得知,該用戶不會買房的概率大,所以可以將其分類至不會買房的類別。
公眾號-智能化IT系統。每周都有技術文章推送,包括原創技術乾貨,以及技術工作的心得分享。掃描下方關註。