在剛剛畢業的時候,當時的領導就問了一個問題——個性化推薦與精準營銷的區別,當時朦朦朧朧回答不出。現在想想,他們可以說是角度不同。精準營銷可以理解為幫助物品尋找用戶,而個性化推薦則是幫助用戶尋找物品。 什麼是推薦系統? 那麼什麼是推薦系統呢?簡單的來說,就是幫助用戶和物品聯繫起來,讓信息展現在對他感謝 ...
在剛剛畢業的時候,當時的領導就問了一個問題——個性化推薦與精準營銷的區別,當時朦朦朧朧回答不出。現在想想,他們可以說是角度不同。精準營銷可以理解為幫助物品尋找用戶,而個性化推薦則是幫助用戶尋找物品。
什麼是推薦系統?
那麼什麼是推薦系統呢?簡單的來說,就是幫助用戶和物品聯繫起來,讓信息展現在對他感謝興趣的用戶面前。
在互聯網最開始興起的時候,最便捷的幫助用戶的方法就是進行分類,比如當時的雅虎,hao123等等。後來互聯網興起,這種分類已經裝不下太多的信息,於是出現了搜索引擎,當用戶需要什麼東西的時候,可以直接主動的去獲取。而推薦系統的出現,則幫助用戶在沒有明確的目的時,根據行為歷史或者用戶信息為用戶提供有價值的東西。
所以一個完整的推薦系統需要包括前段的展示頁面,後臺的日誌系統以及良好的推薦演算法。
個性化的推薦系統應用
現在個性化推薦已經應用的很廣泛了,比如:
- 1 電子商務網站、亞馬遜:個性化推薦、相關推薦(打包和相似產品)
- 2 電影和視頻網站,Netflix,YouTube,Hulu:基於物品用戶評分進行推薦
- 3 個性化音樂網路電臺:音樂推薦難度比較大,因為考慮到用戶的心情、音樂很短、免費等等
- 4 社交網路:facebook,用戶之間的網路關係、用戶的偏好關係
- 5 個性化閱讀:Google Reader,Digg
- 6 基於位置的服務:基於地理位置推送飯店
- 7 個性化郵件:幫助篩選出優先順序高的郵件
- 8 個性化廣告:CPM按照看到廣告的次數收費、CPC按照點擊廣告的次數收費 、CPA按照最後的訂單收費,個性化推薦幫助用戶找到他們感興趣的東西;廣告推薦幫助廣告找到對他們感興趣的用戶。
主要包括:上下文廣告(通過用戶瀏覽的內容)、搜索廣告、個性化展示
基於行為數據
大多數的推薦系統都是基於用戶行為的,當你瀏覽了一款商品,推薦列表將會更新,推薦一些與你瀏覽產品相關或者類似的產品。
常見的推薦演算法就時基於用戶或者物品的協同過濾。
- 基於用戶的協同過濾,userCF,即會搜索你的好友喜歡的東西推薦給你
- 基於物品的協同過濾,itemCF,即搜索您喜歡的物品相類似的東西推薦給你
這兩種演算法都有各自的使用場景的優劣勢。
推薦系統冷啟動
對於很多公司都是在一定規模才引入推薦系統的,這時候已經擁有了大量的用戶行為數據,做推薦演算法就很容易了。但是有一些系統想在初期就引入,這就比較困難了。因為既沒有大量的物品,也沒有太多的用戶關係,做協同過濾就很費勁了。
因此可以考慮費個性化的推薦,比如熱門排行、利用用戶的註冊信息、社交賬號、反饋信息等進行推薦。之後再慢慢調整..
在系統的初期也可以考慮選擇合適的物品啟動用戶的興趣,需要有比較熱門、代表性和區分行。
利用用戶標簽數據
基於標簽是一種很簡單很暴力的推薦方法,給用戶打上相關的標簽,然後就可以基於標簽進行精準營銷或者個性化推薦了。
一般打上的標簽都是 物品定義、種類、所有者、觀點、用戶胡哦哦相關的。也可以分成:類型、時間、人物、地點、語言、等等
一般的標簽都是由三元組組成(用戶、物品、標簽)
在打標簽的時候還需要註意標簽的清理。
利用上下文信息
因為用戶的興趣是變化的,可能隨著季節的效應而變化(比如衣服、考試資料),也可能根據購買的歷史(比如你買了一樣東西,以後就再也不需要買了)。
因此時間是一個很重要的上下文環境,另外就是地理位置,比如吃飯、逛街等等。
數據挖掘、機器學習、深度學習的含義
數據挖掘:
data mining,是一個很寬泛的概念。字面意思就是從成噸的數據裡面挖掘有用的信息。這個工作BI(商業智能)可以做,數據分析可以做,甚至市場運營也可以做。你用excel分析分析數據,發現了一些有用的信息,然後這些信息可以指導你的business,恭喜你,你已經會數據挖掘了。
機器學習:
machine learning,是電腦科學和統計學的交叉學科,基本目標是學習一個x->y的函數(映射),來做分類或者回歸的工作。之所以經常和數據挖掘合在一起講是因為現在好多數據挖掘的工作是通過機器學習提供的演算法工具實現的,例如廣告的ctr預估,PB級別的點擊日誌在通過典型的機器學習流程可以得到一個預估模型,從而提高互聯網廣告的點擊率和回報率;個性化推薦,還是通過機器學習的一些演算法分析平臺上的各種購買,瀏覽和收藏日誌,得到一個推薦模型,來預測你喜歡的商品。
深度學習:
deep learning,機器學習裡面現在比較火的一個topic(大坑),本身是神經網路演算法的衍生,在圖像,語音等富媒體的分類和識別上取得了非常好的效果,所以各大研究機構和公司都投入了大量的人力做相關的研究和開發。
總結下,數據挖掘是個很寬泛的概念,數據挖掘常用方法大多來自於機器學習這門學科,深度學習是機器學習一類比較火的演算法,本質上還是原來的神經網路。