點擊此處進入網盤下載地址 提取碼:btqx 作者介紹: 馬修·羅塞爾(MatthewA.Russell),DigitalReasoningSystems公司的技術副總裁和Zaffra公司的負責人,是熱愛數據挖掘、開源和Web應用技術的電腦科學家。他也是《Dojo:TheDofinitiveGuid ...
點擊此處進入網盤下載地址
提取碼:btqx
作者介紹:
馬修·羅塞爾(MatthewA.Russell),DigitalReasoningSystems公司的技術副總裁和Zaffra公司的負責人,是熱愛數據挖掘、開源和Web應用技術的電腦科學家。他也是《Dojo:TheDofinitiveGuide》(O'Reilly出版社)的作者。在LinkedIn上聯繫他或在Twitter上關註@ptwobrussell,可隨時關註他的最新動態。
簡介:
出版社: 機械工業出版社
ISBN:9787111369608
版次:1
商品編碼:10922249
品牌:機工出版
包裝:平裝
叢書名: OReilly精品圖書系列
開本:16開
出版時間:2012-02-01
用紙:膠版紙
頁數:316
社交網站的數據挖掘與分析目錄:
前言第1章 緒論:Twitter 數據的處理
Python 開發工具的安裝
Twitter 數據的收集和處理
小結
第2章 微格式:語義標記和常識碰撞
XFN 和朋友
使用XFN 來探討社交關係
地理坐標:興趣愛好的共同主線
(以健康的名義)對菜譜進行交叉分析
對餐廳評論的搜集
小結
第3章 郵箱:雖然老套卻很好用
mbox:Unix 的入門級郵箱
mbox+CouchDB= 隨意的Email 分析
將對話線程化到一起
使用SIMILE Timeline 將郵件"事件"可視化
分析你自己的郵件數據
小結
第4章 Twitter :朋友、關註者和Setwise 操作
REST 風格的和OAuth-Cladded API
幹練而中肯的數據採集器
友誼圖的構建
小結
第5章 Twitter:tweet ,所有的tweet ,只有tweet
筆PK 劍:和tweet PK 機槍
對tweet 的分析(每次一個實體)並置潛在的社交網站(或#JustinBieber VS #TeaParty)
對大量tweet 的可視化
小結
第6章 LinkedIn :為了樂趣(和利潤?)將職業網路聚類
聚類的動機
按職位將聯繫人聚類
獲取補充個人信息
從地理上聚類網路
小結
第7章 Google Buzz:TF-IDF 、餘弦相似性和搭配194
Buzz=Twitter+ 博客
使用NLTK 處理數據
文本挖掘的基本原則
查找相似文檔
在二元語法中發Buzz
利用Gmail
在中斷之前試著創建一個搜索引擎……
小結
第8章 博客及其他:自然語言處理(等)
NLP :帕累托式介紹
使用NLTK 的典型NLP 管線
使用NLTK 檢測博客中的句子
對文件的總結
以實體為中心的分析:對數據的深層瞭解
小結256
第9章 Facebook :一體化的奇跡
利用社交網路數據
對Facebook 數據的可視化
小結
第10章 語義網:簡短的討論
發展中的變革
人不可能只靠事實生活