新浪微博python爬蟲分享（一天可抓取 1300 萬條數據）,超級無敵

-Advertisement-

直接進入主題爬蟲功能：此項目和QQ空間爬蟲類似，主要爬取新浪微博用戶的個人信息、微博信息、粉絲和關註（詳細見此）。還要註意：不管你是為了Python就業還是興趣愛好，記住：項目開發經驗永遠是核心，如果你沒有2020最新python入門到高級實戰視頻教程，可以去小編的Python交流.裙：七衣衣九 ...

直接進入主題

爬蟲功能：
此項目和QQ空間爬蟲類似，主要爬取新浪微博用戶的個人信息、微博信息、粉絲和關註（詳細見此）。還要註意：不管你是為了Python就業還是興趣愛好，記住：項目開發經驗永遠是核心，如果你沒有2020最新python入門到高級實戰視頻教程，可以去小編的Python交流.裙：七衣衣九七七巴而五（數字的諧音）轉換下可以找到了，裡面很多新python教程項目，還可以跟老司機交流討教！
代碼獲取新浪微博Cookie進行登錄，可通過多賬號登錄來防止新浪的反扒（用來登錄的賬號可從淘寶購買，一塊錢七個）。
項目爬的是新浪微博wap站，結構簡單，速度應該會比較快，而且反扒沒那麼強，缺點是信息量會稍微缺少一些（可見爬蟲福利：如何爬wap站）。
爬蟲抓取微博的速度可以達到 1300萬/天以上，具體要視網路情況，我使用的是校園網（廣工大學城校區），普通的家庭網路可能才一半的速度，甚至都不到。

環境、架構：
開發語言：Python2.7
開發環境：64位Windows8系統，4G記憶體，i7-3612QM處理器。
資料庫：MongoDB 3.2.0
（Python編輯器：Pycharm 5.0.4；MongoDB管理工具：MongoBooster 1.1.1）

主要使用 scrapy 爬蟲框架。
下載中間件會從Cookie池和User-Agent池中隨機抽取一個加入到spider中。
start_requests 中根據用戶ID啟動四個Request，同時對個人信息、微博、關註和粉絲進行爬取。
將新爬下來的關註和粉絲ID加入到待爬隊列（先去重）。

使用說明：
啟動前配置：

MongoDB安裝好能啟動即可，不需要配置。
Python需要安裝好scrapy（64位的Python儘量使用64位的依賴模塊）
另外用到的python模塊還有：pymongo、json、base64、requests。
將你用來登錄的微博賬號和密碼加入到 cookies.py 文件中，裡面已經有兩個賬號作為格式參考了。
另外一些scrapy的設置（如間隔時間、日誌級別、Request線程數等）可自行在setting裡面調。

運行截圖：

資料庫說明：
SinaSpider主要爬取新浪微博的個人信息、微博數據、關註和粉絲。
資料庫設置 Information、Tweets、Follows、Fans四張表，此處僅介紹前面兩張表的欄位。

Information 表：
_id：採用 “用戶ID” 作為唯一標識。
Birthday：出生日期。
City：所在城市。
Gender：性別。
Marriage：婚姻狀況。
NickName：微博昵稱。
Num_Fans：粉絲數量。
Num_Follows：關註數量。
Num_Tweets：已發微博數量。
Province：所在省份。
Signature：個性簽名。
URL：微博的個人首頁。

Tweets 表：
_id：採用 “用戶ID-微博ID” 的形式作為一條微博的唯一標識。
Co_oridinates：發微博時的定位坐標（經緯度），調用地圖API可直接查看具體方位，可識別到在哪一棟樓。
Comment：微博被評論的數量。
Content：微博的內容。
ID：用戶ID。
Like：微博被點贊的數量。
PubTime：微博發表時間。
Tools：發微博的工具（手機類型或者平臺）
Transfer：微博被轉發的數量。
————————————————

最後要註意：不管你是為了Python就業還是興趣愛好，記住：項目開發經驗永遠是核心，如果你沒有2020最新python入門到高級實戰視頻教程，可以去小編的Python交流.裙：七衣衣九七七巴而五（數字的諧音）轉換下可以找到了，裡面很多新python教程項目，還可以跟老司機交流討教！
本文的文字及圖片來源於網路加上自己的想法,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯繫我們以作處理。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

課堂管理系統；線上教輔平臺；java課設

# 白澤智慧教輔平臺 **說明：** 運行時需要修改位置： bzedu\src\main\resources\application.properties bzedu\src\main\resources\config\mybatis-config.xml https證書配置請自行學習資料庫自行配 ...
51單片機非常簡潔的矩陣掃描程式

```c /*按鍵的鍵位定義*/ unsigned char code anj[4][4] = { 1, 2, 3, 10, 4, 5, 6, 11, 7, 0, 9, 12, 13, 8, 14, 15, }; char ScanKey() { char key = -1;//賦值用於判讀沒有按下... ...
Springboot-WebFlux實現http重定向到https

1 簡介是一個新興的技術，團隊把寶都壓在響應式上了，於是推出了全新的實現。本文不討論響應式編程，而是通過實例講解如何把重定向到。作為餐前小吃，建議大家先吃以下小菜，以幫助理解：（1） "Springboot整合https原來這麼簡單" （2） "HTTPS之密鑰知識與密鑰工具Ke ...
自定義視圖和自定義視圖解析器

有的時候 SpringMVC 框架提供的視圖解析器不能滿足我們的需求，這時候我們可以來自定義視圖以及視圖解析器來完成定製的功能。主要分為以下三步：編寫自定義視圖實現類編寫視圖解析器在配置文件中將自定義的視圖解析器註入ioc容器中 1、編寫自定義視圖實現類： 2、編寫視圖解析器： 3、在配置文 ...
Flask的基本使用

flask的基本使用一創建flask項目（避免與其他環境衝突） 1 創建虛擬環境 2 創建flask項目 + 在pycharm中創建Pure Python新項目 + 選擇創建的虛擬環境作為開發環境（使用虛擬環境後which python能看到環境目錄） + 新建.py文件 3 hello wor ...
Java大數據秋招面試題

以下為整理的自己秋招遇到的面試題；主要是Java和大數據相關題型；根據印象整理了下，有些記不起來了。死鎖、樂觀鎖、悲觀鎖synchronized底層原理及膨脹機制ReetrantLock底層原理，源碼是如何實現公平和非公平的synchronized和lock的區別volitale理解？volital ...
如何讓Python程式輕鬆加速，正確方法詳解

最近，我讀了一篇有趣的文章，文中介紹了一些未充分使用的Python特性的。在文章中，作者提到，從Python 3.2開始，標準庫附帶了一個內置的裝飾器functools.lru_cache。我發現這個裝飾器很令人興奮，有了它，我們有可能輕鬆地為許多應用程式加速。你可能在想，這很好，但這個裝飾器究竟 ...
Java Spring Cloud 實戰之路-01 框架選型

0. 前言這是一個新的系列，來源於工作中的一個需求，領導準備新開一個項目線路，要求使用Java，項目符合現有主流技術，並要求對併發量有一定的承受能力，支持擴展。我和公司的幾個小伙伴一起溝通了一下，這不就是標準的Spring Cloud微服務的系統架構嗎。之前讀過小高之前發的文章的小伙伴也清楚我 ...