【Python】爬蟲實戰-基於代理池的高併發爬蟲

-Advertisement-

最近在寫一個基於代理池的高併發爬蟲，目標是用單機從某網站 API 爬取十億級別的JSON數據。代理池有兩種方式能夠實現爬蟲對代理池的充分利用：搭建一個 Tunnel Proxy 伺服器維護代理池在爬蟲項目內部自動切換代理所謂 Tunnel Proxy 實際上是將切換代理的操作交給了代理服務 ...

最近在寫一個基於代理池的高併發爬蟲，目標是用單機從某網站 API 爬取十億級別的JSON數據。

代理池

有兩種方式能夠實現爬蟲對代理池的充分利用：

搭建一個 Tunnel Proxy 伺服器維護代理池
在爬蟲項目內部自動切換代理

所謂 Tunnel Proxy 實際上是將切換代理的操作交給了代理伺服器，很多市面上的代理軟體都有此類功能。

如果要自行搭建可參考以下項目：

考慮到高併發，在爬蟲項目內部切換代理更加靈活一些。代理池選一個能用的就行：GitHub - jhao104/proxy_pool

記得加上匿名校驗：能否設置代理池只獲取高匿IP · Issue #169 · jhao104/proxy_pool · GitHub

代理切換策略

如果簡單的在多線程中對每個 requests.get() 使用不同的代理，那麼一定會遇到記憶體泄露的問題：

即便寫成：

session = requests.session()
response = session.get(url, headers=headers, proxies=proxies)
response.close()
session.close()

甚至在加上 gc.collect() 也無濟於事。

因此需要控制創建 session 對象的數量，只在請求失敗後切換代理和創建新的 session。

工作流程

① 主線程根據 URL 數量動態創建子進程，虛線框內為子進程任務

② crawler_task 為線程任務，執行發送請求和解析JSON

插入策略

每個子進程維護一個 url_queue 和 insert_queue。

線程會從 url_queue 取出URL執行爬取任務，由於JSON數據占用的空間不大，所以線程會先將每個 response 經過簡單解析後存到列表中。

等到 url_queue 為空時（不要使用不安全的 queue.empty() 判斷），get 方法會觸發 Timeout 異常，然後線程會將列表插入到 insert_queue 中。

所有線程任務結束後，子進程再執行 executemany 將數據批量插入到 MySQL。

其他

爬取JSON數據產生的流量不大，但需要考慮 PPS（packet per second），如果網路設施不到位的話可能嚴重影響爬取效率。

網路上獲取的免費代理大多是透明代理，如果使用開源項目 Proxy_Pool 作為代理池並加入匿名校驗，可能會間歇性導致代理池沒有可用代理。（所以最好還是從一些網路空間測繪引擎上通過特征抓取）

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

認知篇：CQRS架構模式的本質

CQRS只是一種非常簡單的模式（pattern），CQRS本身並不是一種架構風格，和最終一致性/消息/讀寫分離/事件溯源/DDD等沒有必然的聯繫，它最大優勢是給我們帶來更多的架構屬性選擇 ...
消息中間件RabbitMQ

什麼是RabbitMQ？ RabbitMQ是一款開源的，Erlang編寫的，基於AMQP協議的消息中間件為什麼使用MQ？MQ的優點非同步處理 - 相比於傳統的串列、並行方式，提高了系統的吞吐量。應用解耦 - 系統間通過消息通信，不用關心其他系統的處理。流量削鋒 - 可以通過消息隊列長度控制請求 ...
洛谷oj題單【入門1】順序結構-入門難度（Java）

洛谷oj題單【入門1】順序結構-入門難度（Java）來源：https://www.luogu.com.cn/training/100#problems B2002 Hello,World! public class Main { public static void main(String[] a ...
Quarkus入門體驗，22ms啟動一個Web服務

簡介 Quarkus是類似於Spring Boot的框架，可以方便大家進行Java開發。利用GraalVM的魔力，能更好的適應雲原生的場景，極快的啟動速度。創建項目在IDEA就直接有創建Quarkus項目的初始化工具，直接根據自己需要填好即可，非常方便：選擇自己需要的一些組件和依賴，我這裡只選 ...
第三天Java——基礎知識

創建項目 1.先創建空項目Empty project 2.再創建模板Module 3.設置項目結構 4.創建Java class 5.創建包一、註釋註釋顏色設置 Java中的註釋有三種： 1.單行註釋 //(雙斜杠開頭) 2.多行註釋 /* 註釋*/ 3.文檔註釋 /** * */ 二、標識符和 ...
JVM是如何解決跨代引用問題的？

本文已收錄至Github，推薦閱讀 👉 Java隨想錄微信公眾號：Java隨想錄 CSDN：碼農BookSea 不知道自己的無知，乃是雙倍的無知。——柏拉圖跨代引用問題跨代引用是指新生代中存在對老年代對象的引用，或者老年代中存在對新生代的引用。假如要現在進行一次只局限於新生代區域內的收集 ...
day14-JdbcTemplate-01

JdbcTemplate-01 看一個實際需求：如果希望使用spring框架做項目，Spring框架如何處理對資料庫的操作呢？方案一：使用之前的JdbcUtils類方案二：spring提供了一個操作資料庫（表）的功能強大的類JdbcTemplate。我們可以通過ioc容器來配置一個JdbcTe ...
rust寫一個im聊天服務

工作之餘，想搞一些東西，於是寫了這麼一個服務。目標是做一個通用的聊天程式，包含群聊、單聊、群聊天增刪成員這些必須功能，以及支持各種類型的聊天等。後端使用 rust ，前端使用 react 這一套，ui 上做的比較簡單，主要是驗證一下後端能力，展示使用。主要功能有：用戶體系，聊天組，組成員和消息， ...