GitHub代碼練習地址:https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac09_ProxyHandler.pyProxyHandler處理(代理伺服器) 使用代理IP,是爬蟲的常用手段提供代理伺服器的地址有很多,例如: w ...
GitHub代碼練習地址:https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac09_ProxyHandler.py
ProxyHandler處理(代理伺服器)
使用代理IP,是爬蟲的常用手段
提供代理伺服器的地址有很多,例如:
www.xicidaili.com
www.goubanjia.com
代理用來隱藏在真實訪問中,即使是代理也不允許頻繁訪問某一個固定網站,所以,代理一定要很多很多
基本使用步驟:
1. 設置代理地址
2. 創建ProxyHandler
3. 創建Opener
4. 安裝Opener