遇到網站的反爬蟲機制，那麼我們應該來如何應對呢？

-Advertisement-

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯繫我們以作處理。加企鵝群695185429即可免費獲取，資料全在群文件里。資料可以領取包括不限於Python實戰演練、PDF電子文檔、面試集錦、學習資料等 1、使用代理適用情況：限制IP地 ...

前言

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯繫我們以作處理。

加企鵝群695185429即可免費獲取，資料全在群文件里。資料可以領取包括不限於Python實戰演練、PDF電子文檔、面試集錦、學習資料等

1、使用代理

適用情況：限制IP地址情況，也可解決由於“頻繁點擊”而需要輸入驗證碼登陸的情況。

這種情況最好的辦法就是維護一個代理IP池，網上有很多免費的代理IP，良莠不齊，可以通過篩選找到能用的。對於“頻繁點擊”的情況，我們還可以通過限制爬蟲訪問網站的頻率來避免被網站禁掉。

proxies = {'http':'http://XX.XX.XX.XX:XXXX'}
Requests：
  import requests
  response = requests.get(url=url, proxies=proxies)
Urllib2：
  import urllib2
  proxy_support = urllib2.ProxyHandler(proxies)
  opener = urllib2.build_opener(proxy_support, urllib2.HTTPHandler)
  urllib2.install_opener(opener) # 安裝opener，此後調用urlopen()時都會使用安裝過的opener對象
  response = urllib2.urlopen(url)

2、時間設置

適用情況：限制頻率情況。

Requests，Urllib2都可以使用time庫的sleep()函數：

import time
time.sleep(1)

3、偽裝成瀏覽器，或者反“反盜鏈”

有些網站會檢查你是不是真的瀏覽器訪問，還是機器自動訪問的。這種情況，加上User-Agent，表明你是瀏覽器訪問即可。有時還會檢查是否帶Referer信息還會檢查你的Referer是否合法，一般再加上Referer。

headers = {'User-Agent':'XXXXX'} # 偽裝成瀏覽器訪問，適用於拒絕爬蟲的網站
headers = {'Referer':'XXXXX'}
headers = {'User-Agent':'XXXXX', 'Referer':'XXXXX'}
Requests：
  response = requests.get(url=url, headers=headers)
Urllib2：
  import urllib, urllib2   
  req = urllib2.Request(url=url, headers=headers)
  response = urllib2.urlopen(req)

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

面試題：從“在瀏覽器輸入功能變數名稱”到“頁面靜態資源完全載入”的整個流程

...
HTTP GET/POST 請求時，空格應該編碼為 %20 還是 +？

URI 規範和 W3C 規範衝突了，才會搞出這種讓人疑惑的烏龍事件 ...
如何通過 X-Forwarded-For 拿到用戶真實 IP

如何通過 X-Forwarded-For 拿到用戶真實 IP ...
軟體設計模式學習（二十二）備忘錄模式

備忘錄模式提供了一種對象狀態的撤銷實現機制，當系統中某一對象需要恢復到某一歷史狀態時可以使用備忘錄模式來進行設計模式動機人人都有後悔的時候，在軟體使用過程中難免會出現一些誤操作，如不小心刪除了某些文字或圖片，數據填入錯誤等，對於這些誤操作，需要提供一種後悔藥機制，讓系統可以回到誤操作前的狀態，這 ...
SpringCloud學習筆記（開篇）

一、前言之前項目裡面都是基於Springboot +vue 開發，接下里公司準備做一個物聯網平臺和企業信息化系統，還是幾年前使用過springcloud的我決定系統的總結springcloud中各個組件，供自己學習以及各位博友討論。在此過程中涉及到的架構代碼都將在碼雲或者 github 共用出來， ...
C 結構體可存儲相同類型數據項的變數

C 數組允許定義可存儲相同類型數據項的變數，結構是 C 編程中另一種用戶自定義的可用的數據類型，它允許您存儲不同類型的數據項。結構用於表示一條記錄，假設您想要跟蹤圖書館中書本的動態，您可能需要跟蹤每本書的下列屬性： Title Author Subject Book ID 定義結構為了定義結構， ...
第三篇-用Flutter手擼一個抖音國內版，看看有多炫

前言前一篇已經開發了大部分框架，包含視頻上下滑動播放，這次將上次未完成的數據顯示友好顯示，以及底部音樂走馬燈特效，另外優化了載入數據的bug，在dart語言里 & 會自動變成& 也不知道這個bug啥時候修複哈. 本系列會持續更新，將各個模塊及功能持續完善. 修複Dart語言 URL顯示錯誤 ...
Java學習方法途徑，Java學習誤區及乾貨推薦

編程學習本身就是一個枯燥的過程，面對一個新鮮的東西一定是一開始比較好奇，起初比較有興趣，但是越學越覺得枯燥。學習任何東西都是一樣的，但是一定要堅持下去(如果決定要做這一行)。電腦語言的學習其實就是學習別人的思想，因為這些東西是別人發明出來的，這些東西不是憑空就來了，而是基於很多理論和為解決具體的 ...