python—爬蟲偽裝成瀏覽器的三種方法

-Advertisement-

好多網站對於爬蟲中沒有進行瀏覽器偽裝的會進行反爬，以糗事百科網站為例下麵提供了三種方法添加headers，使爬蟲能夠偽裝成瀏覽器訪問。備註：方法二和方法三中省略了方法一：通過opener添加header 方法二：通過opener批量添加header 方法三：通過Request添加heade ...

好多網站對於爬蟲中沒有進行瀏覽器偽裝的會進行反爬，

以糗事百科網站為例

下麵提供了三種方法添加headers，使爬蟲能夠偽裝成瀏覽器訪問。

備註：

方法二和方法三中省略了

import urllib.request
url = 'http://www.qiushibaike.com/'

方法一：通過opener添加header

 1 # 方法一：通過opener添加headers
 2 import urllib.request
 3 url = 'http://www.qiushibaike.com/'
 4 
 5 # 頭文件格式header=('User-Agent',具體用戶代理值) 元組形式，元組內包含(key,value)
 6 headers=('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.22 Safari/537.36 SE 2.X MetaSr 1.0')
 7 # 創建opener對象
 8 opener = urllib.request.build_opener()
 9 opener.addheaders = [headers]
10 # (1)直接使用opener進行爬蟲
11 data = opener.open(url).read()
12 # print(data)
13 print(len(data))
14 # (2)將opener安裝為全局,全局生效後，再使用urlopen
15 urllib.request.install_opener(opener) 
16 data = urllib.request.urlopen(url).read()
17 print(len(data))

方法二：通過opener批量添加header

 1 # 方法二：批量添加headers 有時候只添加user-agent這一個header不行，需要多添加幾個header
 2 headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.22 Safari/537.36 SE 2.X MetaSr 1.0","Content-Type":"application/javascript",
 3 }
 4 #創建opener對象
 5 opener = urllib.request.build_opener()
 6 opener.addheaders = headers.items()  #header.items() 字典(Dictionary).items() 函數以列表返回可遍歷的(鍵, 值) 元組數組。正好符合addheaders屬性要求的值的類型。[(key1,value1),(key2,value2),(key3,value3)]
 7 # (1)直接使用opener進行爬蟲
 8 data = opener.open(url).read()
 9 # print(data)
10 print(len(data))
11 # (2)將opener安裝為全局,全局生效後，再使用urlopen
12 urllib.request.install_opener(opener) 
13 data = urllib.request.urlopen(url).read()
14 print(len(data))

方法三：通過Request添加header

1 # 方法三：通過Request添加headers
2 req = urllib.request.Request(url)
3 req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36 SE 2.X MetaSr 1.0')
4 req_data = urllib.request.urlopen(req).read()
5 print(len(req_data))

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

JSON詳解

JSON詳解 JSON詳解閱讀目錄 JSON的兩種結構認識JSON字元串在JS中如何使用JSON 在.NET中如何使用JSON 總結 JSON的全稱是”JavaScript Object Notation”，意思是JavaScript對象表示法，它是一種基於文本，獨立於語言的輕量級數據交換格式 ...
ionic 確認提示操作框

應用：ActionSheet("","修改IP鏈接後會有可能導致無法登錄，是否進行修改？"); 其他參數就不寫了，自己看情況加上去結果： // 以下內容為代碼中附帶的代碼 // 附上請求數據的 GetData 方法的代碼（這個方法可換成你們自己的請求數據的方法，不唯一）：附上 Load ...
使用Canvas繪製簡單的時鐘控制項

Canvas是HTML5新增的組件，它就像一塊幕布，可以用JavaScript在上面繪製各種圖表、動畫等。沒有Canvas的年代，繪圖只能藉助Flash插件實現，頁面不得不用JavaScript和Flash進行交互。有了Canvas，我們就再也不需要Flash了，直接使用JavaScript完成繪 ...
Kafka對Java程式員有多重要？連阿裡都再用它處理億萬級數據統計

一．瞭解淘寶Kafka架構在ActiveMQ、RabbitMQ、RocketMQ、Kafka消息中間件之間，我們為什麼要選擇Kafka?下麵詳細介紹一下，2012年9月份我在支付寶做餘額寶研發，2013年6月支付寶正式推出餘額寶，2013年8月擔任支付寶淘寶彩票項目經理帶領兄弟們一起做研發，期間需 ...
這感覺跟寫書一樣

...
10大經典排序演算法動圖演示

1、冒泡排序 2、選擇排序 3、插入排序 4、希爾排序 5、歸併排序 6、快速排序 7、堆排序 8、計數排序 9、桶排序 10、基數排序 ...
C-sizeof和strlen區別,以及sizeof如何計算結構體大小

sizeof和strlen區別 sizeof是關鍵字,在編譯時就能計算出值,可以計算任何類型 strlen是函數,只有在運行時才能去計算,且只能計算字元型的. 對於數組時,strlen是判斷’\0’為標誌結尾的,而sizeof則計算的是數組整個空間示例如下: 列印如下: 可以看到當我們的buf1沒有 ...
BugkuCTF~代碼審計~WriteUp

第一題：extract變數覆蓋知識簡介 extract()函數語法：題目信息 Topic Link：http://123.206.87.240:9009/1.php 利用extract()函數的變數覆蓋漏洞原理構造payload 漏洞產生原因：extract()函數當只有一個參數時，預設的第二參 ...