Python快速上手爬蟲的7大技巧_ZenDei技術網路在線

Python快速上手爬蟲的7大技巧

-Advertisement-

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯繫我們以作處理。用Python也差不多一年多了，Python應用最多的場景還是Web快速開發、爬蟲、自動化運維：寫過簡單網站、寫過自動發帖腳本、寫過收發郵件腳本、寫過簡單驗證碼識彆腳本。爬 ...

前言

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯繫我們以作處理。

用Python也差不多一年多了，Python應用最多的場景還是Web快速開發、爬蟲、自動化運維：寫過簡單網站、寫過自動發帖腳本、寫過收發郵件腳本、寫過簡單驗證碼識彆腳本。

爬蟲在開發過程中也有很多復用的過程，這裡總結一下，以後也能省些事情。

1、基本抓取網頁

get方法

post方法

2、使用代理IP

在開發爬蟲過程中經常會遇到IP被封掉的情況，這時就需要用到代理IP；

在urllib2包中有ProxyHandler類，通過此類可以設置代理訪問網頁，如下代碼片段：

3、Cookies處理

cookies是某些網站為了辨別用戶身份、進行session跟蹤而儲存在用戶本地終端上的數據(通常經過加密)，python提供了cookielib模塊用於處理cookies，cookielib模塊的主要作用是提供可存儲cookie的對象，以便於與urllib2模塊配合使用來訪問Internet資源。

代碼片段：

關鍵在於CookieJar()，它用於管理HTTP cookie值、存儲HTTP請求生成的cookie、向傳出的HTTP請求添加cookie的對象。整個cookie都存儲在記憶體中，對CookieJar實例進行垃圾回收後cookie也將丟失，所有過程都不需要單獨去操作。

手動添加cookie：

4、偽裝成瀏覽器

某些網站反感爬蟲的到訪，於是對爬蟲一律拒絕請求。所以用urllib2直接訪問網站經常會出現HTTP Error 403: Forbidden的情況。

對有些 header 要特別留意，Server 端會針對這些 header 做檢查：

1.User-Agent 有些 Server 或 Proxy 會檢查該值，用來判斷是否是瀏覽器發起的 Request。

2.Content-Type 在使用 REST 介面時，Server 會檢查該值，用來確定 HTTP Body 中的內容該怎樣解析。

這時可以通過修改http包中的header來實現，代碼片段如下：

5、驗證碼的處理

對於一些簡單的驗證碼，可以進行簡單的識別。本人也只進行過一些簡單的驗證碼識別。但是有些反人類的驗證碼，比如12306，可以通過打碼平臺進行人工打碼，當然這是要付費的。

6、gzip壓縮

有沒有遇到過某些網頁，不論怎麼轉碼都是一團亂碼。哈哈，那說明你還不知道許多web服務具有發送壓縮數據的能力，這可以將網路線路上傳輸的大量數據消減 60% 以上。這尤其適用於 XML web 服務，因為 XML 數據的壓縮率可以很高。

但是一般伺服器不會為你發送壓縮數據，除非你告訴伺服器你可以處理壓縮數據。

於是需要這樣修改代碼：

這是關鍵：創建Request對象，添加一個 Accept-encoding 頭信息告訴伺服器你能接受 gzip 壓縮數據。

然後就是解壓縮數據：

7、多線程併發抓取

單線程太慢的話，就需要多線程了，這裡給個簡單的線程池模板這個程式只是簡單地列印了1-10，但是可以看出是併發的。

雖然說Python的多線程很雞肋，但是對於爬蟲這種網路頻繁型，還是能一定程度提高效率的。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Spring Boot 教程 (4) - swagger-ui

Spring Boot 教程 swagger ui 1. 什麼是Swagger? Swagger™的目標是為REST APIs 定義一個標準的，與語言無關的介面，使人和電腦在看不到源碼或者看不到文檔或者不能通過網路流量檢測的情況下能發現和理解各種服務的功能。當服務通過Swagger定義，消費者就能 ...
Spring Boot 教程 (3) - RESTful

Spring Boot 教程 RESTful 1. RESTful風格 1.1 簡介與特點 RESTful是一種網路應用程式的設計風格和開發方式，基於 "HTTP" ，可以使用 "XML" 格式定義或 "JSON" 格式定義。RESTful適用於移動互聯網廠商作為業務使能介面的場景，實現第三方 "O ...
Python小技巧：如何批量更新已安裝的庫？

眾所周知，升級某個庫（假設為 xxx），可以用命令，或者簡寫成。如果有多個庫，可以依次寫在 xxx 後面，以空格間隔。那麼，如何簡單優雅地批量更新系統中全部已安裝的庫呢？接下來我們直奔主題，帶大家學習幾種方法/騷操作吧！方法一：pip list 結合 Linux 命令命令可以查詢已安裝的 ...
Redis持久化過程的監控及優化

Redis持久化過程一直是影響redis性能的常見因素，如何監控持久化以及如何優化持久化過程呢？下麵我們就一起來看看吧。 fork的監控及優化不管是使用哪種持久化，RDB持久化或AOF重寫，主進程都會fork出一個子進程，在子進程里完成rdb文件的生成或aof的重寫。fork操作對於操作系統來說屬 ...
Spring MVC必須知道的執行流程

Spring MVC的執行流程一、名詞解釋 1、前端控制器(DispatcherServlet) 接收請求，響應結果，相當於轉發器，中央處理器 2、處理器映射器(HandlerMapping) 根據請求的url查找Handler(處理器/Controller) 可以通過XML和註解方式實現映射。 ...
本不想去阿裡，3面過後竟然過了，一周後收到offer，定級P6+

這是一個群友分享出來的一次阿裡巴巴面試題，介紹一下，渣渣雙非本，想要隨緣求offer,他說他知道自己的菜，沒想到還面過了，所以我就找他要了這次的面試經歷，來告訴大家，不要覺得自己菜，就不敢去大廠面試，可能就是因為你的菜而收到offer了。 ...
設計模式 ~ 享元模式

概念內部狀態、外部狀態、享元池角色 & UMLDemo: 編輯器圖片重用 - JavaReference概念享元模式（Flyweight Pattern），是以共用的方式，對大量細粒度對象重用，來減少記憶體的使用（避免大量重覆地創建、銷毀對象）。名稱中的Flyweight，是搏擊比賽中體重級別... ...
針對kafka_2.13版本測試過程中的一些坑

聲明：這是在windows10上進行kafka_2.13demo搭建時的過程記錄，提供給同學們參考。 1.jdk先要裝一下。 2.先安裝zookeeper，這裡不贅述，貼一個鏈接 https://blog.csdn.net/ring300/article/details/80446918。記得測試一 ...