打造一個健壯高效的網路爬蟲

来源:https://www.cnblogs.com/yangva/archive/2019/01/12/10261337.html
-Advertisement-
Play Games

反爬 / 封 IP 對於封 IP 的情況,可以分為幾種情況來處理: 首先尋找手機站點、App 站點,如果存在此類站點,反爬會相對較弱。 使用代理,如抓取免費代理、購買付費代理、使用 Tor 代理、Socks 代理等。 在代理的基礎上維護自己的代理池,防止代理浪費,保證實時可用。 搭建 ADSL 撥... ...


以下內容轉自爬蟲界大佬崔慶才的文章,傳送門

 

整個分享的主題叫做《健壯高效的網路爬蟲》,本次分享從抓取、解析、存儲、反爬、加速五個方面介紹了利用 Python 進行網路爬蟲開發的相關知識點和技巧,介紹了不同場景下如何採取不同措施高效地進行數據抓取的方法,包括 Web 抓取、App 抓取、數據存儲、代理選購、驗證碼破解、分散式抓取及管理、智能解析等多方面的內容,另外還結合了不同場景介紹了常用的一些工具包,全部內容是我在從事網路爬蟲研究過程以來的經驗精華總結。

爬取

對於爬取來說,我們需要學會使用不同的方法來應對不同情景下的數據抓取任務。

爬取的目標絕大多數情況下要麼是網頁,要麼是 App,所以這裡就分為這兩個大類別來進行了介紹。

對於網頁來說,我又將其劃分為了兩種類別,即服務端渲染和客戶端渲染,對於 App 來說,我又針對介面的形式進行了四種類別的劃分——普通介面、加密參數介面、加密內容介面、非常規協議介面。

所以整個大綱是這樣子的:

  • 網頁爬取
    • 服務端渲染
    • 客戶端渲染
  • App 爬取
    • 普通介面
    • 加密參數介面
    • 加密內容介面
    • 非常規協議介面

爬取 / 網頁爬取

服務端渲染的意思就是頁面的結果是由伺服器渲染後返回的,有效信息包含在請求的 HTML 頁面裡面,比如貓眼電影這個站點。客戶端渲染的意思就是頁面的主要內容由 JavaScript 渲染而成,真實的數據是通過 Ajax 介面等形式獲取的,比如淘寶、微博手機版等等站點。

服務端渲染的情況就比較簡單了,用一些基本的 HTTP 請求庫就可以實現爬取,如 urllib、urllib3、pycurl、hyper、requests、grab 等框架,其中應用最多的可能就是 requests 了。

對於客戶端渲染,這裡我又劃分了四個處理方法:

  • 尋找 Ajax 介面,此種情形可以直接使用 Chrome/Firefox 的開發者工具直接查看 Ajax 具體的請求方式、參數等內容,然後用 HTTP 請求庫模擬即可,另外還可以通過設置代理抓包來查看介面,如 Fiddler/Charles。
  • 模擬瀏覽器執行,此種情形適用於網頁介面和邏輯較為複雜的情況,可以直接以可見即可爬的方式進行爬取,如可以使用 Selenium、Splinter、Spynner、pyppeteer、PhantomJS、Splash、requests-html 等來實現。
  • 直接提取 JavaScript 數據,此種情形適用於真實數據沒有經過 Ajax 介面獲取,而是直接包含在 HTML 結果的某個變數中,直接使用正則表達式將其提取即可。
  • 模擬執行 JavaScript,某些情況下直接模擬瀏覽器執行效率會偏低,如果我們把 JavaScript 的某些執行和加密邏輯摸清楚了,可以直接執行相關的 JavaScript 來完成邏輯處理和介面請求,比如使用 Selenium、PyExecJS、PyV8、js2py 等庫來完成即可。

爬取 / App 爬取

對於 App 的爬取,這裡分了四個處理情況:

  • 對於普通無加密介面,這種直接抓包拿到介面的具體請求形式就好了,可用的抓包工具有 Charles、Fiddler、mitmproxy。
  • 對於加密參數的介面,一種方法可以實時處理,例如 Fiddler、mitmdump、Xposed 等,另一種方法是將加密邏輯破解,直接模擬構造即可,可能需要一些反編譯的技巧。
  • 對於加密內容的介面,即介面返回結果完全看不懂是什麼東西,可以使用可見即可爬的工具 Appium,也可以使用 Xposed 來 hook 獲取渲染結果,也可以通過反編譯和改寫手機底層來實現破解。
  • 對於非常規協議,可以使用 Wireshark 來抓取所有協議的包,或者使用 Tcpdump 來進行 TCP 數據包截獲。

以上便是爬取流程的相關分類和對應的處理方法。

解析

對於解析來說,對於 HTML 類型的頁面來說,常用的解析方法其實無非那麼幾種,正則、XPath、CSS Selector,另外對於某些介面,常見的可能就是 JSON、XML 類型,使用對應的庫進行處理即可。

這些規則和解析方法其實寫起來是很繁瑣的,如果我們要爬上萬個網站,如果每個網站都去寫對應的規則,那麼不就太累了嗎?所以智能解析便是一個需求。

智能解析意思就是說,如果能提供一個頁面,演算法可以自動來提取頁面的標題、正文、日期等內容,同時把無用的信息給刨除,例如上圖,這是 Safari 中自帶的閱讀模式自動解析的結果。

對於智能解析,下麵分為四個方法進行了劃分:

  • readability 演算法,這個演算法定義了不同區塊的不同標註集合,通過權重計算來得到最可能的區塊位置。
  • 疏密度判斷,計算單位個數區塊內的平均文本內容長度,根據疏密程度來大致區分。
  • Scrapyly 自學習,是 Scrapy 開發的組件,指定⻚頁⾯面和提取結果樣例例,其可⾃自學習提取規則,提取其他同類⻚頁⾯面。
  • 深度學習,使⽤用深度學習來對解析位置進⾏行行有監督學習,需要⼤大量量標註數據。

如果能夠容忍一定的錯誤率,可以使用智能解析來大大節省時間。

目前這部分內容我也還在探索中,準確率有待繼續提高。

存儲

存儲,即選用合適的存儲媒介來存儲爬取到的結果,這裡還是分為四種存儲方式來進行介紹。

  • 文件,如 JSON、CSV、TXT、圖⽚、視頻、⾳頻等,常用的一些庫有 csv、xlwt、json、pandas、pickle、python-docx 等。
  • 資料庫,分為關係型資料庫、非關係型資料庫,如 MySQL、MongoDB、HBase 等,常用的庫有 pymysql、pymssql、redis-py、pymongo、py2neo、thrift。
  • 搜索引擎,如 Solr、ElasticSearch 等,便於檢索和實現⽂本匹配,常用的庫有 elasticsearch、pysolr 等。
  • 雲存儲,某些媒體文件可以存到如七⽜牛雲、又拍雲、阿里雲、騰訊雲、Amazon S3 等,常用的庫有 qiniu、upyun、boto、azure-storage、google-cloud-storage 等。

這部分的關鍵在於和實際業務相結合,看看選用哪種方式更可以應對業務需求。

反爬

反爬這部分是個重點,爬蟲現在已經越來越難了,非常多的網站已經添加了各種反爬措施,在這裡可以分為非瀏覽器檢測、封 IP、驗證碼、封賬號、字體反爬等。

下麵主要從封 IP、驗證碼、封賬號三個方面來闡述反爬的處理手段。

反爬 / 封 IP

對於封 IP 的情況,可以分為幾種情況來處理:

  • 首先尋找手機站點、App 站點,如果存在此類站點,反爬會相對較弱。
  • 使用代理,如抓取免費代理、購買付費代理、使用 Tor 代理、Socks 代理等。
  • 在代理的基礎上維護自己的代理池,防止代理浪費,保證實時可用。
  • 搭建 ADSL 撥號代理,穩定高效。

反爬 / 驗證碼

驗證碼分為非常多種,如普通圖形驗證碼、算術題驗證碼、滑動驗證碼、點觸驗證碼、手機驗證碼、掃二維碼等。

  • 對於普通圖形驗證碼,如果非常規整且沒有變形或干擾,可以使用 OCR 識別,也可以使用機器學習、深度學習來進行模型訓練,當然打碼平臺是最方便的方式。
  • 對於算術題驗證碼,推薦直接使用打碼平臺。
  • 對於滑動驗證碼,可以使用破解演算法,也可以模擬滑動。後者的關鍵在於缺口的找尋,可以使用圖片比對,也可以寫基本的圖形識別演算法,也可以對接打碼平臺,也可以使用深度學習訓練識別介面。
  • 對於點觸驗證碼,推薦使用打碼平臺。
  • 對於手機驗證碼,可以使用驗證碼分發平臺,也可以購買專門的收碼設備,也可以人工驗證。
  • 對於掃二維碼,可以人工掃碼,也可以對接打碼平臺。

反爬 / 封賬號

某些網站需要登錄才能爬取,但是一個賬號登錄之後請求過於頻繁會被封號,為了避免封號,可以採取如下措施:

  • 尋找手機站點或 App 站點,此種類別通常是介面形式,校驗較弱。
  • 尋找無登錄介面,儘可能尋找⽆無需登錄即可爬取的介面。
  • 維護 Cookies 池,使⽤用批量賬號模擬登錄,使⽤時隨機挑選可用 Cookies 使⽤即可,實現:https://github.com/Python3WebSpider/CookiesPool。

加速

當爬取的數據量非常大時,如何高效快速地進行數據抓取是關鍵。

常見的措施有多線程、多進程、非同步、分散式、細節優化等。

加速 / 多線程、多進程

爬蟲是網路請求密集型任務,所以使用多進程和多線程可以大大提高抓取效率,如使用 threading、multiprocessing 等。

加速 / 非同步

將爬取過程改成非阻塞形式,當有響應式再進行處理,否則在等待時間內可以運行其他任務,如使用 asyncio、aiohttp、Tornado、Twisted、gevent、grequests、pyppeteer、pyspider、Scrapy 等。

加速 / 分散式

分散式的關鍵在於共用爬取隊列,可以使用 celery、huey、rq、rabbitmq、kafka 等來實現任務隊列的對接,也可以使用現成的框架 pyspider、Scrapy-Redis、Scrapy-Cluster 等。

加速 / 優化

可以採取某些優化措施來實現爬取的加速,如:

  • DNS 緩存
  • 使用更快的解析方法
  • 使用更高效的去重方法
  • 模塊分離化管控

加速 / 架構

如果搭建了分散式,要實現高效的爬取和管理調度、監控等操作,我們可以使用兩種架構來維護我們的爬蟲項目。

  • 將 Scrapy 項目打包為 Docker 鏡像,使用 K8S 控制調度過程。
  • 將 Scrapy 項目部署到 Scrapyd,使用專用的管理工具如 SpiderKeeper、Gerapy 等管理。

以上便是我分享的全部內容,所有的內容幾乎都展開說了,一共講了一個半小時。

 

上面的文字版的總結可能比較簡略,非常建議大家如有時間的話觀看原版視頻分享,裡面還能看到我本人的真面目哦,現在已經上傳到了 Bilibili,鏈接為:https://www.bilibili.com/video/av34379204,大家也可以通過點擊原文或掃碼來查看視頻。

另外對於這部分內容,其實還有我製作的更豐富的思維導圖,預覽圖如下:

 

 

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 先上圖 數據是隨機生成的,前端分頁是直接把資料庫的數據一次性拿出來進行分頁,而後端是你要多少數據我再取出來給你分頁,不是一次性的,前端分頁也叫假分頁。直接複製的時候記得在最後改下你的table ID ...
  • LayaBox案例分享 小程式開篇(1) 不知不覺後端搬磚六年了,回想過去,什麼也沒留下,突然覺得是時候寫點什麼了。 為什麼我要選擇小程式呢,主要是覺得上手簡單,易於傳播,同時可以投放微信廣告為自己賺零花錢,何樂而不為。我的第一個小程式主要是想總結下這幾年的編程積累,同時分享出來。分為基礎內容和實戰 ...
  • 每天記錄自己在學校學到的點點滴滴,讓每天的生活過的更加充實!加油! 註:本次案例簡單實現購物選擇的功能! 實現效果:添加部分產品,左邊為勾選框,右邊為商品和數量選擇,數量可以增加或減少,只有覆選框勾選的時候,添加產品才可以顯示所需金額,下方為商品總價格! html代碼: Jquery代碼: 代碼到這 ...
  • nodejs代碼 // 導入WebSocket模塊: const WebSocket = require('ws'); // 引用Server類: const WebSocketServer = WebSocket.Server; // 實例化: const wss = new WebSocketS ...
  • <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <meta name="viewport" content="width=device-width, initial-scale=1.0"> <meta http-equiv ...
  • 介紹 ES6,也叫ECMAScript2015(以下統稱ES6),是ECMAScript標準的最新版本。這個標準在2015年6月份被正式批准。ES6是js語言很有意義的一次更新,也是2009年ES5被標準化以來第一次重大的更新。主流javascript引擎中的這些新特性正在開發中。 ES6特性完整版 ...
  • npm i https://github.com/iconic/open-iconic.git -D 因為boostrap的css里刪除了圖標 分開了 我們在引入個呵呵。 下載:npm i [email protected] -D由於4.x版本icon文件分離出去所以還需要下載open-iconic: ...
  • 外觀模式隱藏系統的複雜性,並向客戶端提供了一個客戶端可以訪問系統的介面。它想現有的系統添加了一個介面,以隱藏系統的複雜性 ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...