精通Python網路爬蟲這是一本實戰性的網路爬蟲秘笈,不僅講解瞭如何編寫爬蟲,而且還講解了流行的網路爬蟲的使用。 點擊此處下載 提取碼:h5nn 全書分為4個部分:第壹部分對網路爬蟲做了概要性的介紹,主要介紹了網路爬蟲的常識和所涉及的技術概覽;第二部分是本書的重點之一,詳細講解了網路爬蟲的核心技術, ...
精通Python網路爬蟲這是一本實戰性的網路爬蟲秘笈,不僅講解瞭如何編寫爬蟲,而且還講解了流行的網路爬蟲的使用。
提取碼:h5nn
全書分為4個部分:第壹部分對網路爬蟲做了概要性的介紹,主要介紹了網路爬蟲的常識和所涉及的技術概覽;第二部分是本書的重點之一,詳細講解了網路爬蟲的核心技術,包括網路爬蟲的實現原理與實現技術、Urllib庫和URLError庫的異常處理、正則表達式與Cookie的使用、Fiddler的使用、爬蟲的瀏覽器偽裝技術、爬蟲的定向抓取技術等;第三部分講解了流行的爬蟲框架Scrapy的使用、架構和高級應用,是目前關於Scrapy詳細的講解;第四部分是3個實戰案例,講解了博客爬蟲、圖片爬蟲和模擬登陸爬蟲的編寫方法。
本書從技術、工具與實戰3個維度講解了Python網路爬蟲:
技術維度:詳細講解了Python網路爬蟲實現的核心技術,包括網路爬蟲的工作原理、如何用urllib庫編寫網路爬蟲、爬蟲的異常處理、正則表達式、爬蟲中Cookie的使用、爬蟲的瀏覽器偽裝技術、定向爬取技術、反爬蟲技術,以及如何自己動手編寫網路爬蟲;
工具維度:以流行的Python網路爬蟲框架Scrapy為對象,詳細講解了Scrapy的功能使用、高級技巧、架構設計、實現原理,以及如何通過Scrapy來更便捷、高效地編寫網路爬蟲;
實戰維度:以實戰為導向,是本書的主旨,除了完全通過手動編程實現網路爬蟲和通過Scrapy框架實現網路爬蟲的實戰案例以外,本書還有博客爬取、圖片爬取、模擬登錄等多個綜合性的網路爬蟲實踐案例。
作者在Python領域有非常深厚的積累,不僅精通Python網路爬蟲,在Python機器學習、Python數據分析與挖掘、Python Web開發等多個領域都有豐富的實戰經驗。
目錄
第一篇 理論基礎篇
第1章 什麼是網路爬蟲 3
第2章 網路爬蟲技能總覽 9
第二篇 核心技術篇
第3章 網路爬蟲實現原理與實現技術 15
第4章 Urllib庫與URLError異常處理 29
第5章 正則表達式與Cookie的使用 52
第6章 手寫Python爬蟲 73
第7章 學會使用Fiddler 99
第8章 爬蟲的瀏覽器偽裝技術 114
第9章 爬蟲的定向爬取技術 122
第三篇 框架實現篇
第10章 瞭解Python爬蟲框架 133
第11章 爬蟲利器——Scrapy安裝與配置 141
第12章 開啟Scrapy爬蟲項目之旅 162
第13章 Scrapy核心架構 214
第14章 Scrapy中文輸出與存儲 220
第15章 編寫自動爬取網頁的爬蟲 231
第16章 CrawlSpider 243
第17章 Scrapy高級應用 250
第四篇 項目實戰篇
第18章 博客類爬蟲項目 263
第19章 圖片類爬蟲項目 276
第20章 模擬登錄爬蟲項目 283