scrapy入門

来源:https://www.cnblogs.com/Lclog/archive/2018/12/13/10103976.html

-Advertisement-

Play Games

什麼是scrapy？ scrapy是一個為了爬去網站數據，提取結構性數據而編寫的應用框架，我們只需要實現少量的代碼，就能夠快速的抓取 scrapy使用了 Twisted 非同步網路框架，可以加快我們的下載速度非同步和非阻塞的區別非同步：調用在發佈之後，這個調用就直接返回，不管有無結果非阻塞：關註的是 ...

什麼是scrapy？

scrapy是一個為了爬去網站數據，提取結構性數據而編寫的應用框架，我們只需要實現少量的代碼，就能夠快速的抓取

scrapy使用了 Twisted 非同步網路框架，可以加快我們的下載速度

非同步和非阻塞的區別

非同步：調用在發佈之後，這個調用就直接返回，不管有無結果
非阻塞：關註的是程式在等待調用結果（消息，返回值）時的狀態，指在不能立刻得到結果之前，該調用不會阻塞當前線程

安裝scrapy

直接安裝可能會報錯

第一步下載Twisted
- 點擊 https://www.lfd.uci.edu/~gohlke/pythonlibs/
- 搜索 Twisted 選擇與你的python版本相對應的版本
- 查看python版本命令 python -V或著python -version
第二步安裝Twisted
- 進入到剛剛下載的Twisted所在的目錄，執行 pip install Twisted‑18.9.0‑cp36‑cp36m‑win_amd64.whl(剛剛下載的文件)
第三部安裝scrapy
- pip install scrapy

scrapy項目流程

創建項目
- scrapy startproject 項目名
- 如：scrapy startproject Myspider
創建爬蟲
- cd 項目名
- 如：cd Myspider
- scrapy genspider <爬蟲名字> <限制訪問的網站(allowed_domains)>
- 如：scrapy genspider itcast itcast.cn
啟動爬蟲
- scrapy crawl 爬蟲名
- 如：scrapy crawl itcast
完善spider
完善管道

完善spider

parse方法必須有，用來處理start_urls對應的響應
extract() response.xpath()從中提取數據的方法，沒有就返回一個空列表

數據提取url地址補全

1.手動字元串相加
2.urllib.parse.urljoin(baseurl.url)
- 後面的url會根據baseurl進行url地址的拼接
3.response.follow(url, callback)
- 能夠根據response的地址把url拼接完整，構造成request對象

scrapy構造請求

scrapy.Request(url, callback, meta, dont_filter=False)
- callback:url地址的響應的處理函數
- meta：實現在不同的解析函數中傳遞數據
- dont_filter:預設是Faslse表示過濾，scrapy請求過的url地址，在當前的運行程式中
  
  ---恢復內容結束---
  ### 什麼是scrapy？
  scrapy是一個為了爬去網站數據，提取結構性數據而編寫的應用框架，我們只需要實現少量的代碼，就能夠快速的抓取

scrapy使用了 Twisted 非同步網路框架，可以加快我們的下載速度

非同步和非阻塞的區別

非同步：調用在發佈之後，這個調用就直接返回，不管有無結果
非阻塞：關註的是程式在等待調用結果（消息，返回值）時的狀態，指在不能立刻得到結果之前，該調用不會阻塞當前線程

安裝scrapy

直接安裝可能會報錯

第一步下載Twisted
- 點擊 https://www.lfd.uci.edu/~gohlke/pythonlibs/
- 搜索 Twisted 選擇與你的python版本相對應的版本
- 查看python版本命令 python -V或著python -version
第二步安裝Twisted
- 進入到剛剛下載的Twisted所在的目錄，執行 pip install Twisted‑18.9.0‑cp36‑cp36m‑win_amd64.whl(剛剛下載的文件)
第三部安裝scrapy
- pip install scrapy

scrapy項目流程

創建項目
- scrapy startproject 項目名
- 如：scrapy startproject Myspider
創建爬蟲
- cd 項目名
- 如：cd Myspider
- scrapy genspider <爬蟲名字> <限制訪問的網站(allowed_domains)>
- 如：scrapy genspider itcast itcast.cn
啟動爬蟲
- scrapy crawl 爬蟲名
- 如：scrapy crawl itcast
完善spider
完善管道

完善spider

parse方法必須有，用來處理start_urls對應的響應
extract() response.xpath()從中提取數據的方法，沒有就返回一個空列表

數據提取url地址補全

1.手動字元串相加
2.urllib.parse.urljoin(baseurl.url)
- 後面的url會根據baseurl進行url地址的拼接
3.response.follow(url, callback)
- 能夠根據response的地址把url拼接完整，構造成request對象

scrapy構造請求

scrapy.Request(url, callback, meta, dont_filter=False)
- callback:url地址的響應的處理函數
- meta：實現在不同的解析函數中傳遞數據
- dont_filter:預設是Faslse表示過濾，表示請求過的url地址，不會被再次請求

您的分享是我們最大的動力!

-Advertisement-

Play Games

更多相關文章

《JavaScript高級程式設計》筆記：面向對象的程式設計（六）

面向對象的語言有一個標誌，那就是它們都有類的概念，而通過類可以創建任意多個具有相同屬性和方法的對象。理解對象創建自定義對象的最簡單的方法就是創建一個Object的實例，然後再為它添加屬性和方法。例如：同樣上面的例子可以通過對象字面量語法寫成如下：屬性類型 ECMAScript中有兩種屬性：數 ...
element-ui Steps步驟條組件源碼分析整理筆記（九）

Steps步驟條組件源碼： steps.vue step.vue ...
Nodejs安裝

1、Node.js簡介簡單的說 Node.js 就是運行在服務端的 JavaScript。Node.js 是一個基於 Chrome V8 引擎的 JavaScript 運行環境。Node.js 使用了一個事件驅動、非阻塞式 I/O 的模型，使其輕量又高效。Node.js 的包管理器 npm，是全球 ...
如何學好面向對象？

如何學好面向對象？面向對象雖然只有三個特性，封裝、繼承、多態，但是真正面向對象卻是說的容易做起來困難。但是，還是有一定的規則可尋的，要學好面向對象，必須掌握設計模式。什麼是設計模式？設計模式（Design pattern）：是一套被反覆使用、多數人知曉的、經過分類編目的、代碼設計經驗的總結 ...
Java中的數據驗證

本文介紹了Java驗證的幾種機制，包括JPA驗證，Bean驗證，實體監聽器和事務監聽器。通過介紹希望可以在Java項目整體的驗證方面提供一些參考。 ...
解釋器模式 Interpreter 行為型設計模式（十九）

解釋器模式是一種不很常用的模式，但是比如正則表達式就是一種解釋器模式的思維，所以儘管實際編碼中不常用，理解解釋器模式的含義很重要，本文對解釋器模式進行了簡單的介紹，並且給出了Java代碼示例，介紹瞭解釋器模式的意圖結構。 ...
領域驅動設計理解&總結

領域驅動設計理解&總結這篇文章主要是通讀《實現領域驅動設計》之後自己的理解和總結（同時也參照一些博文的分析來加深自己的理解）；有些疑問是自定義內容，雖然有自己的理解，但依然感覺較為抽象，後續會通過實踐來理解其中的精妙之處。 ...
雜談篇之我是怎麼讀源碼的，授之以漁

前言開心一刻今天上課不小心睡著了，結果被老師叫起來回答問題，這是背景。無奈之下看向同桌尋求幫助，同桌小聲說到選C，結果周圍的人都說選C，向同桌投去一個感激的眼神後大聲說道選C。剛說完教室就笑開了，老師一臉恨鐵不成鋼的表情說選你個頭，我叫你翻譯文言文你選C！你出去，你給我出去。看著同桌擠眉弄眼的表 ...

一周排行

-Advertisement-

Play Games

移動開發（一）：使用.NET MAUI開發第一個安卓APP

移動開發（一）：使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說，近來想嘗試開發一款安卓APP，考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP，畢竟是使用Visual Studio開發工具，使用起來也比較的順手，結合微軟官方的教程進行了安卓 ...
wpf ToggleButton選中效果和一個登錄界面

前言 QuestPDF 是一個開源 .NET 庫，用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。項目介紹 QuestPDF 是一個革命性的開源 .NET 庫，它徹底改變了我們生成 PDF 文檔的方 ...
彈幕樹洞項目功能新增篇

項目地址項目後端地址： https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址： ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址： http://tree ...
第27篇 sqlserver2022詳細安裝步驟

話不多說，直接開乾一.下載 1.官方鏈接下載： https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe，運行開始下載SQL server；二. ...
.NET 開源高性能 MQTT 類庫

前言隨著物聯網（IoT）技術的迅猛發展，MQTT（消息隊列遙測傳輸）協議憑藉其輕量級和高效性，已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫，為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。本文將全面介紹 MQTTnet 的核心功能 ...
Serilog文檔翻譯系列（六） - 可用的接收器、增強器、格式化輸出

Serilog支持多種接收器用於日誌存儲，增強器用於添加屬性，LogContext管理動態屬性，支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項，適用於不同需求。 ...
警惕 Visual Studio 屬性求值副作用導致邏輯不符合預期

目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章簡介動態內容網站使用 JavaScript 腳本動態檢索和渲染數據，爬取信息時需要模擬瀏覽器行為，否則獲取到的源碼基本是空的。本文使用的爬取步驟如下：使用 Selenium 獲取渲染後的 HTML 文檔使用 HtmlAgility ...
[使用目前最新版]HybridCLR6.9.0+YooAsset2.2.4實現純C# Unity熱更新方案 (一)

1.前言什麼是熱更新游戲或者軟體更新時，無需重新下載客戶端進行安裝，而是在應用程式啟動的情況下，在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR，Xlua，ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles，Addressable， ...
在 ASP.NET Core Web API 中使用操作篩選器統一處理通用操作

本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺，其實像阿裡雲，騰訊雲上面也可以。首先我們先去互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號註冊完成賬號後，它會送 ...
第28篇如何.net中實現高效可靠數據同步api

通過以下方式可以高效，並保證數據同步的可靠性 1.API設計使用RESTful設計，確保API端點明確，並使用適當的HTTP方法（如POST用於創建，PUT用於更新）。設計清晰的請求和響應模型，以確保客戶端能夠理解預期格式。 2.數據驗證在伺服器端進行嚴格的數據驗證，確保接收到的數據符合預期格 ...

所有分類