scrapy入門

来源:https://www.cnblogs.com/Lclog/archive/2018/12/13/10103976.html
-Advertisement-
Play Games

什麼是scrapy? scrapy是一個為了爬去網站數據,提取結構性數據而編寫的應用框架,我們只需要實現少量的代碼,就能夠快速的抓取 scrapy使用了 Twisted 非同步網路框架,可以加快我們的下載速度 非同步和非阻塞的區別 非同步:調用在發佈之後,這個調用就直接返回,不管有無結果 非阻塞:關註的是 ...


什麼是scrapy?

scrapy是一個為了爬去網站數據,提取結構性數據而編寫的應用框架,我們只需要實現少量的代碼,就能夠快速的抓取

scrapy使用了 Twisted 非同步網路框架,可以加快我們的下載速度

非同步和非阻塞的區別

非同步:調用在發佈之後,這個調用就直接返回,不管有無結果
非阻塞:關註的是程式在等待調用結果(消息,返回值)時的狀態,指在不能立刻得到結果之前,該調用不會阻塞當前線程

安裝scrapy

直接安裝可能會報錯

  • 第一步 下載Twisted
  • 第二步 安裝Twisted
    • 進入到剛剛下載的Twisted所在的目錄,執行 pip install Twisted‑18.9.0‑cp36‑cp36m‑win_amd64.whl(剛剛下載的文件)
  • 第三部 安裝scrapy
    • pip install scrapy

scrapy項目流程

  • 創建項目
    • scrapy startproject 項目名
    • 如:scrapy startproject Myspider
  • 創建爬蟲
    • cd 項目名
    • 如:cd Myspider
    • scrapy genspider <爬蟲名字> <限制訪問的網站(allowed_domains)>
    • 如:scrapy genspider itcast itcast.cn
  • 啟動爬蟲
    • scrapy crawl 爬蟲名
    • 如:scrapy crawl itcast
  • 完善spider
  • 完善管道

完善spider

  • parse方法必須有,用來處理start_urls對應的響應
  • extract() response.xpath()從中提取數據的方法,沒有就返回一個空列表

數據提取url地址補全

  • 1.手動字元串相加
  • 2.urllib.parse.urljoin(baseurl.url)
    • 後面的url會根據baseurl進行url地址的拼接
  • 3.response.follow(url, callback)
    • 能夠根據response的地址把url拼接完整,構造成request對象

scrapy構造請求

  • scrapy.Request(url, callback, meta, dont_filter=False)
    • callback:url地址的響應的處理函數
    • meta:實現在不同的解析函數中傳遞數據
    • dont_filter:預設是Faslse表示過濾,scrapy請求過的url地址,在當前的運行程式中

      ---恢復內容結束---

      ### 什麼是scrapy?
      scrapy是一個為了爬去網站數據,提取結構性數據而編寫的應用框架,我們只需要實現少量的代碼,就能夠快速的抓取

scrapy使用了 Twisted 非同步網路框架,可以加快我們的下載速度

非同步和非阻塞的區別

非同步:調用在發佈之後,這個調用就直接返回,不管有無結果
非阻塞:關註的是程式在等待調用結果(消息,返回值)時的狀態,指在不能立刻得到結果之前,該調用不會阻塞當前線程

安裝scrapy

直接安裝可能會報錯

  • 第一步 下載Twisted
  • 第二步 安裝Twisted
    • 進入到剛剛下載的Twisted所在的目錄,執行 pip install Twisted‑18.9.0‑cp36‑cp36m‑win_amd64.whl(剛剛下載的文件)
  • 第三部 安裝scrapy
    • pip install scrapy

scrapy項目流程

  • 創建項目
    • scrapy startproject 項目名
    • 如:scrapy startproject Myspider
  • 創建爬蟲
    • cd 項目名
    • 如:cd Myspider
    • scrapy genspider <爬蟲名字> <限制訪問的網站(allowed_domains)>
    • 如:scrapy genspider itcast itcast.cn
  • 啟動爬蟲
    • scrapy crawl 爬蟲名
    • 如:scrapy crawl itcast
  • 完善spider
  • 完善管道

完善spider

  • parse方法必須有,用來處理start_urls對應的響應
  • extract() response.xpath()從中提取數據的方法,沒有就返回一個空列表

數據提取url地址補全

  • 1.手動字元串相加
  • 2.urllib.parse.urljoin(baseurl.url)
    • 後面的url會根據baseurl進行url地址的拼接
  • 3.response.follow(url, callback)
    • 能夠根據response的地址把url拼接完整,構造成request對象

scrapy構造請求

  • scrapy.Request(url, callback, meta, dont_filter=False)
    • callback:url地址的響應的處理函數
    • meta:實現在不同的解析函數中傳遞數據
    • dont_filter:預設是Faslse表示過濾,表示請求過的url地址,不會被再次請求

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 面向對象的語言有一個標誌,那就是它們都有類的概念,而通過類可以創建任意多個具有相同屬性和方法的對象。 理解對象 創建自定義對象的最簡單的方法就是創建一個Object的實例,然後再為它添加屬性和方法。例如: 同樣上面的例子可以通過對象字面量語法寫成如下: 屬性類型 ECMAScript中有兩種屬性:數 ...
  • Steps步驟條組件源碼: steps.vue step.vue ...
  • 1、Node.js簡介 簡單的說 Node.js 就是運行在服務端的 JavaScript。Node.js 是一個基於 Chrome V8 引擎的 JavaScript 運行環境。Node.js 使用了一個事件驅動、非阻塞式 I/O 的模型,使其輕量又高效。Node.js 的包管理器 npm,是全球 ...
  • 如何學好面向對象? 面向對象雖然只有三個特性,封裝、繼承、多態,但是真正面向對象卻是說的容易做起來困難。但是,還是有一定的規則可尋的, 要學好面向對象,必須掌握設計模式 。 什麼是設計模式? 設計模式(Design pattern):是一套被反覆使用、多數人知曉的、經過分類編目的、代碼設計經驗的總結 ...
  • 本文介紹了Java驗證的幾種機制,包括JPA驗證,Bean驗證,實體監聽器和事務監聽器。通過介紹希望可以在Java項目整體的驗證方面提供一些參考。 ...
  • 解釋器模式是一種不很常用的模式,但是比如正則表達式就是一種解釋器模式的思維,所以儘管實際編碼中不常用,理解解釋器模式的含義很重要,本文對解釋器模式進行了簡單的介紹,並且給出了Java代碼示例,介紹瞭解釋器模式的意圖結構。 ...
  • 領域驅動設計理解&總結 這篇文章主要是通讀《實現領域驅動設計》之後自己的理解和總結(同時也參照一些博文的分析來加深自己的理解); 有些疑問是自定義內容,雖然有自己的理解,但依然感覺較為抽象,後續會通過實踐來理解其中的精妙之處。 ...
  • 前言 開心一刻 今天上課不小心睡著了,結果被老師叫起來回答問題,這是背景。無奈之下看向同桌尋求幫助,同桌小聲說到選C,結果周圍的人都說選C,向同桌投去一個感激的眼神後大聲說道選C。剛說完教室就笑開了,老師一臉恨鐵不成鋼的表情說選你個頭,我叫你翻譯文言文你選C!你出去,你給我出去。看著同桌擠眉弄眼的表 ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...