軟體工程實踐專題第一次作業

来源:https://www.cnblogs.com/ScrapyCrawl/archive/2019/03/06/10481009.html
-Advertisement-
Play Games

對伯樂線上所有文章進行爬取 使用scrapy框架 jobbolen.py 解決方案: 由於將一個字元串傳遞給數組導致錯誤 將jobbolen.py中的front_image改成[front_image] ...


對伯樂線上所有文章進行爬取

使用scrapy框架

jobbolen.py

# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request
from urllib import parse
from ScrapyText.items import Article_Item
class JobbolenSpider(scrapy.Spider):
name = 'jobbolen'
allowed_domains = ['blog.jobbole.com']
start_urls = ['http://blog.jobbole.com/all-posts/']

def parse(self, response):
re_nodes= response.css('#archive .floated-thumb .post-thumb a')
for re_node in re_nodes:
image_url=re_node.css("img::attr(src)").extract_first()
re_url=re_node.css('::attr(href)').extract_first()
yield Request(url=parse.urljoin(response.url,re_url),meta={'front_url_image':image_url},callback=self.text_parse)#yield交給scrapy進行自動下載
next_urls=response.css('.next.page-numbers::attr(href)').extract_first()
if next_urls:
yield Request(url=parse.urljoin(response.url, re_url), callback=self.parse)

def text_parse(self,response):
article_item=Article_Item()
re_title = response.css('.entry-header h1::text').extract()[0]
re_text = response.css('.entry p::text').extract()
front_image=response.meta.get("front_url_image","")
article_item["Title"]=re_title
article_item["Text"]=re_text
article_item["Front_image"]=front_image
yield article_item

items.py配置
# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class ScrapytextItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
pass
class Article_Item(scrapy.Item):
Title=scrapy.Field()
Text=scrapy.Field()
Front_image=scrapy.Field()
Front_image_path=scrapy.Field()
setting.py配置
import os
ROBOTSTXT_OBEY = False
IMAGES_URLS_FIELD ="Front_image"#從item中找出那個是要保存的
project_dir=os.path.abspath(os.path.dirname(__file__))
IMAGES_STORE=os.path.join(project_dir,'images')#將圖片保存在本地文件中



main.py
# -*- coding: utf-8 -*-
__auther__="booby"
from scrapy.cmdline import execute
import sys
import os
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(["scrapy","crawl","jobbolen"])


運行出現錯誤:

解決方案:

由於將一個字元串傳遞給數組導致錯誤

將jobbolen.py中的front_image改成[front_image]

運行結果

 

 


提取出文章及標題和封面圖片





















您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一、什麼是適配器模式 定義:適配器模式屬於結構型模式,把一個類的介面變成客戶端所期待的另一種介面,從而使原本介面不匹配而無法一起工作的兩個類能夠在一起工作。 適配器模式又可以分為4種類型,類適配器模式、對象適配器模式、單介面適配器模式(預設適配器模式)和雙向適配器模式。後2種模式的實現比較複雜並且在 ...
  • 單一職責原則 Single Responsibility Principle,簡稱SRP,就一個類而言,應該僅有一個引起它變化的原因。 同價位的相機和手機哪個拍照好? 我覺得說同價位都太謙虛了,低端的千元卡片機完全可以弔打比自身貴至少三五倍價錢的手機,如果是萬元單反,我覺得市場上已經沒有什麼手機的拍 ...
  • 現在辦公要流程化,營銷也有流程,流程現在已經是各種生活活動不可缺少的一部分了。就像這句耳熟能詳的話:“凡事,我們先走個流程嘛!”,在信息化、流程化的背景下。工作流引擎,這個名詞就出現了!那麼,什麼是 工作流引擎呢?所謂工作流引擎是指workflow作為應用系統的一部分,併為之提供對各應用系統有決定作 ...
  • ThreadPoolExecutor 它是線程池最核心的類, 這裡對核心的方法做簡要的剖析(會持續更新),以加深對線程池運行原理的理解。 1. 核心成員變數及相關方法 1 // ctl非常重要,用整型表示,共32位,其中**高3位代表線程池狀態,低29位代表工作線程數**; 2 // 線程池狀態初始 ...
  • 先解釋下什麼是序列化 我們的對象並不只是存在記憶體中,還需要傳輸網路,或者保存起來下次再載入出來用,所以需要Java序列化技術。 Java序列化技術正是將對象轉變成一串由二進位位元組組成的數組,可以通過將二進位數據保存到磁碟或者傳輸網路,磁碟或者網路接收者可以在對象的屬類的模板上來反序列化類的對象,達到 ...
  • 前文 "日語編程語言"撫子" 第三版特色初探" 僅對語言的語法進行了初步瞭解. 之前的語言原型實現嘗試(如 "編程語言試驗之Antlr4+JavaScript實現"圈4"" )之後, 感覺有必要學習"撫子"的實現, 因為它也內建支持線上編程, 應該很有借鑒價值. 開發環境配置 主要參考 "kujir ...
  • 早先就聽聞FriceEngine已有中文介面版本, 可惜沒有機會嘗試. 經原作者 "@大笨蛋千里冰封" (Github賬號 @ice1000 )建議, 在FriceEngine的 "DSL封裝" 的介面基礎上, 添加了對應的中文介面. 下麵的代碼利用了新添的中文介面, 實現了一個圓形向方塊加速撞擊後 ...
  • 前文 "JavaScript實現ZLOGO子集: 前進+轉向" 的示例代碼很累贅, 因此嘗試實現基本的迴圈功能, 使得前面的11行代碼縮減為7行: 源碼和線上演示地址同前文. 修改的語法描述(圈3.g4)不多, 應該已經支持多層迴圈: 但實現上, 暫時先做了單層. 就是將迴圈體內的指令存放起來, 在 ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...