軟體工程實踐專題第一次作業

来源:https://www.cnblogs.com/ScrapyCrawl/archive/2019/03/06/10481009.html
-Advertisement-
Play Games

對伯樂線上所有文章進行爬取 使用scrapy框架 jobbolen.py 解決方案: 由於將一個字元串傳遞給數組導致錯誤 將jobbolen.py中的front_image改成[front_image] ...


對伯樂線上所有文章進行爬取

使用scrapy框架

jobbolen.py

# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request
from urllib import parse
from ScrapyText.items import Article_Item
class JobbolenSpider(scrapy.Spider):
name = 'jobbolen'
allowed_domains = ['blog.jobbole.com']
start_urls = ['http://blog.jobbole.com/all-posts/']

def parse(self, response):
re_nodes= response.css('#archive .floated-thumb .post-thumb a')
for re_node in re_nodes:
image_url=re_node.css("img::attr(src)").extract_first()
re_url=re_node.css('::attr(href)').extract_first()
yield Request(url=parse.urljoin(response.url,re_url),meta={'front_url_image':image_url},callback=self.text_parse)#yield交給scrapy進行自動下載
next_urls=response.css('.next.page-numbers::attr(href)').extract_first()
if next_urls:
yield Request(url=parse.urljoin(response.url, re_url), callback=self.parse)

def text_parse(self,response):
article_item=Article_Item()
re_title = response.css('.entry-header h1::text').extract()[0]
re_text = response.css('.entry p::text').extract()
front_image=response.meta.get("front_url_image","")
article_item["Title"]=re_title
article_item["Text"]=re_text
article_item["Front_image"]=front_image
yield article_item

items.py配置
# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class ScrapytextItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
pass
class Article_Item(scrapy.Item):
Title=scrapy.Field()
Text=scrapy.Field()
Front_image=scrapy.Field()
Front_image_path=scrapy.Field()
setting.py配置
import os
ROBOTSTXT_OBEY = False
IMAGES_URLS_FIELD ="Front_image"#從item中找出那個是要保存的
project_dir=os.path.abspath(os.path.dirname(__file__))
IMAGES_STORE=os.path.join(project_dir,'images')#將圖片保存在本地文件中



main.py
# -*- coding: utf-8 -*-
__auther__="booby"
from scrapy.cmdline import execute
import sys
import os
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(["scrapy","crawl","jobbolen"])


運行出現錯誤:

解決方案:

由於將一個字元串傳遞給數組導致錯誤

將jobbolen.py中的front_image改成[front_image]

運行結果

 

 


提取出文章及標題和封面圖片





















您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一、什麼是適配器模式 定義:適配器模式屬於結構型模式,把一個類的介面變成客戶端所期待的另一種介面,從而使原本介面不匹配而無法一起工作的兩個類能夠在一起工作。 適配器模式又可以分為4種類型,類適配器模式、對象適配器模式、單介面適配器模式(預設適配器模式)和雙向適配器模式。後2種模式的實現比較複雜並且在 ...
  • 單一職責原則 Single Responsibility Principle,簡稱SRP,就一個類而言,應該僅有一個引起它變化的原因。 同價位的相機和手機哪個拍照好? 我覺得說同價位都太謙虛了,低端的千元卡片機完全可以弔打比自身貴至少三五倍價錢的手機,如果是萬元單反,我覺得市場上已經沒有什麼手機的拍 ...
  • 現在辦公要流程化,營銷也有流程,流程現在已經是各種生活活動不可缺少的一部分了。就像這句耳熟能詳的話:“凡事,我們先走個流程嘛!”,在信息化、流程化的背景下。工作流引擎,這個名詞就出現了!那麼,什麼是 工作流引擎呢?所謂工作流引擎是指workflow作為應用系統的一部分,併為之提供對各應用系統有決定作 ...
  • ThreadPoolExecutor 它是線程池最核心的類, 這裡對核心的方法做簡要的剖析(會持續更新),以加深對線程池運行原理的理解。 1. 核心成員變數及相關方法 1 // ctl非常重要,用整型表示,共32位,其中**高3位代表線程池狀態,低29位代表工作線程數**; 2 // 線程池狀態初始 ...
  • 先解釋下什麼是序列化 我們的對象並不只是存在記憶體中,還需要傳輸網路,或者保存起來下次再載入出來用,所以需要Java序列化技術。 Java序列化技術正是將對象轉變成一串由二進位位元組組成的數組,可以通過將二進位數據保存到磁碟或者傳輸網路,磁碟或者網路接收者可以在對象的屬類的模板上來反序列化類的對象,達到 ...
  • 前文 "日語編程語言"撫子" 第三版特色初探" 僅對語言的語法進行了初步瞭解. 之前的語言原型實現嘗試(如 "編程語言試驗之Antlr4+JavaScript實現"圈4"" )之後, 感覺有必要學習"撫子"的實現, 因為它也內建支持線上編程, 應該很有借鑒價值. 開發環境配置 主要參考 "kujir ...
  • 早先就聽聞FriceEngine已有中文介面版本, 可惜沒有機會嘗試. 經原作者 "@大笨蛋千里冰封" (Github賬號 @ice1000 )建議, 在FriceEngine的 "DSL封裝" 的介面基礎上, 添加了對應的中文介面. 下麵的代碼利用了新添的中文介面, 實現了一個圓形向方塊加速撞擊後 ...
  • 前文 "JavaScript實現ZLOGO子集: 前進+轉向" 的示例代碼很累贅, 因此嘗試實現基本的迴圈功能, 使得前面的11行代碼縮減為7行: 源碼和線上演示地址同前文. 修改的語法描述(圈3.g4)不多, 應該已經支持多層迴圈: 但實現上, 暫時先做了單層. 就是將迴圈體內的指令存放起來, 在 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...