軟體工程實踐專題第一次作業

-Advertisement-

對伯樂線上所有文章進行爬取使用scrapy框架 jobbolen.py 解決方案：由於將一個字元串傳遞給數組導致錯誤將jobbolen.py中的front_image改成[front_image] ...

對伯樂線上所有文章進行爬取

使用scrapy框架

jobbolen.py

# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request
from urllib import parse
from ScrapyText.items import Article_Item
class JobbolenSpider(scrapy.Spider):
    name = 'jobbolen'
    allowed_domains = ['blog.jobbole.com']
    start_urls = ['http://blog.jobbole.com/all-posts/']

    def parse(self, response):
        re_nodes= response.css('#archive .floated-thumb .post-thumb a')
        for re_node in re_nodes:
            image_url=re_node.css("img::attr(src)").extract_first()
            re_url=re_node.css('::attr(href)').extract_first()
            yield Request(url=parse.urljoin(response.url,re_url),meta={'front_url_image':image_url},callback=self.text_parse)#yield交給scrapy進行自動下載
        next_urls=response.css('.next.page-numbers::attr(href)').extract_first()
        if next_urls:
            yield Request(url=parse.urljoin(response.url, re_url), callback=self.parse)

    def text_parse(self,response):
        article_item=Article_Item()
        re_title = response.css('.entry-header h1::text').extract()[0]
        re_text = response.css('.entry p::text').extract()
        front_image=response.meta.get("front_url_image","")
        article_item["Title"]=re_title
        article_item["Text"]=re_text
        article_item["Front_image"]=front_image
        yield article_item

items.py配置

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class ScrapytextItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    pass
class Article_Item(scrapy.Item):
    Title=scrapy.Field()
    Text=scrapy.Field()
    Front_image=scrapy.Field()
    Front_image_path=scrapy.Field()

setting.py配置
import os

ROBOTSTXT_OBEY = False

IMAGES_URLS_FIELD ="Front_image"#從item中找出那個是要保存的
project_dir=os.path.abspath(os.path.dirname(__file__))
IMAGES_STORE=os.path.join(project_dir,'images')#將圖片保存在本地文件中



main.py

# -*- coding: utf-8 -*-
__auther__="booby"
from scrapy.cmdline import execute
import sys
import os
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(["scrapy","crawl","jobbolen"])


運行出現錯誤：

解決方案：

由於將一個字元串傳遞給數組導致錯誤

將jobbolen.py中的front_image改成[front_image]

運行結果

提取出文章及標題和封面圖片

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

深入理解設計模式（18）：適配器模式

一、什麼是適配器模式定義：適配器模式屬於結構型模式，把一個類的介面變成客戶端所期待的另一種介面，從而使原本介面不匹配而無法一起工作的兩個類能夠在一起工作。適配器模式又可以分為4種類型，類適配器模式、對象適配器模式、單介面適配器模式（預設適配器模式）和雙向適配器模式。後2種模式的實現比較複雜並且在 ...
六大設計原則

單一職責原則 Single Responsibility Principle，簡稱SRP，就一個類而言，應該僅有一個引起它變化的原因。同價位的相機和手機哪個拍照好？我覺得說同價位都太謙虛了，低端的千元卡片機完全可以弔打比自身貴至少三五倍價錢的手機，如果是萬元單反，我覺得市場上已經沒有什麼手機的拍 ...
全開源ASP.NET工作流快速開發平臺

現在辦公要流程化，營銷也有流程，流程現在已經是各種生活活動不可缺少的一部分了。就像這句耳熟能詳的話：“凡事，我們先走個流程嘛！”，在信息化、流程化的背景下。工作流引擎，這個名詞就出現了！那麼，什麼是工作流引擎呢？所謂工作流引擎是指workflow作為應用系統的一部分，併為之提供對各應用系統有決定作 ...
Java 併發系列（一） ThreadPoolExecutor源碼解析及理解

ThreadPoolExecutor 它是線程池最核心的類, 這裡對核心的方法做簡要的剖析（會持續更新），以加深對線程池運行原理的理解。 1. 核心成員變數及相關方法 1 // ctl非常重要，用整型表示，共32位，其中**高3位代表線程池狀態，低29位代表工作線程數**； 2 // 線程池狀態初始 ...
小伙子，你真的搞懂 transient 關鍵字了嗎？

先解釋下什麼是序列化我們的對象並不只是存在記憶體中，還需要傳輸網路，或者保存起來下次再載入出來用，所以需要Java序列化技術。 Java序列化技術正是將對象轉變成一串由二進位位元組組成的數組，可以通過將二進位數據保存到磁碟或者傳輸網路，磁碟或者網路接收者可以在對象的屬類的模板上來反序列化類的對象，達到 ...
2017-12-22 日語編程語言"撫子"-第三版實現初探

前文 "日語編程語言"撫子" 第三版特色初探" 僅對語言的語法進行了初步瞭解. 之前的語言原型實現嘗試(如 "編程語言試驗之Antlr4+JavaScript實現"圈4"" )之後, 感覺有必要學習"撫子"的實現, 因為它也內建支持線上編程, 應該很有借鑒價值. 開發環境配置主要參考 "kujir ...
2017-12-21 FriceEngine試用與API中文化

早先就聽聞FriceEngine已有中文介面版本, 可惜沒有機會嘗試. 經原作者 "@大笨蛋千里冰封" (Github賬號 @ice1000 )建議, 在FriceEngine的 "DSL封裝" 的介面基礎上, 添加了對應的中文介面. 下麵的代碼利用了新添的中文介面, 實現了一個圓形向方塊加速撞擊後 ...
2017-12-06 JavaScript實現ZLOGO子集: 單層迴圈功能

前文 "JavaScript實現ZLOGO子集: 前進+轉向" 的示例代碼很累贅, 因此嘗試實現基本的迴圈功能, 使得前面的11行代碼縮減為7行: 源碼和線上演示地址同前文. 修改的語法描述(圈3.g4)不多, 應該已經支持多層迴圈: 但實現上, 暫時先做了單層. 就是將迴圈體內的指令存放起來, 在 ...