Scrapy框架-Spider和CrawlSpider的區別

-Advertisement-

[TOC] 1.目標爬取每個頁面鏈接的內部內容和投訴信息 2.方法1：通過Spider爬取 python coding: utf 8 import scrapy from dongguanSpider.items import DongguanItem class SunSpider(scrapy ...

1.目標
2.方法1：通過Spider爬取
3. 通過CrawlSpider爬取

1.目標

http://wz.sun0769.com/index.php/question/questionType?type=4&page=

爬取每個頁面鏈接的內部內容和投訴信息

2.方法1：通過Spider爬取

# -*- coding: utf-8 -*-
import scrapy
from dongguanSpider.items import DongguanItem

class SunSpider(scrapy.Spider):
    name = 'sun'
    allowed_domains = ['wz.sun0769.com']
    url = 'http://wz.sun0769.com/index.php/question/questionType?type=4&page='
    offset = 0

    start_urls = [url + str(offset)]


    def parse(self, response):
        # 每一頁的所有帖子的鏈接集合
        links = response.xpath('//div[@class="greyframe"]/table//td/a[@class="news14"]/@href').extract()
        # 迭代取出集合里的鏈接
        for link in links:
            # 提取列表裡每個帖子的鏈接，發送請求並調用parse——item來處理
            yield scrapy.Request(link, callback=self.parse_item)

        # 頁面終止條件成立前，會一直自增offset的值，併發送新的頁面請求，調用parse方法處理
        if self.offset<=71160:
            self.offset +=30

            yield scrapy.Request(self.url + str(self.offset), callback=self.parse)


    def parse_item(self, response):

        item = DongguanItem()

        item['title'] = response.xpath('//div[@class="wzy1"]/table[1]//tr/td[2]/span[1]/text()').extract()[0].split('：')[-1]
        item['url'] = response.url
        item['number'] = response.xpath('//div[@class="wzy1"]/table[1]//tr/td[2]/span[2]/text()').extract()[0].split(':')[-1]

        # 是否是圖片
        content_pic = response.xpath('//div[@class="textpic"]/img/@src').extract()

        if len(content_pic)==0:
            content_no_pic = response.xpath('//div[@class="wzy1"]/table[2]//tr/td/text()').extract()[0]
            item['content'] = "".join(content_no_pic).replace("\xa0", "")
        else:
            item['content'] = "".join(content_pic[0]).replace("\xa0", "")

        yield item

3. 通過CrawlSpider爬取

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from dongguan.items import DongguanItem


class SunSpider(CrawlSpider):
    name = 'sun'
    allowed_domains = ['wz.sun0769.com']
    start_urls = ['http://wz.sun0769.com/index.php/question/questionType?type=4&page=30']

    rules = [
        Rule(LinkExtractor(allow=('type=4&page=\d+'))),
        Rule(LinkExtractor(allow = ('/html/question/\d+/\d+.shtml')), callback = 'parseDongguan')
    ]

    def parseDongguan(self, response):

        item = DongguanItem()


        item['title'] = response.xpath('//div[@class="wzy1"]/table[1]//tr/td[2]/span[1]/text()').extract()[0].split('：')[-1]
        item['url'] = response.url
        item['number'] = response.xpath('//div[@class="wzy1"]/table[1]//tr/td[2]/span[2]/text()').extract()[0].split(':')[-1]

        # 是否是圖片
        content_pic = response.xpath('//div[@class="textpic"]/img/@src').extract()

        if len(content_pic)==0:
            content_no_pic = response.xpath('//div[@class="wzy1"]/table[2]//tr/td/text()').extract()[0]
            item['content'] = "".join(content_no_pic).replace("\xa0", "")
        else:
            item['content'] = "".join(content_pic[0]).replace("\xa0", "")

        yield item

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

10大經典排序演算法動圖演示

1、冒泡排序 2、選擇排序 3、插入排序 4、希爾排序 5、歸併排序 6、快速排序 7、堆排序 8、計數排序 9、桶排序 10、基數排序 ...
C-sizeof和strlen區別,以及sizeof如何計算結構體大小

sizeof和strlen區別 sizeof是關鍵字,在編譯時就能計算出值,可以計算任何類型 strlen是函數,只有在運行時才能去計算,且只能計算字元型的. 對於數組時,strlen是判斷’\0’為標誌結尾的,而sizeof則計算的是數組整個空間示例如下: 列印如下: 可以看到當我們的buf1沒有 ...
BugkuCTF~代碼審計~WriteUp

第一題：extract變數覆蓋知識簡介 extract()函數語法：題目信息 Topic Link：http://123.206.87.240:9009/1.php 利用extract()函數的變數覆蓋漏洞原理構造payload 漏洞產生原因：extract()函數當只有一個參數時，預設的第二參 ...
python—爬蟲偽裝成瀏覽器的三種方法

好多網站對於爬蟲中沒有進行瀏覽器偽裝的會進行反爬，以糗事百科網站為例下麵提供了三種方法添加headers，使爬蟲能夠偽裝成瀏覽器訪問。備註：方法二和方法三中省略了方法一：通過opener添加header 方法二：通過opener批量添加header 方法三：通過Request添加heade ...
SpringBoot項目在IntelliJ IDEA中實現熱部署

實際開發過程中，經常會修改代碼重啟應用，每次手動重啟既麻煩開發效率又低，所以熱部署對於開發來說顯得十分必要，本文將介紹如何在IntelliJ IDEA（版本2018.2.5）中實現SpringBoot項目熱部署。本文使用spring-boot-devtools實現的熱部署，按照下麵兩個步驟操作完成 ...
Two Sum - 新手上路

不是電腦相關專業畢業的，從來沒用過leetcode，最近在學習數據結構和演算法，用leetcode練練手。新手上路，代碼如有不妥之處，儘管指出來。今天抽空做的第一個題：Two Sum（最簡單的呃呃呃）題目如下：解決思路：現有數組nums[p-r]，首先將nums從小至大排序，然後將nums ...
二分查找-最基本的實現-小白初識

二分查找特別好理解，就類似於快排和歸併當中用到的分治的思想，每次取中間數與目標數相比較，然後確定是大了還是小了，區間折半。就比如：小紅選中了1-100中的某個數字（這個數字是56），要小明來猜，產生如下對話：小明第一次猜測：68 小紅：大了小明第二次猜測：35 小紅：小了小明第三次猜測：5 ...
Perl信號處理

信號處理操作系統可以通過信號(signal)處理機制來實現一些功能：程式註冊好待監視的信號處理機制，在程式運行過程中如果產生了對應的信號，則會按照註冊好的處理方式進行處理。 signal基礎每個進程都記錄了一個信號(signal)索引表，並註冊了各種信號的處理方式，每當收到信號的時候，會立即停止 ...