python爬蟲項目(scrapy-redis分散式爬取房天下租房信息)

-Advertisement-

python爬蟲scrapy項目（二）爬取目標：房天下全國租房信息網站（起始url：http://zu.fang.com/cities.aspx）爬取內容：城市；名字；出租方式；價格；戶型；面積；地址；交通反反爬措施：設置隨機user-agent、設置請求延時操作、 1、開始創建項目 2、進入 ...

python爬蟲scrapy項目（二）

　　爬取目標：房天下全國租房信息網站（起始url：http://zu.fang.com/cities.aspx）

　　爬取內容：城市；名字；出租方式；價格；戶型；面積；地址；交通

　　反反爬措施：設置隨機user-agent、設置請求延時操作、

1、開始創建項目

1 scrapy startproject fang

2、進入fang文件夾，執行啟動spider爬蟲文件代碼，編寫爬蟲文件。

1 scrapy genspider zufang "zu.fang.com"

　　命令執行完，用Python最好的IDE---pycharm打開該文件目錄

3、編寫該目錄下的items.py文件，設置你需要爬取的欄位。

 1 import scrapy
 2 
 3 
 4 class HomeproItem(scrapy.Item):
 5     # define the fields for your item here like:
 6     # name = scrapy.Field()
 7 
 8     city = scrapy.Field()  #城市
 9     title = scrapy.Field()  # 名字
10     rentway = scrapy.Field()  # 出租方式
11     price = scrapy.Field()    #價格
12     housetype = scrapy.Field()  # 戶型
13     area = scrapy.Field()  # 面積
14     address = scrapy.Field()  # 地址
15     traffic = scrapy.Field()  # 交通

4、進入spiders文件夾，打開hr.py文件,開始編寫爬蟲文件

 1 # -*- coding: utf-8 -*-
 2 import scrapy
 3 from homepro.items import HomeproItem
 4 from scrapy_redis.spiders import RedisCrawlSpider
 5 # scrapy.Spider
 6 class HomeSpider(RedisCrawlSpider):
 7     name = 'home'
 8     allowed_domains = ['zu.fang.com']
 9     # start_urls = ['http://zu.fang.com/cities.aspx']
10     
11     redis_key = 'homespider:start_urls'
12     def parse(self, response):
13         hrefs = response.xpath('//div[@class="onCont"]/ul/li/a/@href').extract()
14         for href in hrefs:
15             href = 'http:'+ href
16             yield scrapy.Request(url=href,callback=self.parse_city,dont_filter=True)
17 
18 
19     def parse_city(self, response):
20         page_num = response.xpath('//div[@id="rentid_D10_01"]/span[@class="txt"]/text()').extract()[0].strip('共頁')
21         # print('*' * 100)
22         # print(page_num)
23         # print(response.url)
24 
25         for page in range(1, int(page_num)):
26             if page == 1:
27                 url = response.url
28             else:
29                 url = response.url + 'house/i%d' % (page + 30)
30             print('*' * 100)
31             print(url)
32             yield scrapy.Request(url=url, callback=self.parse_houseinfo, dont_filter=True)
33 
34     def parse_houseinfo(self, response):
35         divs = response.xpath('//dd[@class="info rel"]')
36         for info in divs:
37             city = info.xpath('//div[@class="guide rel"]/a[2]/text()').extract()[0].rstrip("租房")
38             title = info.xpath('.//p[@class="title"]/a/text()').extract()[0]
39             rentway = info.xpath('.//p[@class="font15 mt12 bold"]/text()')[0].extract().replace(" ", '').lstrip('\r\n')
40             housetype = info.xpath('.//p[@class="font15 mt12 bold"]/text()')[1].extract().replace(" ", '')
41             area = info.xpath('.//p[@class="font15 mt12 bold"]/text()')[2].extract().replace(" ", '')
42             addresses = info.xpath('.//p[@class ="gray6 mt12"]//span/text()').extract()
43             address = '-'.join(i for i in addresses)
44             try:
45                 des = info.xpath('.//p[@class ="mt12"]//span/text()').extract()
46                 traffic = '-'.join(i for i in des)
47             except Exception as e:
48                 traffic = "暫無詳細信息"
49 
50             p_name = info.xpath('.//div[@class ="moreInfo"]/p/text()').extract()[0]
51             p_price = info.xpath('.//div[@class ="moreInfo"]/p/span/text()').extract()[0]
52             price = p_price + p_name
53 
54             item = HomeproItem()
55             item['city'] = city
56             item['title'] = title
57             item['rentway'] = rentway
58             item['price'] = price
59             item['housetype'] = housetype
60             item['area'] = area
61             item['address'] = address
62             item['traffic'] = traffic
63             yield item

5、設置setting.py文件，配置scrapy運行的相關內容

 1 # 指定使用scrapy-redis的調度器
 2 SCHEDULER = "scrapy_redis.scheduler.Scheduler"
 3 
 4 # 指定使用scrapy-redis的去重
 5 DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'
 6 
 7 # 指定排序爬取地址時使用的隊列，
 8 # 預設的 按優先順序排序(Scrapy預設)，由sorted set實現的一種非FIFO、LIFO方式。
 9 SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderPriorityQueue'
10 
11 REDIS_HOST = '10.8.153.73'
12 REDIS_PORT = 6379 
13 # 是否在關閉時候保留原來的調度器和去重記錄，True=保留，False=清空
14 SCHEDULER_PERSIST = True

6、然後把代碼發給其他附屬機器,分別啟動.子程式redis鏈接主伺服器redis。

1 redis-cli   -h  主伺服器ip

7、主伺服器先啟動redis-server，再啟動redis-cli

1 lpush homespider:start_urls   起始的url

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

代碼實現SpringMvc

偶然看到一篇100多行實現SpringMvc的博客，閱讀後整理加實現出來。大家共勉！（紙上得來終覺淺，絕知此事要躬行。）實現Spring的部分。代碼解析如下： 1、首先創建Servelt，繼承HttpServlet。覆蓋init/doGet/doPost方法。 2、配置web.xml 2.1、配 ...
Python3面向對象—點和矩形類

Python類練習定義一個類列印Point： Point實例化為一個p1：我們直接列印結果為 __main__.Point` 給實例p1添加屬性 (3, 4) 原點(0, 0)與p1之間的距離：5.0 (3, 4) 定義矩形實例化一個例子r1 (100, 200) 列印矩形的寬度width ...
spring的事務操作(重點)

這篇文章一起來回顧複習下spring的事務操作.事務是spring的重點, 也是面試的必問知識點之一. 說來這次面試期間,也問到了我,由於平時用到的比較少,也沒有關註過這一塊的東西,所以回答的不是特別好,所以借這一篇文章來回顧總結一下,有需要的朋友,也可以點贊收藏一下,複習一下這方面的知識,為年後的 ...
SpringBoot自定義屬性配置以及@ConfigurationProperties註解與@Value註解區別

我們可以在application.properties中配置自定義的屬性值，為了獲取這些值，我們可以使用spring提供的@value註解，還可以使用springboot提供的@ConfigurationProperties註解非常方便的完成屬性值的註入。 ...
Python3 系列之可變參數和關鍵字參數

剛開始接觸 python 的時候，對 python 中的 wargs (可變參數) 和 kwargs (關鍵字參數)的理解不是很透徹，看了一下《Explore Python》一書，裡面對這一部分的描述相對淺顯易懂，這裡依據個人理解進行相關總結。可變參數（ args）對於可變參數可以聯想到 C ...
Python 函數調用&定義函數&函數參數

一.函數調用在python中內置了很多函數，我們可以直接調用。想要調用函數首先要知道函數的名稱及包含的參數，還可以通過查看python官方的文檔：https://docs.python.org/3/library/functions.html 就拿abs()函數來舉例用來返回數值的絕對值 >> ...
rest_framework -- mixins&generics

上面的mixins、generics都是rest_framework里的模塊，我們可以繼承其中的某些類，達到代碼量減少的效果，這裡充分體現出了面向對象的繼承一、mixins模塊二、generics模塊三、通過一個簡單的例子，順帶寫mixins，generics的用處 ...
代理（一）靜態代理，動態代理

昨天面試碰到了面試官問spring的時候，問完ioc，然後下個問題我以為是aop，後來才聽清是動態代理，感覺回答的不是太好，也是好久不接觸 1.靜態代理代理模式也就委托模式。三個角色： 1. Subject抽象主題角色：介面 2. RealSubject具體主題角色：介面的實現類，業務邏輯的具體 ...