Python爬蟲入門教程 23-100 石家莊鏈家租房數據抓取

-Advertisement-

作為一個活躍在京津冀地區的開發者，要閑著沒事就看看`石家莊`這個國際化大都市的一些數據，這篇博客爬取了鏈家網的租房信息，爬取到的數據在後面的博客中可以作為一些數據分析的素材。我們需要爬取的網址為：`https://sjz.lianjia.com/zufang/` ...

1. 寫在前面

作為一個活躍在京津冀地區的開發者，要閑著沒事就看看石家莊這個國際化大都市的一些數據，這篇博客爬取了鏈家網的租房信息，爬取到的數據在後面的博客中可以作為一些數據分析的素材。
我們需要爬取的網址為：https://sjz.lianjia.com/zufang/

2. 分析網址

首先確定一下，哪些數據是我們需要的
在這裡插入圖片描述

可以看到，黃色框就是我們需要的數據。

接下來，確定一下翻頁規律

https://sjz.lianjia.com/zufang/pg1/
https://sjz.lianjia.com/zufang/pg2/
https://sjz.lianjia.com/zufang/pg3/
https://sjz.lianjia.com/zufang/pg4/
https://sjz.lianjia.com/zufang/pg5/
... 
https://sjz.lianjia.com/zufang/pg80/

3. 解析網頁

有了分頁地址，就可以快速把鏈接拼接完畢，我們採用lxml模塊解析網頁源碼，獲取想要的數據。

本次編碼使用了一個新的模塊 fake_useragent ，這個模塊，可以隨機的去獲取一個UA（user-agent），模塊使用比較簡單，可以去百度百度就很多教程。

本篇博客主要使用的是調用一個隨機的UA

self._ua = UserAgent()
self._headers = {"User-Agent": self._ua.random}  # 調用一個隨機的UA

由於可以快速的把頁碼拼接出來，所以採用協程進行抓取，寫入csv文件採用的pandas模塊

from fake_useragent import UserAgent
from lxml import etree
import asyncio
import aiohttp
import pandas as pd

class LianjiaSpider(object):

    def __init__(self):
        self._ua = UserAgent()
        self._headers = {"User-Agent": self._ua.random}
        self._data = list()


    async def get(self,url):
        async with aiohttp.ClientSession() as session:
            try:
                async with session.get(url,headers=self._headers,timeout=3) as resp:
                    if resp.status==200:
                        result = await resp.text()
                        return result
            except Exception as e:
                print(e.args)

    async def parse_html(self):
        for page in range(1,77):
            url = "https://sjz.lianjia.com/zufang/pg{}/".format(page)
            print("正在爬取{}".format(url))
            html = await self.get(url)   # 獲取網頁內容
            html = etree.HTML(html)  # 解析網頁
            self.parse_page(html)   # 匹配我們想要的數據

            print("正在存儲數據....")
            ######################### 數據寫入
            data = pd.DataFrame(self._data)
            data.to_csv("鏈家網租房數據.csv", encoding='utf_8_sig')   # 寫入文件
            ######################### 數據寫入



    def run(self):
        loop = asyncio.get_event_loop()
        tasks = [asyncio.ensure_future(self.parse_html())]
        loop.run_until_complete(asyncio.wait(tasks))


if __name__ == '__main__':
    l = LianjiaSpider()
    l.run()

上述代碼中缺少一個解析網頁的函數，我們接下來把他補全

    def parse_page(self,html):
        info_panel = html.xpath("//div[@class='info-panel']")
        for info in info_panel:
            region = self.remove_space(info.xpath(".//span[@class='region']/text()"))
            zone = self.remove_space(info.xpath(".//span[@class='zone']/span/text()"))
            meters = self.remove_space(info.xpath(".//span[@class='meters']/text()"))
            where = self.remove_space(info.xpath(".//div[@class='where']/span[4]/text()"))

            con = info.xpath(".//div[@class='con']/text()")
            floor = con[0]  # 樓層
            type = con[1]   # 樣式

            agent = info.xpath(".//div[@class='con']/a/text()")[0]

            has = info.xpath(".//div[@class='left agency']//text()")

            price = info.xpath(".//div[@class='price']/span/text()")[0]
            price_pre =  info.xpath(".//div[@class='price-pre']/text()")[0]
            look_num = info.xpath(".//div[@class='square']//span[@class='num']/text()")[0]

            one_data = {
                "region":region,
                "zone":zone,
                "meters":meters,
                "where":where,
                "louceng":floor,
                "type":type,
                "xiaoshou":agent,
                "has":has,
                "price":price,
                "price_pre":price_pre,
                "num":look_num
            }
            self._data.append(one_data)  # 添加數據

不一會，數據就爬取的差不多了。

在這裡插入圖片描述

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

從Redis中刪除大集合對象的方法

Redis中的大集合對象，如set、zset等，如果有上千萬個元素，一般是不能直接用del命令來刪除的，因為del命令可能會耗時幾秒鐘，而redis本身是單線程的，在高併發的情況下會阻塞大量的請求，嚴重時可能引起雪崩。那我們要怎麼來刪除它呢？這裡我們給出一個解決方案，即結合lua腳本來實現刪除大 ...
從json-lib轉成jackson的遇到的問題

從json-lib轉成jackson的遇到的問題問題一：json 字元串，再經過Jackson序列化之後就變成原生字元串了。而json-lib經過再序列化之後，還是json格式的串。針對這種情況，可以寫一個Serializer類，遇到json串的時候就當作原生字元串寫入即可。 <<JsonStr ...
設計模式之橋接模式——Java語言描述

橋接適用於把抽象化和實現化解耦，使得二者可以獨立變化。這種類型的設計模式屬於結構性模式，它通過提供抽象化和實現化之間的橋接結構，來實現二者的解耦 ...
【譯】深入理解C#——在C#中實現單例模式

單例模式是軟體工程中最著名的模式之一。從本質上講，單例是一個只允許創建自身的單個實例的類，並且通常可以簡單地訪問該實例。最常見的是，單例不允許在創建實例時指定任何參數——否則對實例的第二個請求但具有不同的參數可能會有問題！（如果對於具有相同參數的所有請求都應訪問相同的實例，則工廠模式更合適。）本文... ...
嘗試Java，從入門到Kotlin（下）

上篇已提（tu）到（cao）Java中的各種坑。習慣了C 的各種特性和語法糖後，再轉到Java感覺比較彆扭。最後本著反正Java也不是很熟悉，乾脆再折騰折騰其他語言的破罐子破摔的心態，逛了一圈JVM語言，最終決定轉Kotlin。為何選擇Kotlin 項目遭遇人員變動，包括我在內就剩兩個人開發，轉型 ...
Java異常處理：給程式罩一層保險

異常處理機制在一定程度上保證了程式的健壯性，就好像給程式罩了一層保險。 ...
博客目錄

Python基礎部分 Python基礎 Python基礎編碼小數據池&is與==區別深淺拷貝文件操作 Python基礎編碼小數據池&is與==區別深淺拷貝文件操作數據結構 sting tuple list dictionary set 推導式 sting tuple list di ...
用戶代碼與Spring的交互形式，你有總結過嗎？

PS：教科書般的文章太多了，我要追求與眾不同，註意是追求。授人以魚不如授人以漁。相關文章如何慢慢地快速成長起來？你是如何看待Spring容器的，是這樣子嗎？ 👉§認真思考，才能理解深刻我們經常會說我在開發中用到了Spring，這句話沒問題。但仔細思考下，也可以說成我寫的代碼用到了Sprin ...