爬取xx樓市隨筆

来源:https://www.cnblogs.com/wddzb/archive/2022/11/28/16931093.html
-Advertisement-
Play Games

目標:爬取xx二手房樓市信息自己分析形勢 目的:記錄重溫爬蟲歷程 1、引用包requests,random,time,pandas,bs4 2、查詢:bs4使用方法,re。comple,以及他山之石。 3、思路:簡單應用,直接寫死不用def,class, -url 列表,初始列表後,append添加 ...


目標:爬取xx二手房樓市信息自己分析形勢

目的:記錄重溫爬蟲歷程

1、引用包requests,random,time,pandas,bs4

2、查詢:bs4使用方法,re。comple,以及他山之石。

3、思路:簡單應用,直接寫死不用def,class,

  -url 列表,初始列表後,append添加翻頁url

  -headers,不加也可,網頁寫死的。

  -網頁內數據寫死的,爬網頁即可,適合新手。

  -順序:url-->-->空字典-->headers-->for-->bs4-->append添加字典列表-->pd.to-csv time.sleep(random.randint())

源代碼:

import requests,random,time
import re
import pandas as pd
from bs4 import BeautifulSoup
shuju = {
"房子":[],
'房型':[],
'地址':[],
'面積':[],
'售價':[],
'單價':[],
'中介':[],
'更新時間':[]
}


url = ["https://xxxx"]
urllist= ['https://xxxx'+str(x) for x in range(2,17)]
headers = {
'User-Agent': 'xxxx.56'
}
for i in urllist:
  url.append(i)
gg=0

for xx in url:
  res = requests.get(url=xx,headers=headers)
  respone=BeautifulSoup(res.text,'html.parser')
  all_li = respone.find('ul',class_='item-list').find_all('li')
  for i in all_li:
    name1 = i.find('p',class_='title').find('a',target="_blank").text
    faxing = i.find('p',class_='detail').find('span').text
    address = i.find('span',class_='maps').text
    mianji = i.find('span',class_='area-detail_big').text
    money = i.find('em',class_='prices').text
    danjia = i.find('div',class_='content fl').find('div',class_='about-price').find('p',class_='tag').text
    zj = i.find('p',class_='agents').find('a').text
    uptime = i.find('p',class_='agents').find('span').text
    shuju["房子"].append(name1)
    shuju["房型"].append(faxing)
    shuju["地址"].append(address)
    shuju["面積"].append(mianji)
    shuju["售價"].append(money)
    shuju["單價"].append(danjia)
    shuju["中介"].append(zj)
    shuju["更新時間"].append(uptime)
    gg+=1
    print(danjia)
    time.sleep(random.randint(0,1))
    print('第{}條ok!'.format(gg))


df = pd.DataFrame(shuju)
df.to_csv('xxxx樓市二手房數據.csv',encoding='utf-8-sig')
print('爬完了')

 

 

以上註意縮進,怕忘備查。看得懂代碼的都應知道了,我就不註釋了。

本文來自博客園,作者:稍息22,轉載請註明原文鏈接:https://www.cnblogs.com/wddzb/p/16931093.html


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 前言 此篇博文內容續接的是 UML建模語言、設計原則、創建型設計模式 的內容,有興趣的可以點前面的鏈接去看一下 3.2、行為型 這類設計模式是專門用於:對象間的高效溝通和職責委派 * 3.2.1、責任鏈模式 定義:責任鏈模式又名職責鏈模式,指的是:對某個請求的所有處理構成一條鏈,如果鏈上的某一處理者 ...
  • # 面向對象是非常重要的! # 抽象,是個思想,結構 # 小明 小紅 小雨 都是人 # 海爾洗衣機 海東洗衣機 海西洗衣機 都是洗衣機 # 貓 狗 熊貓 都是動物 # 藍圖 # # class WashingMachine: # 類名一般是大駝峰 # pass # # 特征是屬性 # age = 2 ...
  • 多線程實現socket通信伺服器端代碼 import socket import threading class MyServer(object): def __init__(self): # 初始化socket self.server = socket.socket(socket.AF_INET, ...
  • Filter過濾器 1.Filter過濾器說明 為什麼需要過濾器? 先來看一個例子: 我們在登錄網站頁面時,需要先進行登錄驗證。 用戶訪問的正常的流程應該是: 用戶先通過登錄頁面進行驗證,然後才可以訪問各種頁面。 為了防止用戶繞過登錄驗證,我們需要在每個頁面進行驗證, 獲取session,驗證用戶是 ...
  • 一.小結 1.類是對象的模板。它定義對象的屬性,並提供創建對象的構造方法以及對對象進行操作的方法。 2.類也是一種數據類型。可以用它聲明對象引用變數。對象引用變數中似乎存放了一個對象,但事實上,它包含的只是對該對象的引用。嚴格地講,對象引用變數和對象是不同的,但是大多數情況下,它們的區別是可以忽略的 ...
  • 版權聲明:原創不易,本文禁止抄襲、轉載,侵權必究! 一、pywifi簡介&安裝 開發環境:Windows10 Python3.6.4 第三方庫:pywifi-1.1.12 IDE :PyCharm/Sublime Text pywifi簡介: pywifi是python中一個用於操作無線介面的第三方 ...
  • 巨集在 C 語言中非常重要,但在 C++ 中卻無甚大用,普遍的共識:儘量避免使用巨集 C++ 之父 Bjarne 在《C++ Programming Language》中寫到 Avoid macros 《Effective C++》 條款 2 Prefer const, enum, and inline ...
  • 目錄 一.OpenGL 圖像色階 1.原始圖片 2.效果演示 二.OpenGL 圖像色階源碼下載 三.猜你喜歡 零基礎 OpenGL ES 學習路線推薦 : OpenGL ES 學習目錄 >> OpenGL ES 基礎 零基礎 OpenGL ES 學習路線推薦 : OpenGL ES 學習目錄 >> ...
一周排行
    -Advertisement-
    Play Games
  • 前言 在我們開發過程中基本上不可或缺的用到一些敏感機密數據,比如SQL伺服器的連接串或者是OAuth2的Secret等,這些敏感數據在代碼中是不太安全的,我們不應該在源代碼中存儲密碼和其他的敏感數據,一種推薦的方式是通過Asp.Net Core的機密管理器。 機密管理器 在 ASP.NET Core ...
  • 新改進提供的Taurus Rpc 功能,可以簡化微服務間的調用,同時可以不用再手動輸出模塊名稱,或調用路徑,包括負載均衡,這一切,由框架實現並提供了。新的Taurus Rpc 功能,將使得服務間的調用,更加輕鬆、簡約、高效。 ...
  • 順序棧的介面程式 目錄順序棧的介面程式頭文件創建順序棧入棧出棧利用棧將10進位轉16進位數驗證 頭文件 #include <stdio.h> #include <stdbool.h> #include <stdlib.h> 創建順序棧 // 指的是順序棧中的元素的數據類型,用戶可以根據需要進行修改 ...
  • 前言 整理這個官方翻譯的系列,原因是網上大部分的 tomcat 版本比較舊,此版本為 v11 最新的版本。 開源項目 從零手寫實現 tomcat minicat 別稱【嗅虎】心有猛虎,輕嗅薔薇。 系列文章 web server apache tomcat11-01-官方文檔入門介紹 web serv ...
  • C總結與剖析:關鍵字篇 -- <<C語言深度解剖>> 目錄C總結與剖析:關鍵字篇 -- <<C語言深度解剖>>程式的本質:二進位文件變數1.變數:記憶體上的某個位置開闢的空間2.變數的初始化3.為什麼要有變數4.局部變數與全局變數5.變數的大小由類型決定6.任何一個變數,記憶體賦值都是從低地址開始往高地 ...
  • 如果讓你來做一個有狀態流式應用的故障恢復,你會如何來做呢? 單機和多機會遇到什麼不同的問題? Flink Checkpoint 是做什麼用的?原理是什麼? ...
  • C++ 多級繼承 多級繼承是一種面向對象編程(OOP)特性,允許一個類從多個基類繼承屬性和方法。它使代碼更易於組織和維護,並促進代碼重用。 多級繼承的語法 在 C++ 中,使用 : 符號來指定繼承關係。多級繼承的語法如下: class DerivedClass : public BaseClass1 ...
  • 前言 什麼是SpringCloud? Spring Cloud 是一系列框架的有序集合,它利用 Spring Boot 的開發便利性簡化了分散式系統的開發,比如服務註冊、服務發現、網關、路由、鏈路追蹤等。Spring Cloud 並不是重覆造輪子,而是將市面上開發得比較好的模塊集成進去,進行封裝,從 ...
  • class_template 類模板和函數模板的定義和使用類似,我們已經進行了介紹。有時,有兩個或多個類,其功能是相同的,僅僅是數據類型不同。類模板用於實現類所需數據的類型參數化 template<class NameType, class AgeType> class Person { publi ...
  • 目錄system v IPC簡介共用記憶體需要用到的函數介面shmget函數--獲取對象IDshmat函數--獲得映射空間shmctl函數--釋放資源共用記憶體實現思路註意 system v IPC簡介 消息隊列、共用記憶體和信號量統稱為system v IPC(進程間通信機制),V是羅馬數字5,是UNI ...