爬取xx樓市隨筆_ZenDei技術網路在線

爬取xx樓市隨筆

-Advertisement-

目標：爬取xx二手房樓市信息自己分析形勢目的：記錄重溫爬蟲歷程 1、引用包requests，random，time，pandas，bs4 2、查詢：bs4使用方法，re。comple，以及他山之石。 3、思路：簡單應用，直接寫死不用def，class， -url 列表，初始列表後，append添加 ...

目標：爬取xx二手房樓市信息自己分析形勢

目的：記錄重溫爬蟲歷程

1、引用包requests，random，time，pandas，bs4

2、查詢：bs4使用方法，re。comple，以及他山之石。

3、思路：簡單應用，直接寫死不用def，class，

　　-url 列表，初始列表後，append添加翻頁url

　　-headers，不加也可，網頁寫死的。

　　-網頁內數據寫死的，爬網頁即可，適合新手。

　　-順序：url-->-->空字典-->headers-->for-->bs4-->append添加字典列表-->pd.to-csv time.sleep(random.randint(））

源代碼：

import requests,random,time
import re
import pandas as pd
from bs4 import BeautifulSoup
shuju = {
"房子":[],
'房型':[],
'地址':[],
'面積':[],
'售價':[],
'單價':[],
'中介':[],
'更新時間':[]
}

url = ["https://xxxx"]
urllist= ['https://xxxx'+str(x) for x in range(2,17)]
headers = {
'User-Agent': 'xxxx.56'
}
for i in urllist:
　　url.append(i)
gg=0

for xx in url:
　　res = requests.get(url=xx,headers=headers)
　　respone=BeautifulSoup(res.text,'html.parser')
　　all_li = respone.find('ul',class_='item-list').find_all('li')
　　for i in all_li:
　　　　name1 = i.find('p',class_='title').find('a',target="_blank").text
　　　　faxing = i.find('p',class_='detail').find('span').text
　　　　address = i.find('span',class_='maps').text
　　　　mianji = i.find('span',class_='area-detail_big').text
　　　　money = i.find('em',class_='prices').text
　　　　danjia = i.find('div',class_='content fl').find('div',class_='about-price').find('p',class_='tag').text
　　　　zj = i.find('p',class_='agents').find('a').text
　　　　uptime = i.find('p',class_='agents').find('span').text
　　　　shuju["房子"].append(name1)
　　　　shuju["房型"].append(faxing)
　　　　shuju["地址"].append(address)
　　　　shuju["面積"].append(mianji)
　　　　shuju["售價"].append(money)
　　　　shuju["單價"].append(danjia)
　　　　shuju["中介"].append(zj)
　　　　shuju["更新時間"].append(uptime)
　　　　gg+=1
　　　　print(danjia)
　　　　time.sleep(random.randint(0,1))
　　　　print('第{}條ok!'.format(gg))

df = pd.DataFrame(shuju)
df.to_csv('xxxx樓市二手房數據.csv',encoding='utf-8-sig')
print('爬完了')

以上註意縮進，怕忘備查。看得懂代碼的都應知道了，我就不註釋了。

本文來自博客園，作者：稍息22，轉載請註明原文鏈接：https://www.cnblogs.com/wddzb/p/16931093.html

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

(Java)設計模式：行為型

前言此篇博文內容續接的是 UML建模語言、設計原則、創建型設計模式的內容，有興趣的可以點前面的鏈接去看一下 3.2、行為型這類設計模式是專門用於：對象間的高效溝通和職責委派 * 3.2.1、責任鏈模式定義：責任鏈模式又名職責鏈模式，指的是：對某個請求的所有處理構成一條鏈，如果鏈上的某一處理者 ...
python中的面向對象

# 面向對象是非常重要的！ # 抽象，是個思想，結構 # 小明小紅小雨都是人 # 海爾洗衣機海東洗衣機海西洗衣機都是洗衣機 # 貓狗熊貓都是動物 # 藍圖 # # class WashingMachine: # 類名一般是大駝峰 # pass # # 特征是屬性 # age = 2 ...
使用Python實現多線程、多進程、非同步IO的socket通信

多線程實現socket通信伺服器端代碼 import socket import threading class MyServer(object): def __init__(self): # 初始化socket self.server = socket.socket(socket.AF_INET, ...
day26-過濾器Filter

Filter過濾器 1.Filter過濾器說明為什麼需要過濾器？先來看一個例子：我們在登錄網站頁面時，需要先進行登錄驗證。用戶訪問的正常的流程應該是：用戶先通過登錄頁面進行驗證，然後才可以訪問各種頁面。為了防止用戶繞過登錄驗證，我們需要在每個頁面進行驗證，獲取session，驗證用戶是 ...
Java學習八

一.小結 1.類是對象的模板。它定義對象的屬性，並提供創建對象的構造方法以及對對象進行操作的方法。 2.類也是一種數據類型。可以用它聲明對象引用變數。對象引用變數中似乎存放了一個對象，但事實上，它包含的只是對該對象的引用。嚴格地講，對象引用變數和對象是不同的，但是大多數情況下，它們的區別是可以忽略的 ...
教你用Python破解WiFi，流量自由不再是夢！(附完整源碼)

版權聲明：原創不易，本文禁止抄襲、轉載，侵權必究！一、pywifi簡介&安裝開發環境：Windows10 Python3.6.4 第三方庫：pywifi-1.1.12 IDE ：PyCharm/Sublime Text pywifi簡介： pywifi是python中一個用於操作無線介面的第三方 ...
C++ 之巨集定義

巨集在 C 語言中非常重要，但在 C++ 中卻無甚大用，普遍的共識：儘量避免使用巨集 C++ 之父 Bjarne 在《C++ Programming Language》中寫到 Avoid macros 《Effective C++》條款 2 Prefer const, enum, and inline ...
Windows OpenGL 圖像色階

目錄一.OpenGL 圖像色階 1.原始圖片 2.效果演示二.OpenGL 圖像色階源碼下載三.猜你喜歡零基礎 OpenGL ES 學習路線推薦 : OpenGL ES 學習目錄 >> OpenGL ES 基礎零基礎 OpenGL ES 學習路線推薦 : OpenGL ES 學習目錄 >> ...