恢復內容開始 最近各大一二線城市的房租都有上漲,究竟整體上漲到什麼程度呢?我們也不得而知,於是乎筆者為了一探究竟,便用 Python 爬取了房某下的深圳租房數據。以下是本次的樣本數據: 除去【不限】的數據(因為可能會與後面重疊),總數據量為 16971 ,其中後半部分地區數據量偏少,是由於該區房源確 ...
---恢復內容開始---
最近各大一二線城市的房租都有上漲,究竟整體上漲到什麼程度呢?我們也不得而知,於是乎筆者為了一探究竟,便用 Python 爬取了房某下的深圳租房數據。以下是本次的樣本數據:
除去【不限】的數據(因為可能會與後面重疊),總數據量為 16971 ,其中後半部分地區數據量偏少,是由於該區房源確實不足。
因此,此次調查也並非非常準確,權且當個娛樂項目,供大家觀賞。
統計結果
我們且先看統計結果,然後再看技術分析。深圳房源分佈如下,按區劃分的話,其中福田與南山的房源分佈是最多的。但這兩塊地的房租十分不菲。
房租單價即 1 平方米 1 個月的價格。方塊越大,代表價格越高:
可以看出福田與南山獨占鰲頭,分別是 114.874 與 113.483 ,是其他地區的幾倍。如果以福田 20 平方的房間為例算一下每個月的開銷:
福田 20 平方房間的租金:
114.874 x 20 = 2297.48
再來個兩百的水電、物業:
2297.48 + 200 = 2497.48
我們節儉一點來算的話,每天早餐 10 塊,中午 25 塊,晚飯 25 塊:
2497.48 + 60 x 30 = 4297.48
是的,僅僅是活下來就需要 3997.48 塊。隔斷時間下個館子,每個月買些衣服,交通費,談個女朋友,與女朋友出去逛街,妥妥滴加個 3500:
4297.48 + 3500 = 7697.48
給爸媽一人一千:
7697.48 + 2000 = 9697.48
如果在鄉下沒有寸土寸金的感覺,那麼可以到北上廣深體驗一下,福田區每平方米每天需要 3.829 元。
戶型方面主要以 3 室 2 廳與 2 室 2 廳為主。與小伙伴抱團租房是最好的選擇了,不然與不認識的人一起合租可能會發生一系列讓你不舒服的事情。字體越大,代表戶型數量越多。
租房面積統計,其中 30 - 90 平方米的租房占大多數——所以,組團租房是最好的選擇。
然後是租房描述詞雲,字體越大,標識出現的次數越多。其中【精裝修】占據了很大的部分,說明長租公寓也占領了很大一部分市場。
爬蟲思路
先爬取房某下深圳各個板塊的數據,然後存進 MongoDB 資料庫,最後再進行數據分析。
資料庫部分數據:
/* 1 */
{
"_id" : ObjectId("5b827d5e8a4c184e63fb1325"),
"traffic" : "距沙井電子城公交站約567米。",//交通描述
"address" : "寶安-沙井-名豪麗城",//地址
"price" : 3100,//價格
"area" : 110,//面積
"direction" : "朝南\r\n ",//朝向
"title" : "沙井 名豪麗城精裝三房 家私齊拎包住 高層朝南隨時看房",//標題
"rooms" : "3室2廳",//戶型
"region" : "寶安"//地區
}
爬蟲技術分析和代碼實現
爬蟲涉及到的技術工具如下:
- 請求庫:requests
- HTML 解析:Beautiful Soup
- 詞雲:wordcloud
- 數據可視化:pyecharts
- 資料庫:MongoDB
- 資料庫連接:PyMongo
首先右鍵網頁,查看頁面源碼,找出我們要爬取的部分。
代碼實現,由於篇幅原因只展示主要代碼:(獲取一個頁面的數據)
def getOnePageData(self, pageUrl, reginon="不限"):
rent = self.getCollection(self.region)
self.session.headers.update({
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36'})
res = self.session.get(
pageUrl
)
soup = BeautifulSoup(res.text, "html.parser")
divs = soup.find_all("dd", attrs={"class": "info rel"}) # 獲取需要爬取得 div
for div in divs:
ps = div.find_all("p")
try: # 捕獲異常,因為頁面中有些數據沒有被填寫完整,或者被插入了一條廣告,則會沒有相應的標簽,所以會報錯
for index, p in enumerate(ps): # 從源碼中可以看出,每一條 p 標簽都有我們想要的信息,故在此遍歷 p 標簽,
text = p.text.strip()
print(text) # 輸出看看是否為我們想要的信息
print("===================================")
# 爬取並存進 MongoDB 資料庫
roomMsg = ps[1].text.split("|")
# rentMsg 這樣處理是因為有些信息未填寫完整,導致對象報空
area = roomMsg[2].strip()[:len(roomMsg[2]) - 2]
rentMsg = self.getRentMsg(
ps[0].text.strip(),
roomMsg[1].strip(),
int(float(area)),
int(ps[len(ps) - 1].text.strip()[:len(ps[len(ps) - 1].text.strip()) - 3]),
ps[2].text.strip(),
ps[3].text.strip(),
ps[2].text.strip()[:2],
roomMsg[3],
)
rent.insert(rentMsg)
except:
continue
數據分析:
# 求一個區的房租單價(平方米/元)
def getAvgPrice(self, region):
areaPinYin = self.getPinyin(region=region)
collection = self.zfdb[areaPinYin]
totalPrice = collection.aggregate([{'$group': {'_id': '$region', 'total_price': {'$sum': '$price'}}}])
totalArea = collection.aggregate([{'$group': {'_id': '$region', 'total_area': {'$sum': '$area'}}}])
totalPrice2 = list(totalPrice)[0]["total_price"]
totalArea2 = list(totalArea)[0]["total_area"]
return totalPrice2 / totalArea2
# 獲取各個區 每個月一平方米需要多少錢
def getTotalAvgPrice(self):
totalAvgPriceList = []
totalAvgPriceDirList = []
for index, region in enumerate(self.getAreaList()):
avgPrice = self.getAvgPrice(region)
totalAvgPriceList.append(round(avgPrice, 3))
totalAvgPriceDirList.append({"value": round(avgPrice, 3), "name": region + " " + str(round(avgPrice, 3))})
return totalAvgPriceDirList
# 獲取各個區 每一天一平方米需要多少錢
def getTotalAvgPricePerDay(self):
totalAvgPriceList = []
for index, region in enumerate(self.getAreaList()):
avgPrice = self.getAvgPrice(region)
totalAvgPriceList.append(round(avgPrice / 30, 3))
return (self.getAreaList(), totalAvgPriceList)
# 獲取各區統計樣本數量
def getAnalycisNum(self):
analycisList = []
for index, region in enumerate(self.getAreaList()):
collection = self.zfdb[self.pinyinDir[region]]
print(region)
totalNum = collection.aggregate([{'$group': {'_id': '', 'total_num': {'$sum': 1}}}])
totalNum2 = list(totalNum)[0]["total_num"]
analycisList.append(totalNum2)
return (self.getAreaList(), analycisList)
# 獲取各個區的房源比重
def getAreaWeight(self):
result = self.zfdb.rent.aggregate([{'$group': {'_id': '$region', 'weight': {'$sum': 1}}}])
areaName = []
areaWeight = []
for item in result:
if item["_id"] in self.getAreaList():
areaWeight.append(item["weight"])
areaName.append(item["_id"])
print(item["_id"])
print(item["weight"])
# print(type(item))
return (areaName, areaWeight)
# 獲取 title 數據,用於構建詞雲
def getTitle(self):
collection = self.zfdb["rent"]
queryArgs = {}
projectionFields = {'_id': False, 'title': True} # 用字典指定需要的欄位
searchRes = collection.find(queryArgs, projection=projectionFields).limit(1000)
content = ''
for result in searchRes:
print(result["title"])
content += result["title"]
return content
# 獲取戶型數據(例如:3 室 2 廳)
def getRooms(self):
results = self.zfdb.rent.aggregate([{'$group': {'_id': '$rooms', 'weight': {'$sum': 1}}}])
roomList = []
weightList = []
for result in results:
roomList.append(result["_id"])
weightList.append(result["weight"])
# print(list(result))
return (roomList, weightList)
# 獲取租房面積
def getAcreage(self):
results0_30 = self.zfdb.rent.aggregate([
{'$match': {'area': {'$gt': 0, '$lte': 30}}},
{'$group': {'_id': '', 'count': {'$sum': 1}}}
])
results30_60 = self.zfdb.rent.aggregate([
{'$match': {'area': {'$gt': 30, '$lte': 60}}},
{'$group': {'_id': '', 'count': {'$sum': 1}}}
])
results60_90 = self.zfdb.rent.aggregate([
{'$match': {'area': {'$gt': 60, '$lte': 90}}},
{'$group': {'_id': '', 'count': {'$sum': 1}}}
])
results90_120 = self.zfdb.rent.aggregate([
{'$match': {'area': {'$gt': 90, '$lte': 120}}},
{'$group': {'_id': '', 'count': {'$sum': 1}}}
])
results120_200 = self.zfdb.rent.aggregate([
{'$match': {'area': {'$gt': 120, '$lte': 200}}},
{'$group': {'_id': '', 'count': {'$sum': 1}}}
])
results200_300 = self.zfdb.rent.aggregate([
{'$match': {'area': {'$gt': 200, '$lte': 300}}},
{'$group': {'_id': '', 'count': {'$sum': 1}}}
])
results300_400 = self.zfdb.rent.aggregate([
{'$match': {'area': {'$gt': 300, '$lte': 400}}},
{'$group': {'_id': '', 'count': {'$sum': 1}}}
])
results400_10000 =