小牧用Python 爬取數萬條房產數據,揭秘一線城市生存壓力有多大

来源:https://www.cnblogs.com/qingdeng123/archive/2019/10/24/11734986.html
-Advertisement-
Play Games

恢復內容開始 最近各大一二線城市的房租都有上漲,究竟整體上漲到什麼程度呢?我們也不得而知,於是乎筆者為了一探究竟,便用 Python 爬取了房某下的深圳租房數據。以下是本次的樣本數據: 除去【不限】的數據(因為可能會與後面重疊),總數據量為 16971 ,其中後半部分地區數據量偏少,是由於該區房源確 ...


---恢復內容開始---

最近各大一二線城市的房租都有上漲,究竟整體上漲到什麼程度呢?我們也不得而知,於是乎筆者為了一探究竟,便用 Python 爬取了房某下的深圳租房數據。以下是本次的樣本數據:

除去【不限】的數據(因為可能會與後面重疊),總數據量為 16971 ,其中後半部分地區數據量偏少,是由於該區房源確實不足。

因此,此次調查也並非非常準確,權且當個娛樂項目,供大家觀賞。

統計結果

我們且先看統計結果,然後再看技術分析。深圳房源分佈如下,按區劃分的話,其中福田與南山的房源分佈是最多的。但這兩塊地的房租十分不菲。

房租單價即 1 平方米 1 個月的價格。方塊越大,代表價格越高:

可以看出福田與南山獨占鰲頭,分別是 114.874 與 113.483 ,是其他地區的幾倍。如果以福田 20 平方的房間為例算一下每個月的開銷:

福田 20 平方房間的租金:

114.874 x 20 = 2297.48

再來個兩百的水電、物業:

2297.48 + 200 = 2497.48

我們節儉一點來算的話,每天早餐 10 塊,中午 25 塊,晚飯 25 塊:

2497.48 + 60 x 30 = 4297.48

是的,僅僅是活下來就需要 3997.48 塊。隔斷時間下個館子,每個月買些衣服,交通費,談個女朋友,與女朋友出去逛街,妥妥滴加個 3500:

4297.48 + 3500 = 7697.48

給爸媽一人一千:

7697.48 + 2000 = 9697.48

如果在鄉下沒有寸土寸金的感覺,那麼可以到北上廣深體驗一下,福田區每平方米每天需要 3.829 元。

戶型方面主要以 3 室 2 廳與 2 室 2 廳為主。與小伙伴抱團租房是最好的選擇了,不然與不認識的人一起合租可能會發生一系列讓你不舒服的事情。字體越大,代表戶型數量越多。

租房面積統計,其中 30 - 90 平方米的租房占大多數——所以,組團租房是最好的選擇。

然後是租房描述詞雲,字體越大,標識出現的次數越多。其中【精裝修】占據了很大的部分,說明長租公寓也占領了很大一部分市場。

爬蟲思路

先爬取房某下深圳各個板塊的數據,然後存進 MongoDB 資料庫,最後再進行數據分析。

資料庫部分數據:

/* 1 */
{
 "_id" : ObjectId("5b827d5e8a4c184e63fb1325"),
 "traffic" : "距沙井電子城公交站約567米。",//交通描述
 "address" : "寶安-沙井-名豪麗城",//地址
 "price" : 3100,//價格
 "area" : 110,//面積
 "direction" : "朝南\r\n ",//朝向
 "title" : "沙井 名豪麗城精裝三房 家私齊拎包住 高層朝南隨時看房",//標題
 "rooms" : "3室2廳",//戶型
 "region" : "寶安"//地區
}

爬蟲技術分析和代碼實現

爬蟲涉及到的技術工具如下:

  • 請求庫:requests
  • HTML 解析:Beautiful Soup
  • 詞雲:wordcloud
  • 數據可視化:pyecharts
  • 資料庫:MongoDB
  • 資料庫連接:PyMongo

首先右鍵網頁,查看頁面源碼,找出我們要爬取的部分。

代碼實現,由於篇幅原因只展示主要代碼:(獲取一個頁面的數據)

 def getOnePageData(self, pageUrl, reginon="不限"):
 rent = self.getCollection(self.region)
 self.session.headers.update({
 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36'})
 res = self.session.get(
 pageUrl
 )
 soup = BeautifulSoup(res.text, "html.parser")
 divs = soup.find_all("dd", attrs={"class": "info rel"}) # 獲取需要爬取得 div
​
 for div in divs:
 ps = div.find_all("p")
 try: # 捕獲異常,因為頁面中有些數據沒有被填寫完整,或者被插入了一條廣告,則會沒有相應的標簽,所以會報錯
 for index, p in enumerate(ps): # 從源碼中可以看出,每一條 p 標簽都有我們想要的信息,故在此遍歷 p 標簽,
 text = p.text.strip()
 print(text) # 輸出看看是否為我們想要的信息
 print("===================================")
 # 爬取並存進 MongoDB 資料庫
 roomMsg = ps[1].text.split("|")
 # rentMsg 這樣處理是因為有些信息未填寫完整,導致對象報空
 area = roomMsg[2].strip()[:len(roomMsg[2]) - 2]
 rentMsg = self.getRentMsg(
 ps[0].text.strip(),
 roomMsg[1].strip(),
 int(float(area)),
 int(ps[len(ps) - 1].text.strip()[:len(ps[len(ps) - 1].text.strip()) - 3]),
 ps[2].text.strip(),
 ps[3].text.strip(),
 ps[2].text.strip()[:2],
 roomMsg[3],
 )
 rent.insert(rentMsg)
 except:
 continue

數據分析:

 # 求一個區的房租單價(平方米/元)
 def getAvgPrice(self, region):
 areaPinYin = self.getPinyin(region=region)
 collection = self.zfdb[areaPinYin]
 totalPrice = collection.aggregate([{'$group': {'_id': '$region', 'total_price': {'$sum': '$price'}}}])
 totalArea = collection.aggregate([{'$group': {'_id': '$region', 'total_area': {'$sum': '$area'}}}])
 totalPrice2 = list(totalPrice)[0]["total_price"]
 totalArea2 = list(totalArea)[0]["total_area"]
 return totalPrice2 / totalArea2
​
 # 獲取各個區 每個月一平方米需要多少錢
 def getTotalAvgPrice(self):
 totalAvgPriceList = []
 totalAvgPriceDirList = []
 for index, region in enumerate(self.getAreaList()):
 avgPrice = self.getAvgPrice(region)
 totalAvgPriceList.append(round(avgPrice, 3))
 totalAvgPriceDirList.append({"value": round(avgPrice, 3), "name": region + " " + str(round(avgPrice, 3))})
​
 return totalAvgPriceDirList
​
 # 獲取各個區 每一天一平方米需要多少錢
 def getTotalAvgPricePerDay(self):
 totalAvgPriceList = []
 for index, region in enumerate(self.getAreaList()):
 avgPrice = self.getAvgPrice(region)
 totalAvgPriceList.append(round(avgPrice / 30, 3))
 return (self.getAreaList(), totalAvgPriceList)
​
 # 獲取各區統計樣本數量
 def getAnalycisNum(self):
 analycisList = []
 for index, region in enumerate(self.getAreaList()):
 collection = self.zfdb[self.pinyinDir[region]]
 print(region)
 totalNum = collection.aggregate([{'$group': {'_id': '', 'total_num': {'$sum': 1}}}])
 totalNum2 = list(totalNum)[0]["total_num"]
 analycisList.append(totalNum2)
 return (self.getAreaList(), analycisList)
​
 # 獲取各個區的房源比重
 def getAreaWeight(self):
 result = self.zfdb.rent.aggregate([{'$group': {'_id': '$region', 'weight': {'$sum': 1}}}])
 areaName = []
 areaWeight = []
 for item in result:
 if item["_id"] in self.getAreaList():
 areaWeight.append(item["weight"])
 areaName.append(item["_id"])
 print(item["_id"])
 print(item["weight"])
 # print(type(item))
 return (areaName, areaWeight)
​
 # 獲取 title 數據,用於構建詞雲
 def getTitle(self):
 collection = self.zfdb["rent"]
 queryArgs = {}
 projectionFields = {'_id': False, 'title': True} # 用字典指定需要的欄位
 searchRes = collection.find(queryArgs, projection=projectionFields).limit(1000)
 content = ''
 for result in searchRes:
 print(result["title"])
 content += result["title"]
 return content
​
 # 獲取戶型數據(例如:3 室 2 廳)
 def getRooms(self):
 results = self.zfdb.rent.aggregate([{'$group': {'_id': '$rooms', 'weight': {'$sum': 1}}}])
 roomList = []
 weightList = []
 for result in results:
 roomList.append(result["_id"])
 weightList.append(result["weight"])
 # print(list(result))
 return (roomList, weightList)
​
 # 獲取租房面積
 def getAcreage(self):
 results0_30 = self.zfdb.rent.aggregate([
 {'$match': {'area': {'$gt': 0, '$lte': 30}}},
 {'$group': {'_id': '', 'count': {'$sum': 1}}}
 ])
 results30_60 = self.zfdb.rent.aggregate([
 {'$match': {'area': {'$gt': 30, '$lte': 60}}},
 {'$group': {'_id': '', 'count': {'$sum': 1}}}
 ])
 results60_90 = self.zfdb.rent.aggregate([
 {'$match': {'area': {'$gt': 60, '$lte': 90}}},
 {'$group': {'_id': '', 'count': {'$sum': 1}}}
 ])
 results90_120 = self.zfdb.rent.aggregate([
 {'$match': {'area': {'$gt': 90, '$lte': 120}}},
 {'$group': {'_id': '', 'count': {'$sum': 1}}}
 ])
 results120_200 = self.zfdb.rent.aggregate([
 {'$match': {'area': {'$gt': 120, '$lte': 200}}},
 {'$group': {'_id': '', 'count': {'$sum': 1}}}
 ])
 results200_300 = self.zfdb.rent.aggregate([
 {'$match': {'area': {'$gt': 200, '$lte': 300}}},
 {'$group': {'_id': '', 'count': {'$sum': 1}}}
 ])
 results300_400 = self.zfdb.rent.aggregate([
 {'$match': {'area': {'$gt': 300, '$lte': 400}}},
 {'$group': {'_id': '', 'count': {'$sum': 1}}}
 ])
 results400_10000 = self.zfdb.rent.aggregate([
 {'$match': {'area': {'$gt': 300, '$lte': 10000}}},
 {'$group': {'_id': '', 'count': {'$sum': 1}}}
 ])
 results0_30_ = list(results0_30)[0]["count"]
 results30_60_ = list(results30_60)[0]["count"]
 results60_90_ = list(results60_90)[0]["count"]
 results90_120_ = list(results90_120)[0]["count"]
 results120_200_ = list(results120_200)[0]["count"]
 results200_300_ = list(results200_300)[0]["count"]
 results300_400_ = list(results300_400)[0]["count"]
 results400_10000_ = list(results400_10000)[0]["count"]
 attr = ["0-30平方米", "30-60平方米", "60-90平方米", "90-120平方米", "120-200平方米", "200-300平方米", "300-400平方米", "400+平方米"]
 value = [
 results0_30_, results30_60_, results60_90_, results90_120_, results120_200_, results200_300_, results300_400_, results400_10000_
 ]
 return (attr, value)

數據展示:

 # 展示餅圖
 def showPie(self, title, attr, value):
 from pyecharts import Pie
 pie = Pie(title)
 pie.add("aa", attr, value, is_label_show=True)
 pie.render()
​
 # 展示矩形樹圖
 def showTreeMap(self, title, data):
 from pyecharts import TreeMap
 data = data
 treemap = TreeMap(title, width=1200, height=600)
 treemap.add("深圳", data, is_label_show=True, label_pos='inside', label_text_size=19)
 treemap.render()
​
 # 展示條形圖
 def showLine(self, title, attr, value):
 from pyecharts import Bar
 bar = Bar(title)
 bar.add("深圳", attr, value, is_convert=False, is_label_show=True, label_text_size=18, is_random=True,
 # xaxis_interval=0, xaxis_label_textsize=9,
 legend_text_size=18, label_text_color=["#000"])
 bar.render()
​
 # 展示詞雲
 def showWorkCloud(self, content, image_filename, font_filename, out_filename):
 d = path.dirname(__name__)
 # content = open(path.join(d, filename), 'rb').read()
 # 基於TF-IDF演算法的關鍵字抽取, topK返回頻率最高的幾項, 預設值為20, withWeight
 # 為是否返回關鍵字的權重
 tags = jieba.analyse.extract_tags(content, topK=100, withWeight=False)
 text = " ".join(tags)
 # 需要顯示的背景圖片
 img = imread(path.join(d, image_filename))
 # 指定中文字體, 不然會亂碼的
 wc = WordCloud(font_path=font_filename,
 background_color='black',
 # 詞雲形狀,
 mask=img,
 # 允許最大辭彙
 max_words=400,
 # 最大號字體,如果不指定則為圖像高度
 max_font_size=100,
 # 畫布寬度和高度,如果設置了msak則不會生效
 # width=600,
 # height=400,
 margin=2,
 # 詞語水平擺放的頻率,預設為0.9.即豎直擺放的頻率為0.1
 prefer_horizontal=0.9
 )
 wc.generate(text)
 img_color = ImageColorGenerator(img)
 plt.imshow(wc.recolor(color_func=img_color))
 plt.axis("off")
 plt.show()
 wc.to_file(path.join(d, out_filename))
​
 # 展示 pyecharts 的詞雲
 def showPyechartsWordCloud(self, attr, value):
 from pyecharts import WordCloud
 wordcloud = WordCloud(width=1300, height=620)
 wordcloud.add("", attr, value, word_size_range=[20, 100])
 wordcloud.render()

不管怎樣,最近房租的暴漲真得讓人無能為力。應對外界條件的變動,我們還是應該提升自己的硬實力,這樣才能提升自己的生存能力。

---恢復內容結束---


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • [TOC] Event事件 用來控制線程的執行 出現 ,就會把這個線程設置為False,就不能執行這個任務; 只要有一個線程出現 ,就會告訴Event對象,把有 的用戶全部改為True,剩餘的任務就會立馬去執行。由一些線程去控制另一些線程,中間通過Event。 進程池與線程池 1. 進程池與線程池是 ...
  • Go語言基礎之數組 本文主要介紹Go語言中數組(array)及它的基本使用。 Array ( 數組 ) 數組是同一種數據類型元素的集合。 在Go語言中,數組從聲明時就確定,使用時可以修改數組成員,但是數組大小不可變化。 基本語法: 數組定義: 比如: , 數組的長度必須是常量,並且長度是數組類型的一 ...
  • [TOC]   c++是一種中級語言,是c的擴充,是一種面向對象的程式設計語言,可以運行到多個平臺。這裡直接講語法。   基礎c++模板: javascript 函數類型 函數名(參數表);例如: int max(int x,int y,int z); int ...
  • 恢復內容開始 需要安裝三個庫(requests,BeautifulSoup4,lxml) pip install requests BeautifulSoup4 lxml 彈幕消息會滾動在終端上 且會在當前目錄下生成以主播名字命名的文件 恢復內容結束 ...
  • 1 背景 像我們去面試一些大公司的時候,就會遇到一些關於緩存的問題。可能很多同學都是接觸過,多多少少瞭解一些,但是如果沒有好好記錄這些內容,不熟練精通的話,在真正面試的時候,就很難答出來了。 在我們的平常的項目中多多少少都會使用到緩存,因為一些數據我們沒有必要每次查詢的時候都去查詢到資料庫。 特別是 ...
  • 前言 Redis哨兵模式,用現在流行的話可以說就是一個“哨兵機器人”,給“哨兵機器人”進行相應的配置之後,這個"機器人"可以7*24小時工作,它能能夠自動幫助你做一些事情,如監控,提醒,自動處理故障等。 Redis-sentinel簡介 Redis-sentinel是Redis的作者antirez, ...
  • Spring註解之@Conditional 【1】@Conditional介紹 ​ @Conditional是Spring4新提供的註解,它的作用是按照一定的條件進行判斷,滿足條件給容器註冊bean。 ​ @Conditional源碼: ​ 從代碼中可以看到,需要傳入一個Class數組,並且需要繼承 ...
  • 一.open文件讀取 1.open('file','mode')打開一個文件 file 要打開的文件名,需加路徑(除非是在當前目錄) mode 文件打開的模式 需要手動關閉close 2.with open('file','mode')as... 不需要手動關閉文件 3.'r': 以只讀模式打開(默 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...