用Python把附近的足浴店都給採集了一遍,好兄弟:針不戳~

来源:https://www.cnblogs.com/Qqun261823976/archive/2022/11/12/16884115.html
-Advertisement-
Play Games

前言 嗨嘍,大家好呀~這裡是愛看美女的茜茜吶 又到了學Python時刻~ 我又來了!今天整個好玩的,你們肯定喜歡~ 咱們上班累了,不得好好犒勞一下自己,是吧 ! 於是我整了一手採集附近洗jio的店子,浴皇大帝們,沖鴨~ 話不多說,沖!兄弟們,都是正規的 正規的! 使用環境 python 3.8 解釋 ...


前言

嗨嘍,大家好呀~這裡是愛看美女的茜茜吶

又到了學Python時刻~

 

 

我又來了!今天整個好玩的,你們肯定喜歡~

咱們上班累了,不得好好犒勞一下自己,是吧 !

於是我整了一手採集附近洗jio的店子,浴皇大帝們,沖鴨~

話不多說,沖!兄弟們,都是正規的 正規的!

使用環境

  • python 3.8 解釋器

  • pycharm 編輯器

用的大多數的知識點 都是屬於基礎的知識點內容,以及pa chong基礎入門一些知識點。

要用的模塊

  • requests >>> pip install requests 第三方模塊 需要大家去安裝

  • csv

win + R 輸入cmd 輸入安裝命令 pip install 模塊名 (如果你覺得安裝速度比較慢, 你可以切換國內鏡像源)

基本思路。

數據來源分析

我們不管是採集什麼,都要先找到數據來源。有來源才有下一步的行動。

  1. 確定我們要採集得數據內容是什麼?

    店鋪基本數據信息

  2. 通過開發者工具進行抓包分析 分析數據從哪裡可以獲取

    從第一頁數據進行分析的

代碼流程步驟

有了來源目標之後,再請求獲取數據,解析數據,最後創建文件夾保存到Excel表格。

當然,如果想採集更多的,肯定就得實現自動翻頁

  • 發送請求, 對於店鋪信息數據包url地址發送請求

  • 獲取數據, 獲取伺服器返回的response響應數據

  • 解析數據, 提取我們想要的一些數據內容 (店鋪信息)

  • 保存數據, 把相應的數據內容保存csv表格裡面

  • 多頁採集:多頁採集數據內容

代碼展示

不限正規足浴,其實想採集啥都行。

import requests
import pprint
import re
import csv
import time

f = open('按摩data.csv', mode='a', encoding='utf-8', newline='')

csv_writer = csv.DictWriter(f, fieldnames=[
    '店鋪名稱',
    '人均消費',
    '店鋪評分',
    '評論人數',
    '所在商圈',
    '店鋪類型',
    '店鋪地址',
    '聯繫方式',
    '營業時間',
    '詳情頁',
])
csv_writer.writeheader()


def get_shop_info(html_url):
    headers = {
        'Cookie': '',
        'Host': '',
        'Referer': '',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36',
    }
    response = requests.get(url=html_url, headers=headers)
    # print(response.text)
    phone = re.findall('"phone":"(.*?)"', response.text)[0]
    openTime = re.findall('"openTime":"(.*?)"', response.text)[0].replace('\\n', '')
    address = re.findall('"address":"(.*?)"', response.text)[0]
    shop_info = [address, phone, openTime]
    # print(shop_info)
    return shop_info

for page in range(0, 1537, 32):
    time.sleep(2)
    url = ''
    data = {
        'uuid': '05f4abe326934bf19027.1634911815.1.0.0',
        'userid': '266252179',
        'limit': '32',
        'offset': page,
        'cateId': '-1',
        'q': '按摩',
        'token': 'knaBbvVTfN50cupoV5b87GJMXzkAAAAAAw8AAELrweWvhGhrM0fw6oTkLe5c6DGXJ6PCtxfyHgUPl3k-SVVR-Vs0LjzrGfewJhX8-g'
    }
    headers = {
        'Referer': '',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }
    response = requests.get(url=url, params=data, headers=headers)
    result = response.json()['data']['searchResult']
    for index in result:
        shop_id = index['id']
        index_url = f'https://www..com/meishi/{shop_id}/'
        shop_info = get_shop_info(index_url)
        dit = {
            '店鋪名稱': index['title'],
            '人均消費': index['avgprice'],
            '店鋪評分': index['avgscore'],
            '評論人數': index['comments'],
            '所在商圈': index['areaname'],
            '店鋪類型': index['backCateName'],
            '店鋪地址': shop_info[0],
            '聯繫方式': shop_info[1],
            '營業時間': shop_info[2],
            '詳情頁': index_url,
        }
        csv_writer.writerow(dit)
        print(dit)

 

因為代碼里有鏈接,不給過的,所以我把代表性的網址那裡刪掉了一部分,你們可以自行添加



您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一、查詢表、模式及欄位信息 1、查詢指定模式下的所有表 select tablename,* from pg_tables where schemaname = 'ods'; 2、查詢指定模式下的表名及欄位 SELECT C.relname, A.attname AS NAME, format_ty ...
  • 好家伙, 本篇內容為《JS高級程式設計》第三章學習筆記 1.Number類型 從名稱中我們可以得出,這是一個存放數值的類型, 不同的數值類型相應地也有不同的數值字面量格式 Number類型可以儲存不同進位的數(不常用就是了) 八進位:在數前加一個零("0"),後續的數字中不能有大於7的數值,否則八進 ...
  • Servlet05 14.HttpServletRequest HttpServletRequest對象代表客戶端的請求 當 客戶端/瀏覽器 通過HTTP協議訪問伺服器時,HTTP請求頭中的所有信息都封裝在這個對象中 通過這個對象的方法,可以獲取客戶端的信息 HttpServletRequest類圖 ...
  • 本篇文章主要分享idea的常用快捷鍵和idea 的安裝和破解方式,親測可以破解,破解方式也是非常的簡單,第一步執行激活腳本,第二步輸入激活碼就大功告成啦,下麵是詳細的步驟。 下載 官方下載地址:https://www.jetbrains.com/idea/download 安裝 雙擊安裝包,然後一直 ...
  • 一款好用的插件(Maven-Helper) 前言 博主在整合log4j日誌的時候,發現啟動不了項目,報錯信息,大致是這樣的: 意思是在 logback-classic-1.2.3.jar 和 log4j-slf4j-impl-2.13.3.jar 中發現有同路徑及同類名的文件,spring不知道掃哪 ...
  • 提高Docker的下載速度 修改 /etc/docker/daemon.json 文件 vi /etc/docker/daemon.json 配置加速器 { "registry-mirrors": ["https://registry.docker-cn.com", "http://hub-mirr ...
  • 列表中元素位置的索引用的是L.index 本文實例講述了Python去除列表中重覆元素的方法。分享給大家供大家參考。具體如下: 比較容易記憶的是用內置的set l1 = ['b','c','d','b','c','a','a'] l2 = list(set(l1)) print (l2) 還有一種據 ...
  • 一、通過官網進行創建 官網創建鏈接:https://start.spring.io/ 1.官網頁面配置: Project:我們需要選擇項目類型,我使用的是Maven項目; Language:使用的是Java語言,選擇Java; SpringBoot:選擇版本; Project Metadata:元數 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...