【記錄】Python爬蟲|爬取空間PC版日誌模板

来源:https://www.cnblogs.com/shandianchengzi/archive/2022/10/31/16844760.html
-Advertisement-
Play Games

大多數QQ模板都要黃鑽,真是好奇到底有幾個免費的,於是寫了一個爬蟲。寫的過程中遇到了一些新的問題,在此做一個記錄。 ...


目錄

註:2021/7/30做

效果

運行結果

在這裡插入圖片描述

模板中免費的部分

在這裡插入圖片描述

excel已簡單處理,可以根據順序大致找到頁碼。
一共有43個免費模板,其中39個可用,4個損壞。

損壞的模板

▽ 我以為我撿了個漏
在這裡插入圖片描述
▽ 實際上
在這裡插入圖片描述

小彩蛋

▽ “限時免費”的林丹模板
在這裡插入圖片描述

代碼

# author: shandianchengzi
# description: get templates of qq diary, saving as "qq日誌模板.xlsx". Result: 43 free, 4 damaged.
# status: complete
import json
import requests
import pandas as pd
import re
from time import sleep
url="https://h5.qzone.qq.com/proxy/domain/mall.qzone.qq.com/cgi-bin/v3/cgi_get_letter_paper"
headers={
    'Accept': '*/*',
    'Accept-Encoding': 'gzip, deflate, br',
    'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',
    'Content-Type': 'application/json; charset=utf-8',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36 Edg/90.0.818.56',
}
headers['Cookie']="" #不需要填
params={
    'mallIds':'',
    'keyWord':'',
    'vip':0,
    'g_tk':'1002114705',
    'pageNum':3,
    'pageCount':5,
}
datalist = []  #用來存儲爬取的網頁信息
byYourself={
    'number':5, #一次爬取的個數,建議5個,否則得到的數據會對不上
}

def LoadJson(JSON):
    try:
        return json.load(JSON)
    except:
        #找到"({"作為開始標誌 和"})"作為結束標誌之間的所有信息[jsonp格式]
        return json.loads(re.match(".*?({.*}).*",JSON,re.S).group(1))
def AddData(content):
    for i in content['data']['items']:
        i['name']=i['mall']['name']
        i['attr']=i['mall']['attr']
        datalist.append(i)
        #print(i)
def export_excel(export):
    try:
        #將字典列表轉換為DataFrame
        pf = pd.DataFrame(list(export))
        #指定生成的Excel表格名稱
        file_path = pd.ExcelWriter('qq日誌模板.xlsx')
        #替換空單元格
        pf.fillna(' ', inplace=True)
        #輸出
        pf.to_excel(file_path, encoding='utf-8', index=False)
        #保存表格
        file_path.save()
        print('保存成功!')
    except Exception as e:
        print("[-] Error = "+str(e))
        print('無法導出為excel,請檢查是否未關閉同名excel文件。正在重試……')
        sleep(2)
        export_excel(export)
        
def getData(total):
    try:
        params['pageCount']=byYourself['number']
        pageTotal=int(total/byYourself['number'])+2
        print('一共要載入',pageTotal,'頁,請耐心等待:')
        for i in range(1,pageTotal):
            params['pageNum']=i
            print('第',i,'頁,',end='')
            res = requests.get(url, params=params, headers=headers)
            content=LoadJson(res.text)
            AddData(content)
    except Exception as e:
        print("[-] Error = "+str(e))
        print(res.text)
    print(len(datalist))
    export_excel(datalist)

def myFunc():
    datalist.clear()
    res = requests.get(url, params=params, headers=headers)
    #找到"({"作為開始標誌 和"})"作為結束標誌之間的所有信息[jsonp格式]
    content=LoadJson(res.text)
    total=content['data']['total']
    print(total)
    getData(total)
myFunc()

問題及解決方式

1. 返回數據_callback({})而非json

這種數據返回格式,使我們無法直接使用json.load(res.text)解析。

問題根源在於JSONP這種數據傳輸格式
ajax請求受同源策略影響,不允許進行跨域請求,而script標簽src屬性中的鏈接卻可以訪問跨域的js腳本,利用這個特性,服務端不再返回JSON格式的數據,而是返回一段調用某個函數的js代碼,在src中進行了調用,這樣實現了跨域。
比如,可用script標簽直接指向不同域下的js腳本,在js腳本中加入這個函數。
本例中的_callback({})便是JSONP的典型應用。

解決方式:正則去掉_callback({})
參考https://blog.csdn.net/weixin_38208912/article/details/104208785

def LoadJson(JSON):
    try:
        return json.load(JSON)
    except:
        #找到"({"作為開始標誌 和"})"作為結束標誌之間的所有信息[jsonp格式]
        return json.loads(re.match(".*?({.*}).*",JSON,re.S).group(1))

2. 獲取封面圖鏈接

封面圖的鏈接格式:
https://qzonestyle.gtimg.cn/qzone/space_item/pre/14/108942_1.gif
找了一下規律,明顯是位置+ id + _1.gif。
可惜https://qzonestyle.gtimg.cn/qzone/space_item/pre/後面的14不是固定的值,我暫時沒有去管它的生成規律,免費的只有39個,全部點一遍都比找出生成規律划算。因此該問題沒有解決方案。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Shift4 非同步複位同步置數和使能。 module top_module( input clk, input areset, // async active-high reset to zero input load, input ena, input [3:0] data, output reg ...
  • 本章開始`LyShark`將介紹如何在內核中實現`InlineHook`掛鉤這門技術,內核掛鉤的第一步需要實現一個動態計算彙編指令長度的功能,該功能可以使用`LDE64`這個反彙編引擎,該引擎小巧簡單可以直接在驅動中使用,LDE引擎是`BeaEngine`引擎的一部分,後來讓`BeatriX`打包成... ...
  • 今天我們來聊一聊關於JWT授權的事情。 JWT:Json Web Token。顧名思義,它是一種在Web中,使用Json來進行Token授權的方案。 既然沒有找好密碼,token是如何解決信任問題的呢? 解決信任問題,只需要解決兩個問題即可: token是不是來自我信任的機構頒發 token中的信息 ...
  • 操作mysql的命令 cmd命令行中查看mysql版本: mysql -V mysql --version 登陸mysql: mysql -uroot -pluis mysql -uroot -p 在mysql中查看資料庫版本: select version(); 查看所有資料庫: show dat ...
  • 1 環境準備 192.168.1.34 伺服器A(主機) 192.168.1.35 伺服器B(從機) 2 安裝mysql MySQL版本: 這裡採用Server version: 5.7.35 MySQL Community Server (GPL) 我們把安裝在“伺服器A”的資料庫稱作“主資料庫” ...
  • 近日,國內領先的數字化技術與服務提供商——袋鼠雲宣佈完成過億元C+輪融資,本輪融資由源星昱瀚基金、國中資本、深創投投資。 本輪融資資金將主要用於袋鼠雲核心產品的研發、產品生態體系建設和市場營銷推廣等方面。一直以來,袋鼠雲都牢記“讓數據產生價值”的使命,以科技創新驅動發展,不斷迭代優化解決方案和生態結 ...
  • MongoDB 是一個基於分散式文件存儲的資料庫,因此其常作為使用了大數據技術的公司的優選;MongoDB 的存儲是類 JSON 結構,因此在一些敏捷 Web 開發中也常使用到。 ...
  • ①MVCC定義,用處,快照讀,當前讀 ②MVCC實現原理:隱藏欄位,readview,undo log ③readview訪問規則 ④事務隔離級別的具體實現 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...