效果

運行結果

在這裡插入圖片描述

模板中免費的部分

在這裡插入圖片描述

excel已簡單處理，可以根據順序大致找到頁碼。
一共有43個免費模板，其中39個可用，4個損壞。

損壞的模板

▽ 我以為我撿了個漏
在這裡插入圖片描述
▽ 實際上

小彩蛋

▽ “限時免費”的林丹模板
在這裡插入圖片描述

代碼

# author: shandianchengzi
# description: get templates of qq diary, saving as "qq日誌模板.xlsx". Result: 43 free, 4 damaged.
# status: complete
import json
import requests
import pandas as pd
import re
from time import sleep
url="https://h5.qzone.qq.com/proxy/domain/mall.qzone.qq.com/cgi-bin/v3/cgi_get_letter_paper"
headers={
    'Accept': '*/*',
    'Accept-Encoding': 'gzip, deflate, br',
    'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',
    'Content-Type': 'application/json; charset=utf-8',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36 Edg/90.0.818.56',
}
headers['Cookie']="" #不需要填
params={
    'mallIds':'',
    'keyWord':'',
    'vip':0,
    'g_tk':'1002114705',
    'pageNum':3,
    'pageCount':5,
}
datalist = []  #用來存儲爬取的網頁信息
byYourself={
    'number':5, #一次爬取的個數，建議5個，否則得到的數據會對不上
}

def LoadJson(JSON):
    try:
        return json.load(JSON)
    except:
        #找到"({"作為開始標誌 和"})"作為結束標誌之間的所有信息[jsonp格式]
        return json.loads(re.match(".*?({.*}).*",JSON,re.S).group(1))
def AddData(content):
    for i in content['data']['items']:
        i['name']=i['mall']['name']
        i['attr']=i['mall']['attr']
        datalist.append(i)
        #print(i)
def export_excel(export):
    try:
        #將字典列表轉換為DataFrame
        pf = pd.DataFrame(list(export))
        #指定生成的Excel表格名稱
        file_path = pd.ExcelWriter('qq日誌模板.xlsx')
        #替換空單元格
        pf.fillna(' ', inplace=True)
        #輸出
        pf.to_excel(file_path, encoding='utf-8', index=False)
        #保存表格
        file_path.save()
        print('保存成功！')
    except Exception as e:
        print("[-] Error = "+str(e))
        print('無法導出為excel，請檢查是否未關閉同名excel文件。正在重試……')
        sleep(2)
        export_excel(export)
        
def getData(total):
    try:
        params['pageCount']=byYourself['number']
        pageTotal=int(total/byYourself['number'])+2
        print('一共要載入',pageTotal,'頁，請耐心等待:')
        for i in range(1,pageTotal):
            params['pageNum']=i
            print('第',i,'頁,',end='')
            res = requests.get(url, params=params, headers=headers)
            content=LoadJson(res.text)
            AddData(content)
    except Exception as e:
        print("[-] Error = "+str(e))
        print(res.text)
    print(len(datalist))
    export_excel(datalist)

def myFunc():
    datalist.clear()
    res = requests.get(url, params=params, headers=headers)
    #找到"({"作為開始標誌 和"})"作為結束標誌之間的所有信息[jsonp格式]
    content=LoadJson(res.text)
    total=content['data']['total']
    print(total)
    getData(total)
myFunc()

問題及解決方式

1. 返回數據_callback({})而非json

這種數據返回格式，使我們無法直接使用json.load(res.text)解析。

問題根源在於JSONP這種數據傳輸格式。
ajax請求受同源策略影響，不允許進行跨域請求，而script標簽src屬性中的鏈接卻可以訪問跨域的js腳本，利用這個特性，服務端不再返回JSON格式的數據，而是返回一段調用某個函數的js代碼，在src中進行了調用，這樣實現了跨域。
比如，可用script標簽直接指向不同域下的js腳本，在js腳本中加入這個函數。
本例中的_callback({})便是JSONP的典型應用。

解決方式：正則去掉_callback({})
參考https://blog.csdn.net/weixin_38208912/article/details/104208785。

def LoadJson(JSON):
    try:
        return json.load(JSON)
    except:
        #找到"({"作為開始標誌 和"})"作為結束標誌之間的所有信息[jsonp格式]
        return json.loads(re.match(".*?({.*}).*",JSON,re.S).group(1))

2. 獲取封面圖鏈接

封面圖的鏈接格式：
https://qzonestyle.gtimg.cn/qzone/space_item/pre/14/108942_1.gif
找了一下規律，明顯是位置+ id + _1.gif。
可惜https://qzonestyle.gtimg.cn/qzone/space_item/pre/後面的14不是固定的值，我暫時沒有去管它的生成規律，免費的只有39個，全部點一遍都比找出生成規律划算。因此該問題沒有解決方案。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

【HDLBits刷題筆記】11 Shift Regiters&More Circuits

Shift4 非同步複位同步置數和使能。 module top_module( input clk, input areset, // async active-high reset to zero input load, input ena, input [3:0] data, output reg ...
驅動開發：內核LDE64引擎計算彙編長度

本章開始`LyShark`將介紹如何在內核中實現`InlineHook`掛鉤這門技術，內核掛鉤的第一步需要實現一個動態計算彙編指令長度的功能，該功能可以使用`LDE64`這個反彙編引擎，該引擎小巧簡單可以直接在驅動中使用，LDE引擎是`BeaEngine`引擎的一部分，後來讓`BeatriX`打包成... ...
XAF新手入門 - 數據字典示例

今天我們來聊一聊關於JWT授權的事情。 JWT：Json Web Token。顧名思義，它是一種在Web中，使用Json來進行Token授權的方案。既然沒有找好密碼，token是如何解決信任問題的呢？解決信任問題，只需要解決兩個問題即可： token是不是來自我信任的機構頒發 token中的信息 ...
MySQL 知識點小結

操作mysql的命令 cmd命令行中查看mysql版本： mysql -V mysql --version 登陸mysql： mysql -uroot -pluis mysql -uroot -p 在mysql中查看資料庫版本： select version(); 查看所有資料庫： show dat ...
配置MySQL5.7主從複製

1 環境準備 192.168.1.34 伺服器A（主機） 192.168.1.35 伺服器B（從機） 2 安裝mysql MySQL版本：這裡採用Server version: 5.7.35 MySQL Community Server (GPL) 我們把安裝在“伺服器A”的資料庫稱作“主資料庫” ...
官宣 | 袋鼠雲獲過億元C+輪融資，深耕國產自研數字化技術與服務

近日，國內領先的數字化技術與服務提供商——袋鼠雲宣佈完成過億元C+輪融資，本輪融資由源星昱瀚基金、國中資本、深創投投資。本輪融資資金將主要用於袋鼠雲核心產品的研發、產品生態體系建設和市場營銷推廣等方面。一直以來，袋鼠雲都牢記“讓數據產生價值”的使命，以科技創新驅動發展，不斷迭代優化解決方案和生態結 ...
MongoDB - 簡單瞭解

MongoDB 是一個基於分散式文件存儲的資料庫，因此其常作為使用了大數據技術的公司的優選；MongoDB 的存儲是類 JSON 結構，因此在一些敏捷 Web 開發中也常使用到。 ...
「MySQL高級篇」MySQL之MVCC實現原理&&事務隔離級別的實現

①MVCC定義，用處，快照讀，當前讀 ②MVCC實現原理：隱藏欄位，readview，undo log ③readview訪問規則 ④事務隔離級別的具體實現 ...