python爬蟲模擬登錄的圖片驗證碼處理和會話維持

-Advertisement-

目標網站：古詩文網登錄界面顯示：打開控制台工具，輸入賬號密碼，在ALL欄目中進行抓包數據如下：登錄請求的url和請求方式登錄所需參數參數分析： __VIEWSTATE和__VIEWSTATEGENERATOR可以在登錄界面獲取，code為驗證碼，email為賬號，pwd為密碼，from為 ...

目標網站：古詩文網

登錄界面顯示：

打開控制台工具，輸入賬號密碼，在ALL欄目中進行抓包

數據如下：

登錄請求的url和請求方式

登錄所需參數

參數分析：

__VIEWSTATE和__VIEWSTATEGENERATOR可以在登錄界面獲取，code為驗證碼，email為賬號，pwd為密碼，from為空，denglu為固定參數

分析__VIEWSTATE和__VIEWSTATEGENERATOR

可通過解析登錄界面獲取

整體代碼如下：

# 引入各種庫
import requests
from lxml import etree
import pytesseract
from PIL import Image
from io import BytesIO

# 會話保持
s = requests.session()
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36'
}
# 登錄界面路由
login_url = 'https://so.gushiwen.org/user/login.aspx?from='
r = s.post(login_url,headers=headers)
res = etree.HTML(r.text)
# 獲取登錄參數
__VIEWSTATE = res.xpath('//input[@id="__VIEWSTATE"]/@value')[0]
__VIEWSTATEGENERATOR = res.xpath('//input[@id="__VIEWSTATEGENERATOR"]/@value')[0]

# 獲取驗證碼
codeimage = s.get('https://so.gushiwen.org/RandCode.ashx')

# 識別驗證碼
def get_code(data):
    img = Image.open(BytesIO(data))
    img = img.convert('L')
    captcha = pytesseract.image_to_string(img)
    print(captcha)
    img.close()
    return captcha

# 構造登錄參數
formdata = {
    '__VIEWSTATE': __VIEWSTATE,
    '__VIEWSTATEGENERATOR': __VIEWSTATEGENERATOR,
    'from': '',
    'email': '你的賬號',
    'pwd': '你的密碼',
    'code': get_code(codeimage.content),
    'denglu': '登錄'
}
# 模擬登錄
res = s.post(login_url,headers=headers,data=formdata)
# 判斷是否登錄成功，成功的話會跳轉到個人中心
if '我的收藏' in res.text:
    print('登陸成功')
else:
    print('登陸失敗')

控制台輸出：

註意：文章賬號秘密是錯誤的，讀者可以自己申請賬號，

爬蟲的開始需使用

s = requests.session()

來使會話維持，否則請求的驗證碼與登錄時不同步，

驗證碼識別有成功率，不一定一次成功。

python系列教程：

鏈接：https://pan.baidu.com/s/10eUCb1tD9GPuua5h_ERjHA
提取碼：h0td

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

jdbc url的若幹參數

user 資料庫用戶名，用於連接資料庫……轉載自https://blog.csdn.net/wfanking/article/details/95504879 ...
Java Web 筆記(1)

JavaWeb Java Web 1、基本概念 1.1、前言 web開發： web，網頁的意思， www.baidu.com 靜態web html，css 提供給所有人看的數據始終不會發生變化！動態web 淘寶，幾乎是所有的網站；提供給所有人看的數據始終會發生變化，每個人在不同的時間，不同的地 ...
SpringCloud 使用Zuul構建API Gateway

網關的概念服務A、B都是暴露出來，供外部直接調用的，有時候需要對請求進行過濾、校驗，比如檢驗用戶是否已登陸，可以寫在暴露出來的每個服務中，但要在多個服務中寫相同的代碼，太繁瑣，可以提出來，放在網關中。如果A、B進行集群，需要負載均衡來確定使用A|B的哪個節點來處理，可以使用網關來進行路由轉發（ ...
python求極值點（波峰波谷）

python求極值點主要用到scipy庫。 1. 首先可先選擇一個函數或者擬合一個函數，這裡選擇擬合數據：np.polyfit import pandas as pd import matplotlib.pyplot as plt import numpy as np from scipy impo ...
python練習——第3題

題目：將 0001 題生成的 200 個激活碼（或者優惠券）保存到 Redis 非關係型資料庫中。代碼： ...
python多項式擬合：np.polyfit 和 np.polyld

python數據擬合主要可採用numpy庫，庫的安裝可直接用pip install numpy等。 1. 原始數據：假如要擬合的數據yyy來自sin函數，np.sin import numpy as np import matplotlib.pyplot as plt xxx = np.arange ...
你和那些優秀的人差距在哪裡？

前言也許，有的人看到上邊這個標題，首先會覺得這肯定是一篇廣告文吧。確實，我們可能見過有很多號主用類似於“你的同齡人已經XXX了，而你還在XXX”這種風格，來寫軟文。但是，我可以明確的告訴你，這篇文章不是廣告，只是記錄我的一些感想而已。再說了，也沒有廣告主來找我合作呀（手動捂臉）。正文今天，無 ...
值傳遞與對象拷貝

值傳遞與對象拷貝值傳遞和引用傳遞調用一個有參函數的時候，會把實際參數傳遞給形式參數。但是，在程式語言中，這個傳遞過程中傳遞的兩種情況，即值傳遞和引用傳遞兩者區別 1. 值傳遞（pass by value）是指在調用函數時將實際參數複製一份傳遞到函數中，這樣在函數中如果對參數進行修改，將不會影響 ...