python爬蟲模擬登錄的圖片驗證碼處理和會話維持

来源:https://www.cnblogs.com/nmsghgnv/archive/2020/02/17/12323320.html

目標網站:古詩文網 登錄界面顯示: 打開控制台工具,輸入賬號密碼,在ALL欄目中進行抓包 數據如下: 登錄請求的url和請求方式 登錄所需參數 參數分析: __VIEWSTATE和__VIEWSTATEGENERATOR可以在登錄界面獲取,code為驗證碼,email為賬號,pwd為密碼,from為 ...


目標網站:古詩文網

登錄界面顯示:

 

 打開控制台工具,輸入賬號密碼,在ALL欄目中進行抓包

數據如下:

登錄請求的url和請求方式

 

 登錄所需參數

 

 參數分析:

__VIEWSTATE和__VIEWSTATEGENERATOR可以在登錄界面獲取,code為驗證碼,email為賬號,pwd為密碼,from為空,denglu為固定參數

分析__VIEWSTATE和__VIEWSTATEGENERATOR

 

 

 

 可通過解析登錄界面獲取

整體代碼如下:

# 引入各種庫
import requests
from lxml import etree
import pytesseract
from PIL import Image
from io import BytesIO

# 會話保持
s = requests.session()
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36'
}
# 登錄界面路由
login_url = 'https://so.gushiwen.org/user/login.aspx?from='
r = s.post(login_url,headers=headers)
res = etree.HTML(r.text)
# 獲取登錄參數
__VIEWSTATE = res.xpath('//input[@id="__VIEWSTATE"]/@value')[0]
__VIEWSTATEGENERATOR = res.xpath('//input[@id="__VIEWSTATEGENERATOR"]/@value')[0]

# 獲取驗證碼
codeimage = s.get('https://so.gushiwen.org/RandCode.ashx')

# 識別驗證碼
def get_code(data):
    img = Image.open(BytesIO(data))
    img = img.convert('L')
    captcha = pytesseract.image_to_string(img)
    print(captcha)
    img.close()
    return captcha

# 構造登錄參數
formdata = {
    '__VIEWSTATE': __VIEWSTATE,
    '__VIEWSTATEGENERATOR': __VIEWSTATEGENERATOR,
    'from': '',
    'email': '你的賬號',
    'pwd': '你的密碼',
    'code': get_code(codeimage.content),
    'denglu': '登錄'
}
# 模擬登錄
res = s.post(login_url,headers=headers,data=formdata)
# 判斷是否登錄成功,成功的話會跳轉到個人中心
if '我的收藏' in res.text:
    print('登陸成功')
else:
    print('登陸失敗')

控制台輸出:

 

 註意:文章賬號秘密是錯誤的,讀者可以自己申請賬號,

爬蟲的開始需使用

s = requests.session()

來使會話維持,否則請求的驗證碼與登錄時不同步,

驗證碼識別有成功率,不一定一次成功。

python系列教程:

鏈接:https://pan.baidu.com/s/10eUCb1tD9GPuua5h_ERjHA
提取碼:h0td

 


您的分享是我們最大的動力!

更多相關文章
  • user 資料庫用戶名,用於連接資料庫……轉載自https://blog.csdn.net/wfanking/article/details/95504879 ...
  • JavaWeb Java Web 1、基本概念 1.1、前言 web開發: web,網頁的意思 , www.baidu.com 靜態web html,css 提供給所有人看的數據始終不會發生變化! 動態web 淘寶,幾乎是所有的網站; 提供給所有人看的數據始終會發生變化,每個人在不同的時間,不同的地 ...
  • 網關的概念 服務A、B都是暴露出來,供外部直接調用的, 有時候需要對請求進行過濾、校驗,比如檢驗用戶是否已登陸,可以寫在暴露出來的每個服務中,但要在多個服務中寫相同的代碼,太繁瑣,可以提出來,放在網關中。 如果A、B進行集群,需要負載均衡來確定使用A|B的哪個節點來處理,可以使用網關來進行路由轉發( ...
  • python求極值點主要用到scipy庫。 1. 首先可先選擇一個函數或者擬合一個函數,這裡選擇擬合數據:np.polyfit import pandas as pd import matplotlib.pyplot as plt import numpy as np from scipy impo ...
  • 題目:將 0001 題生成的 200 個激活碼(或者優惠券)保存到 Redis 非關係型資料庫中。 代碼: ...
  • python數據擬合主要可採用numpy庫,庫的安裝可直接用pip install numpy等。 1. 原始數據:假如要擬合的數據yyy來自sin函數,np.sin import numpy as np import matplotlib.pyplot as plt xxx = np.arange ...
  • 前言 也許,有的人看到上邊這個標題,首先會覺得這肯定是一篇廣告文吧。確實,我們可能見過有很多號主用類似於“你的同齡人已經XXX了,而你還在XXX”這種風格,來寫軟文。 但是,我可以明確的告訴你,這篇文章不是廣告,只是記錄我的一些感想而已。再說了,也沒有廣告主來找我合作呀(手動捂臉)。 正文 今天,無 ...
  • 值傳遞與對象拷貝 值傳遞和引用傳遞 調用一個有參函數的時候,會把實際參數傳遞給形式參數。但是,在程式語言中,這個傳遞過程中傳遞的兩種情況,即值傳遞和引用傳遞 兩者區別 1. 值傳遞(pass by value)是指在調用函數時將實際參數複製一份傳遞到函數中,這樣在函數中如果對參數進行修改,將不會影響 ...
一周排行
  • 一:背景 1. 講故事 如果你常翻看FCL的源碼,你會發現這裡面有不少方法藉助了C/C++的力量讓C#更快更強悍,如下所示: [DllImport("QCall", CharSet = CharSet.Unicode)] [SecurityCritical] [SuppressUnmanagedCo ...
  • 上一篇(https://www.cnblogs.com/meowv/p/12966092.html)文章使用AutoMapper來處理對象與對象之間的映射關係,本篇主要圍繞定時任務和數據抓取相關的知識點並結合實際應用,在定時任務中迴圈處理爬蟲任務抓取數據。 開始之前可以刪掉之前測試用的幾個Hello ...
  • 首先創建實體類 1 public class MacState 2 { 3 /// <summary> 4 /// 請求狀態 5 /// </summary> 6 public string success { get; set; } 7 /// <summary> 8 /// 錯誤信息 9 /// ...
  • 0. 前言 前幾天FreeSql的作者向我推薦了FreeSql框架,想讓我幫忙寫個文章介紹一下。嗯,想不到我也能帶個貨了。哈哈,開個玩笑~看了下覺得設計的挺有意思的,所以就謝了這篇文章。 簡單介紹一下,FreeSql 是NCC組織的沙盒級項目,是一款功能強大的 ORM 組件,支持 .NET Core ...
  • 0. 前言 這是一個新的系列,名字是《ASP.NET Core 入門到實戰》。這個系列主講ASP.NET Core MVC,輔助一些前端的基礎知識(能用來實現我們需要的即可,並非主講)。同時這個系列也會在後續介紹ASP.NET Core 平臺的其它類型的項目,並帶領大家以各個類型的項目為主要架構開發 ...
  • 我寫了一個Winform測試程式,用的System.Timers.Timer,在事件里,設置label1.Text,然後,居然句柄泄漏、用戶對象泄漏! 百思不得其解,最後換成System.Windows.Forms.Timer,居然不泄漏了! 最近睡眠不足,哪怕一個很小的問題,隨便搞搞,都半夜了! ...
  • leetcode-7. 整數反轉。 給出一個 32 位的有符號整數,你需要將這個整數中每位上的數字進行反轉。 示例 1: 輸入: 123 輸出: 321 示例 2: 輸入: -123 輸出: -321 示例 3: 輸入: 120 輸出: 21 註意: 假設環境只能存儲得下 32 位的有符號整數,則其 ...
  • 1. Java 虛擬機是什麼? 1.1 虛擬機 虛擬機:虛擬的電腦,一個用來執行虛擬電腦指令的軟體。 虛擬機分為系統虛擬機和程式虛擬機。 系統虛擬機:提供一個可運行完整操作系統的軟體平臺,如 Visual Box、VMware。 程式虛擬機:專門執行單個程式的,典型代表 Java 虛擬機。Jav ...
  • 前言 - strlen 概述 無意間掃到 glibc strlen.c 中代碼, 久久不能忘懷. 在一無所知的編程生涯中又記起點點滴滴: 編程可不是兒戲 ❀, 有些難, 也有些不捨. 隨軌跡一同重溫, 曾經最熟悉的 strlen 手感吧 ~ /* Copyright (C) 1991-2020 Fr ...
  • 背景 隊列[Queue]:是一種限定僅在表頭進行刪除操作,僅在表尾進行插入操作的線性表;即先進先出(FIFO-first in first out):最先插入的元素最先出來。 本文通過編碼實現鏈式隊列類,並模擬一個有趣的應用,能夠幫助我們對鏈式隊列有更深度的理解。 基本概念 結點 每個元素,除了存儲 ...