python day2-爬蟲實現github登錄

来源:https://www.cnblogs.com/interpreter/archive/2019/08/12/python_Github.html
-Advertisement-
Play Games

GitHub登錄 分析登錄頁面 開發者工具分析請求 從session請求分析得知: 1.請求的URL為:https://github.com/session 2.該請求為post請求,即需要上傳data表單,所以我們需要分析form-data 由form-data分析得知: 1.login:GitH ...


GitHub登錄

分析登錄頁面

開發者工具分析請求

從session請求分析得知:

1.請求的URL為:https://github.com/session

2.該請求為post請求,即需要上傳data表單,所以我們需要分析form-data

 

由form-data分析得知:

1.login:GitHub的賬號

2.password:GitHub的密碼

3.authenticity_token:每次請求時都發生變動

4.其餘參數沒有特殊的變動

因此需要分析authenticity_token的規律,經過分析源代碼得知:

在login頁面中存在該參數,且每次請求該頁面時該參數都發生變動

因此我們需要使用維持會話的方式抓取該參數

import requests

session = requests.Session()    #實例化,維持會話
url_login = 'https://github.com/login'
    response = session.get(url_login)
    #通過正則獲取token值
    authenticity_token = re.findall('name="authenticity_token" value="(.*?)" />',response.text)[0]
    print(authenticity_token)

當我們獲取該參數後,即可以代入form-data中完成登錄

附上全部代碼

import requests
import re

session = requests.Session()    #實例化,維持會話

def token():   
    url_login = 'https://github.com/login'
    response = session.get(url_login)
    #通過正則獲取token值
    authenticity_token = re.findall('name="authenticity_token" value="(.*?)" />',response.text)[0]
    return authenticity_token     #返回token值

def url_session(token):
    url = 'https://github.com/session'
    data = {
        'commit': 'Sign in',
        'utf8': '',
        'authenticity_token': token,     #authenticity_token參數
        'login': '輸入賬號',              #你的賬號
        'password': '輸入密碼',          #你的密碼
        'webauthn-support': 'supported',
        'required_field_852e': '',
        'timestamp': '1565616593723',
        'timestamp_secret': '850cb01230466a48f29899e2202265961cdcde8375c4ee69399cd9e9805e1ede',
    }
    response = session.post(url,data=data)  #傳入form-data表單
    return response.text   #返回源碼

def save_github(response_text):  
    with open('github.html','w',encoding='utf-8') as fp:
        fp.write(response_text)

if __name__ == '__main__':
    token = token()   #獲取authenticity_token參數
    response_text = url_session(token)    #獲取網頁源碼
    save_github(response_text)    #把爬取到的源碼保存為html格式

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 通過DefaultMQPullConsumer作為預設實現,這裡的啟動過程和Producer很相似,但相比複雜一些 【RocketMQ中Producer的啟動源碼分析】 DefaultMQPullConsumer的構造方法: 這裡會封裝一個DefaultMQPullConsumerImpl,類似於P ...
  • 1.爬取豆瓣top250書籍 結果 2.把評分為9.0的書籍保存到book_out.csv文件中 ...
  • 零基礎學python,python視頻教程 這是我收集到的互聯網上的視頻資源,所有內容均來自互聯網。僅供學習使用。 目前我在也在學習過程中,會把學習過程中遇到問題以及解決問題的方式,總結到我的公眾號【趣學程式】裡面。 偶爾會發表幾篇文章,供給大家學習使用。茫茫人海之中,只為交個朋友。還請多多多指教小 ...
  • 最近整理ssm,寫完demo案例,無論如何都訪問不了後臺,百度了好多,終於解決了問題所在 先看頁面信息: 因為一直報404錯誤,一直找路徑是不是弄錯了,或配置文件弄錯了,僅僅這個配置文件都看了無數遍,然而並沒有發現問題,後來百度這個描述才發現了問題The origin server did not ...
  • 這是一篇修改class文件的文章。註釋並不完全,要抓住這次練習的目的: boolean在虛擬機中是以何種方式解讀的 好的,開始我的表演 1.安裝asmtools.jar(本文尾部有步驟) 2.編寫一個java文件,並編譯,執行 2.1 Foo.java 1 public class Foo { 2 ...
  • 本文將通過for ... in ...的語法結構,遍歷字元串、列表、元組、字典等數據結構。 字元串遍歷 列表遍歷 元組遍歷 字典遍歷 1. 遍歷字典的key(鍵) 2. 遍歷字典的value(值) 3. 遍歷字典的項(元素) 重點:帶下標索引的遍歷 正常情況我們是這樣的 升級版使用 enumerat ...
  • 介紹 Eratosthenes篩法,又名埃氏篩法,對於求1~n區間內的素數,時間複雜度為n log n,對於10^6^ 以內的數比較合適,再超出此範圍的就不建議用該方法了。 篩法的思想特別簡單: 對於不超過n的每個非負整數p, 刪除2p, 3p, 4p,…, 當處理完所有數之後, 還沒有被刪除的就是 ...
  • 本文目錄 一、JPA介紹二、Spring Data JPA類結構圖1、類的結構關係圖三、代碼實現1、添加對應的Starter2、添加連接資料庫的配置3、主要代碼 一、JPA介紹 JPA是Java Persistence API的簡稱,中文名Java持久層API,是JDK 5.0註解或XML描述對象- ...
一周排行
    -Advertisement-
    Play Games
  • 概述:在C#中,++i和i++都是自增運算符,其中++i先增加值再返回,而i++先返回值再增加。應用場景根據需求選擇,首碼適合先增後用,尾碼適合先用後增。詳細示例提供清晰的代碼演示這兩者的操作時機和實際應用。 在C#中,++i 和 i++ 都是自增運算符,但它們在操作上有細微的差異,主要體現在操作的 ...
  • 上次發佈了:Taurus.MVC 性能壓力測試(ap 壓測 和 linux 下wrk 壓測):.NET Core 版本,今天計劃準備壓測一下 .NET 版本,來測試並記錄一下 Taurus.MVC 框架在 .NET 版本的性能,以便後續持續優化改進。 為了方便對比,本文章的電腦環境和測試思路,儘量和... ...
  • .NET WebAPI作為一種構建RESTful服務的強大工具,為開發者提供了便捷的方式來定義、處理HTTP請求並返迴響應。在設計API介面時,正確地接收和解析客戶端發送的數據至關重要。.NET WebAPI提供了一系列特性,如[FromRoute]、[FromQuery]和[FromBody],用 ...
  • 原因:我之所以想做這個項目,是因為在之前查找關於C#/WPF相關資料時,我發現講解圖像濾鏡的資源非常稀缺。此外,我註意到許多現有的開源庫主要基於CPU進行圖像渲染。這種方式在處理大量圖像時,會導致CPU的渲染負擔過重。因此,我將在下文中介紹如何通過GPU渲染來有效實現圖像的各種濾鏡效果。 生成的效果 ...
  • 引言 上一章我們介紹了在xUnit單元測試中用xUnit.DependencyInject來使用依賴註入,上一章我們的Sample.Repository倉儲層有一個批量註入的介面沒有做單元測試,今天用這個示例來演示一下如何用Bogus創建模擬數據 ,和 EFCore 的種子數據生成 Bogus 的優 ...
  • 一、前言 在自己的項目中,涉及到實時心率曲線的繪製,項目上的曲線繪製,一般很難找到能直接用的第三方庫,而且有些還是定製化的功能,所以還是自己繪製比較方便。很多人一聽到自己畫就害怕,感覺很難,今天就分享一個完整的實時心率數據繪製心率曲線圖的例子;之前的博客也分享給DrawingVisual繪製曲線的方 ...
  • 如果你在自定義的 Main 方法中直接使用 App 類並啟動應用程式,但發現 App.xaml 中定義的資源沒有被正確載入,那麼問題可能在於如何正確配置 App.xaml 與你的 App 類的交互。 確保 App.xaml 文件中的 x:Class 屬性正確指向你的 App 類。這樣,當你創建 Ap ...
  • 一:背景 1. 講故事 上個月有個朋友在微信上找到我,說他們的軟體在客戶那邊隔幾天就要崩潰一次,一直都沒有找到原因,讓我幫忙看下怎麼回事,確實工控類的軟體環境複雜難搞,朋友手上有一個崩潰的dump,剛好丟給我來分析一下。 二:WinDbg分析 1. 程式為什麼會崩潰 windbg 有一個厲害之處在於 ...
  • 前言 .NET生態中有許多依賴註入容器。在大多數情況下,微軟提供的內置容器在易用性和性能方面都非常優秀。外加ASP.NET Core預設使用內置容器,使用很方便。 但是筆者在使用中一直有一個頭疼的問題:服務工廠無法提供請求的服務類型相關的信息。這在一般情況下並沒有影響,但是內置容器支持註冊開放泛型服 ...
  • 一、前言 在項目開發過程中,DataGrid是經常使用到的一個數據展示控制項,而通常表格的最後一列是作為操作列存在,比如會有編輯、刪除等功能按鈕。但WPF的原始DataGrid中,預設只支持固定左側列,這跟大家習慣性操作列放最後不符,今天就來介紹一種簡單的方式實現固定右側列。(這裡的實現方式參考的大佬 ...