Python爬蟲--個人微博發佈的全部照片、視頻

来源:https://www.cnblogs.com/Gil-1117/archive/2022/08/09/16565196.html
-Advertisement-
Play Games

1、我們的目標是獲取微博某博主的全部圖片、視頻 2、拿到網址後 我們先觀察 打開F12 隨著下滑我們發現載入出來了一個叫mymblog的東西,展開響應發現需要的東西就在裡面 3、重點來了!!! 通過觀察發現第二頁比第一頁多了參數since_id 而第二頁的since_id參數剛好在上一頁中能獲取到, ...


1、我們的目標是獲取微博某博主的全部圖片、視頻

2、拿到網址後 我們先觀察 打開F12  隨著下滑我們發現載入出來了一個叫mymblog的東西,展開響應發現需要的東西就在裡面

 

3、重點來了!!!

 

通過觀察發現第二頁比第一頁多了參數since_id 而第二頁的since_id參數剛好在上一頁中能獲取到,往下翻頁同理 第二頁帶著第三頁需要的參數

4、因為是get請求 接下來就是設置params對下麵網址進行請求然後提取bloghttps://weibo.com/ajax/statuses/mymblog

5、不會翻頁的我還發現了個簡單的方法 不用帶since_id參數,只需要給page來個迴圈也可實現迴圈 具體如下:
  5.1、把網址設置成這樣,

https://weibo.com/ajax/statuses/mymblog?uid=2793306070&page=2&feature=0&since_id=

  5.2、去掉params 具體為啥不帶參數也能出來 我也不清楚 反正是發現這麼設置url可以實現翻頁

 

6、最後看看出來結果(部分照片屬於會員可見,但是依然可以拿到高清原圖。未顯示出來的是因為0擦邊嚴重被微博封了)

 

 

 7、具體代碼如下

 

 

 1 import requests
 2 
 3 headres = {
 4 '你的': '微博cookie',
 5 'referer': 'https://weibo.com/u/2793306070',
 6 '你的': 'UA',
 7 'x-requested-with': 'XMLHttpRequest',
 8 'x-xsrf-token': '1_g5J4kMvprJh8xD1YgaHWmv'
 9 }
10 
11 shipindizhi = './陳佩琪個人微博視頻/'
12 tupiandizhi = './陳佩琪個人微博照片/'
13 n = 1
14 x = 1
15 for g in range(1, 11):
16 url = f'https://weibo.com/ajax/statuses/mymblog?uid=2793306070&page={g}&feature=0&since_id='
17 
18 rsp_fanye = requests.get(url=url, headers=headres).json()
19 since_id = rsp_fanye['data']['since_id']
20 print(since_id)
21 neirong = rsp_fanye['data']['list']
22 # 獲得圖片(獲得文本,有圖片獲得圖片)
23 for i in neirong:
24 text = i['text_raw'].replace('\n','')
25 if 'pic_infos' in i:
26 tupian = i['pic_infos']
27 # print(tupian)
28 for j in tupian:
29 # print(j)
30 tupian_url = i['pic_infos'][j]['mw2000'].get('url')
31 # print(tupian_url)
32 pinjie = tupiandizhi + 'tupian_%s' % x + '.' + '.jpg'
33 f = open(pinjie, mode='wb')
34 f.write(requests.get(url=tupian_url).content)
35 x += 1
36 print(pinjie+'圖片保存成功!!!')
37 
38 # 獲得視頻
39 for j in neirong:
40 if 'page_info' in j:
41 shiping = j['page_info']
42 if 'media_info' in shiping:
43 media_info = shiping['media_info']['mp4_720p_mp4']
44 # print(media_info)
45 pinjie = shipindizhi + 'shiping_%s' % n + '.' + '.mp4'
46 f = open(pinjie, mode='wb')
47 f.write(requests.get(url=media_info).content)
48 n += 1
49 print(pinjie+'圖片保存成功!!!')

 




 




您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 作者:清茶淡粥醬 鏈接:https://juejin.cn/post/7026734817853210661 Spring Security簡介 Spring Security 是一種高度自定義的安全框架,利用(基於)SpringIOC/DI和AOP功能,為系統提供了聲明式安全訪問控制功能,減少了為 ...
  • 精華筆記: 介面: 是一種數據類型(引用類型) 由interface定義 只能包含常量和抽象方法(所有數據預設都是常量,所有方法預設都是抽象的) 介面不能被實例化 介面是需要被實現/繼承的,實現/派生類:必須重寫所有抽象方法 一個類可以實現多個介面,用逗號分隔。若又繼承又實現時,應先繼承後實現。 接 ...
  • 1 同步鎖synchronized追本溯源 引言 提到synchronized,無論是在開發過程中和麵試過程中常常遇到的問題 synchronized;也算是重災區了 為什麼說是重災區? 因為他不像其他的代碼,是有源碼,可以查看的 synchronized是一個關鍵字。直接是找不到源代碼的 接下來 ...
  • 大家好,我是三友,我又來了~~ 最近仍然暢游在RocketMQ的源碼中,這幾天剛好翻到了消費者的源碼,發現RocketMQ的對於push消費方式的實現簡直太聰明瞭,所以趁著我腦子裡還有點印象的時候,趕緊來寫一篇文章,來掰扯一下,防止過兩天就忘得一干二凈了。 MQ消費方式 消費方式就是指消費者如何從M ...
  • .精華筆記: 1)成員內部類: 應用率不高 1.1)類中套類,外面的稱為外部類,裡面的稱為內部類 1.2)內部類通常只服務於外部類,對外不具備可見性 1.3)內部類對象通常在外部類中創建 1.4)內部類中可以直接訪問外部類的成員(包括私有的) 內部類中有一個隱式的引用,指向了創建它的外部類對象 外部 ...
  • Python有一個for...else語法,它的寫法如下 for i in range(0,100): if i == 3: break else: print("Not found") 該語句表示:若for迴圈遍歷完畢,則執行else部分的語句。也就是說上述代碼不會有任何輸出,而下述代碼會輸出“N ...
  • 精華筆記: static final常量:應用率高 必須聲明同時初始化 由類名打點來訪問,不能被改變 建議:常量所有字母都大寫,多個單詞用_分隔 編譯器在編譯時會將常量直接替換為具體的數,效率高 何時用:數據永遠不變,並且經常使用 抽象方法: 由abstract修飾 只有方法的定義,沒有具體的實現( ...
  • 一、實現原理 在Servlet3協議規範中,包含在JAR文件/META-INFO/resources/路徑下的資源可以直接訪問。 二、舉例說明 如下圖所示,是我新建的一個Spring Boot Starter項目:zimug-minitor-threadpool,用於實現可配置、可觀測的線程池。其中 ...
一周排行
    -Advertisement-
    Play Games
  • Dapr Outbox 是1.12中的功能。 本文只介紹Dapr Outbox 執行流程,Dapr Outbox基本用法請閱讀官方文檔 。本文中appID=order-processor,topic=orders 本文前提知識:熟悉Dapr狀態管理、Dapr發佈訂閱和Outbox 模式。 Outbo ...
  • 引言 在前幾章我們深度講解了單元測試和集成測試的基礎知識,這一章我們來講解一下代碼覆蓋率,代碼覆蓋率是單元測試運行的度量值,覆蓋率通常以百分比表示,用於衡量代碼被測試覆蓋的程度,幫助開發人員評估測試用例的質量和代碼的健壯性。常見的覆蓋率包括語句覆蓋率(Line Coverage)、分支覆蓋率(Bra ...
  • 前言 本文介紹瞭如何使用S7.NET庫實現對西門子PLC DB塊數據的讀寫,記錄了使用電腦模擬,模擬PLC,自至完成測試的詳細流程,並重點介紹了在這個過程中的易錯點,供參考。 用到的軟體: 1.Windows環境下鏈路層網路訪問的行業標準工具(WinPcap_4_1_3.exe)下載鏈接:http ...
  • 從依賴倒置原則(Dependency Inversion Principle, DIP)到控制反轉(Inversion of Control, IoC)再到依賴註入(Dependency Injection, DI)的演進過程,我們可以理解為一種逐步抽象和解耦的設計思想。這種思想在C#等面向對象的編 ...
  • 關於Python中的私有屬性和私有方法 Python對於類的成員沒有嚴格的訪問控制限制,這與其他面相對對象語言有區別。關於私有屬性和私有方法,有如下要點: 1、通常我們約定,兩個下劃線開頭的屬性是私有的(private)。其他為公共的(public); 2、類內部可以訪問私有屬性(方法); 3、類外 ...
  • C++ 訪問說明符 訪問說明符是 C++ 中控制類成員(屬性和方法)可訪問性的關鍵字。它們用於封裝類數據並保護其免受意外修改或濫用。 三種訪問說明符: public:允許從類外部的任何地方訪問成員。 private:僅允許在類內部訪問成員。 protected:允許在類內部及其派生類中訪問成員。 示 ...
  • 寫這個隨筆說一下C++的static_cast和dynamic_cast用在子類與父類的指針轉換時的一些事宜。首先,【static_cast,dynamic_cast】【父類指針,子類指針】,兩兩一組,共有4種組合:用 static_cast 父類轉子類、用 static_cast 子類轉父類、使用 ...
  • /******************************************************************************************************** * * * 設計雙向鏈表的介面 * * * * Copyright (c) 2023-2 ...
  • 相信接觸過spring做開發的小伙伴們一定使用過@ComponentScan註解 @ComponentScan("com.wangm.lifecycle") public class AppConfig { } @ComponentScan指定basePackage,將包下的類按照一定規則註冊成Be ...
  • 操作系統 :CentOS 7.6_x64 opensips版本: 2.4.9 python版本:2.7.5 python作為腳本語言,使用起來很方便,查了下opensips的文檔,支持使用python腳本寫邏輯代碼。今天整理下CentOS7環境下opensips2.4.9的python模塊筆記及使用 ...