Python爬蟲--個人微博發佈的全部照片、視頻

来源:https://www.cnblogs.com/Gil-1117/archive/2022/08/09/16565196.html
-Advertisement-
Play Games

1、我們的目標是獲取微博某博主的全部圖片、視頻 2、拿到網址後 我們先觀察 打開F12 隨著下滑我們發現載入出來了一個叫mymblog的東西,展開響應發現需要的東西就在裡面 3、重點來了!!! 通過觀察發現第二頁比第一頁多了參數since_id 而第二頁的since_id參數剛好在上一頁中能獲取到, ...


1、我們的目標是獲取微博某博主的全部圖片、視頻

2、拿到網址後 我們先觀察 打開F12  隨著下滑我們發現載入出來了一個叫mymblog的東西,展開響應發現需要的東西就在裡面

 

3、重點來了!!!

 

通過觀察發現第二頁比第一頁多了參數since_id 而第二頁的since_id參數剛好在上一頁中能獲取到,往下翻頁同理 第二頁帶著第三頁需要的參數

4、因為是get請求 接下來就是設置params對下麵網址進行請求然後提取bloghttps://weibo.com/ajax/statuses/mymblog

5、不會翻頁的我還發現了個簡單的方法 不用帶since_id參數,只需要給page來個迴圈也可實現迴圈 具體如下:
  5.1、把網址設置成這樣,

https://weibo.com/ajax/statuses/mymblog?uid=2793306070&page=2&feature=0&since_id=

  5.2、去掉params 具體為啥不帶參數也能出來 我也不清楚 反正是發現這麼設置url可以實現翻頁

 

6、最後看看出來結果(部分照片屬於會員可見,但是依然可以拿到高清原圖。未顯示出來的是因為0擦邊嚴重被微博封了)

 

 

 7、具體代碼如下

 

 

 1 import requests
 2 
 3 headres = {
 4 '你的': '微博cookie',
 5 'referer': 'https://weibo.com/u/2793306070',
 6 '你的': 'UA',
 7 'x-requested-with': 'XMLHttpRequest',
 8 'x-xsrf-token': '1_g5J4kMvprJh8xD1YgaHWmv'
 9 }
10 
11 shipindizhi = './陳佩琪個人微博視頻/'
12 tupiandizhi = './陳佩琪個人微博照片/'
13 n = 1
14 x = 1
15 for g in range(1, 11):
16 url = f'https://weibo.com/ajax/statuses/mymblog?uid=2793306070&page={g}&feature=0&since_id='
17 
18 rsp_fanye = requests.get(url=url, headers=headres).json()
19 since_id = rsp_fanye['data']['since_id']
20 print(since_id)
21 neirong = rsp_fanye['data']['list']
22 # 獲得圖片(獲得文本,有圖片獲得圖片)
23 for i in neirong:
24 text = i['text_raw'].replace('\n','')
25 if 'pic_infos' in i:
26 tupian = i['pic_infos']
27 # print(tupian)
28 for j in tupian:
29 # print(j)
30 tupian_url = i['pic_infos'][j]['mw2000'].get('url')
31 # print(tupian_url)
32 pinjie = tupiandizhi + 'tupian_%s' % x + '.' + '.jpg'
33 f = open(pinjie, mode='wb')
34 f.write(requests.get(url=tupian_url).content)
35 x += 1
36 print(pinjie+'圖片保存成功!!!')
37 
38 # 獲得視頻
39 for j in neirong:
40 if 'page_info' in j:
41 shiping = j['page_info']
42 if 'media_info' in shiping:
43 media_info = shiping['media_info']['mp4_720p_mp4']
44 # print(media_info)
45 pinjie = shipindizhi + 'shiping_%s' % n + '.' + '.mp4'
46 f = open(pinjie, mode='wb')
47 f.write(requests.get(url=media_info).content)
48 n += 1
49 print(pinjie+'圖片保存成功!!!')

 




 




您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 作者:清茶淡粥醬 鏈接:https://juejin.cn/post/7026734817853210661 Spring Security簡介 Spring Security 是一種高度自定義的安全框架,利用(基於)SpringIOC/DI和AOP功能,為系統提供了聲明式安全訪問控制功能,減少了為 ...
  • 精華筆記: 介面: 是一種數據類型(引用類型) 由interface定義 只能包含常量和抽象方法(所有數據預設都是常量,所有方法預設都是抽象的) 介面不能被實例化 介面是需要被實現/繼承的,實現/派生類:必須重寫所有抽象方法 一個類可以實現多個介面,用逗號分隔。若又繼承又實現時,應先繼承後實現。 接 ...
  • 1 同步鎖synchronized追本溯源 引言 提到synchronized,無論是在開發過程中和麵試過程中常常遇到的問題 synchronized;也算是重災區了 為什麼說是重災區? 因為他不像其他的代碼,是有源碼,可以查看的 synchronized是一個關鍵字。直接是找不到源代碼的 接下來 ...
  • 大家好,我是三友,我又來了~~ 最近仍然暢游在RocketMQ的源碼中,這幾天剛好翻到了消費者的源碼,發現RocketMQ的對於push消費方式的實現簡直太聰明瞭,所以趁著我腦子裡還有點印象的時候,趕緊來寫一篇文章,來掰扯一下,防止過兩天就忘得一干二凈了。 MQ消費方式 消費方式就是指消費者如何從M ...
  • .精華筆記: 1)成員內部類: 應用率不高 1.1)類中套類,外面的稱為外部類,裡面的稱為內部類 1.2)內部類通常只服務於外部類,對外不具備可見性 1.3)內部類對象通常在外部類中創建 1.4)內部類中可以直接訪問外部類的成員(包括私有的) 內部類中有一個隱式的引用,指向了創建它的外部類對象 外部 ...
  • Python有一個for...else語法,它的寫法如下 for i in range(0,100): if i == 3: break else: print("Not found") 該語句表示:若for迴圈遍歷完畢,則執行else部分的語句。也就是說上述代碼不會有任何輸出,而下述代碼會輸出“N ...
  • 精華筆記: static final常量:應用率高 必須聲明同時初始化 由類名打點來訪問,不能被改變 建議:常量所有字母都大寫,多個單詞用_分隔 編譯器在編譯時會將常量直接替換為具體的數,效率高 何時用:數據永遠不變,並且經常使用 抽象方法: 由abstract修飾 只有方法的定義,沒有具體的實現( ...
  • 一、實現原理 在Servlet3協議規範中,包含在JAR文件/META-INFO/resources/路徑下的資源可以直接訪問。 二、舉例說明 如下圖所示,是我新建的一個Spring Boot Starter項目:zimug-minitor-threadpool,用於實現可配置、可觀測的線程池。其中 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...