Python爬蟲--個人微博發佈的全部照片、視頻

来源:https://www.cnblogs.com/Gil-1117/archive/2022/08/09/16565196.html
-Advertisement-
Play Games

1、我們的目標是獲取微博某博主的全部圖片、視頻 2、拿到網址後 我們先觀察 打開F12 隨著下滑我們發現載入出來了一個叫mymblog的東西,展開響應發現需要的東西就在裡面 3、重點來了!!! 通過觀察發現第二頁比第一頁多了參數since_id 而第二頁的since_id參數剛好在上一頁中能獲取到, ...


1、我們的目標是獲取微博某博主的全部圖片、視頻

2、拿到網址後 我們先觀察 打開F12  隨著下滑我們發現載入出來了一個叫mymblog的東西,展開響應發現需要的東西就在裡面

 

3、重點來了!!!

 

通過觀察發現第二頁比第一頁多了參數since_id 而第二頁的since_id參數剛好在上一頁中能獲取到,往下翻頁同理 第二頁帶著第三頁需要的參數

4、因為是get請求 接下來就是設置params對下麵網址進行請求然後提取bloghttps://weibo.com/ajax/statuses/mymblog

5、不會翻頁的我還發現了個簡單的方法 不用帶since_id參數,只需要給page來個迴圈也可實現迴圈 具體如下:
  5.1、把網址設置成這樣,

https://weibo.com/ajax/statuses/mymblog?uid=2793306070&page=2&feature=0&since_id=

  5.2、去掉params 具體為啥不帶參數也能出來 我也不清楚 反正是發現這麼設置url可以實現翻頁

 

6、最後看看出來結果(部分照片屬於會員可見,但是依然可以拿到高清原圖。未顯示出來的是因為0擦邊嚴重被微博封了)

 

 

 7、具體代碼如下

 

 

 1 import requests
 2 
 3 headres = {
 4 '你的': '微博cookie',
 5 'referer': 'https://weibo.com/u/2793306070',
 6 '你的': 'UA',
 7 'x-requested-with': 'XMLHttpRequest',
 8 'x-xsrf-token': '1_g5J4kMvprJh8xD1YgaHWmv'
 9 }
10 
11 shipindizhi = './陳佩琪個人微博視頻/'
12 tupiandizhi = './陳佩琪個人微博照片/'
13 n = 1
14 x = 1
15 for g in range(1, 11):
16 url = f'https://weibo.com/ajax/statuses/mymblog?uid=2793306070&page={g}&feature=0&since_id='
17 
18 rsp_fanye = requests.get(url=url, headers=headres).json()
19 since_id = rsp_fanye['data']['since_id']
20 print(since_id)
21 neirong = rsp_fanye['data']['list']
22 # 獲得圖片(獲得文本,有圖片獲得圖片)
23 for i in neirong:
24 text = i['text_raw'].replace('\n','')
25 if 'pic_infos' in i:
26 tupian = i['pic_infos']
27 # print(tupian)
28 for j in tupian:
29 # print(j)
30 tupian_url = i['pic_infos'][j]['mw2000'].get('url')
31 # print(tupian_url)
32 pinjie = tupiandizhi + 'tupian_%s' % x + '.' + '.jpg'
33 f = open(pinjie, mode='wb')
34 f.write(requests.get(url=tupian_url).content)
35 x += 1
36 print(pinjie+'圖片保存成功!!!')
37 
38 # 獲得視頻
39 for j in neirong:
40 if 'page_info' in j:
41 shiping = j['page_info']
42 if 'media_info' in shiping:
43 media_info = shiping['media_info']['mp4_720p_mp4']
44 # print(media_info)
45 pinjie = shipindizhi + 'shiping_%s' % n + '.' + '.mp4'
46 f = open(pinjie, mode='wb')
47 f.write(requests.get(url=media_info).content)
48 n += 1
49 print(pinjie+'圖片保存成功!!!')

 




 




您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 作者:清茶淡粥醬 鏈接:https://juejin.cn/post/7026734817853210661 Spring Security簡介 Spring Security 是一種高度自定義的安全框架,利用(基於)SpringIOC/DI和AOP功能,為系統提供了聲明式安全訪問控制功能,減少了為 ...
  • 精華筆記: 介面: 是一種數據類型(引用類型) 由interface定義 只能包含常量和抽象方法(所有數據預設都是常量,所有方法預設都是抽象的) 介面不能被實例化 介面是需要被實現/繼承的,實現/派生類:必須重寫所有抽象方法 一個類可以實現多個介面,用逗號分隔。若又繼承又實現時,應先繼承後實現。 接 ...
  • 1 同步鎖synchronized追本溯源 引言 提到synchronized,無論是在開發過程中和麵試過程中常常遇到的問題 synchronized;也算是重災區了 為什麼說是重災區? 因為他不像其他的代碼,是有源碼,可以查看的 synchronized是一個關鍵字。直接是找不到源代碼的 接下來 ...
  • 大家好,我是三友,我又來了~~ 最近仍然暢游在RocketMQ的源碼中,這幾天剛好翻到了消費者的源碼,發現RocketMQ的對於push消費方式的實現簡直太聰明瞭,所以趁著我腦子裡還有點印象的時候,趕緊來寫一篇文章,來掰扯一下,防止過兩天就忘得一干二凈了。 MQ消費方式 消費方式就是指消費者如何從M ...
  • .精華筆記: 1)成員內部類: 應用率不高 1.1)類中套類,外面的稱為外部類,裡面的稱為內部類 1.2)內部類通常只服務於外部類,對外不具備可見性 1.3)內部類對象通常在外部類中創建 1.4)內部類中可以直接訪問外部類的成員(包括私有的) 內部類中有一個隱式的引用,指向了創建它的外部類對象 外部 ...
  • Python有一個for...else語法,它的寫法如下 for i in range(0,100): if i == 3: break else: print("Not found") 該語句表示:若for迴圈遍歷完畢,則執行else部分的語句。也就是說上述代碼不會有任何輸出,而下述代碼會輸出“N ...
  • 精華筆記: static final常量:應用率高 必須聲明同時初始化 由類名打點來訪問,不能被改變 建議:常量所有字母都大寫,多個單詞用_分隔 編譯器在編譯時會將常量直接替換為具體的數,效率高 何時用:數據永遠不變,並且經常使用 抽象方法: 由abstract修飾 只有方法的定義,沒有具體的實現( ...
  • 一、實現原理 在Servlet3協議規範中,包含在JAR文件/META-INFO/resources/路徑下的資源可以直接訪問。 二、舉例說明 如下圖所示,是我新建的一個Spring Boot Starter項目:zimug-minitor-threadpool,用於實現可配置、可觀測的線程池。其中 ...
一周排行
    -Advertisement-
    Play Games
  • 一:背景 1.講故事 在分析的眾多dump中,經常會遇到各種奇葩的問題,僅通過dump這種快照形式還是有很多問題搞不定,而通過 perfview 這種粒度又太粗,很難找到問題之所在,真的很頭疼,比如本篇的 短命線程 問題,參考圖如下: 我們在 t2 時刻抓取的dump對查看 短命線程 毫無幫助,我根 ...
  • 在日常後端Api開發中,我們跟前端的溝通中,通常需要協商好入參的數據類型,和參數是通過什麼方式存在於請求中的,是表單(form)、請求體(body)、地址欄參數(query)、還是說通過請求頭(header)。 當協商好後,我們的介面又需要怎麼去接收這些數據呢?很多小伙伴可能上手就是直接寫一個實體, ...
  • 許多情況下我們需要用到攝像頭獲取圖像,進而處理圖像,這篇博文介紹利用pyqt5、OpenCV實現用電腦上連接的攝像頭拍照並保存照片。為了使用和後續開發方便,這裡利用pyqt5設計了個相機界面,後面將介紹如何實現,要點包括界面設計、邏輯實現及完整代碼。 ...
  • 思路分析 註冊頁面需要對用戶提交的數據進行校驗,並且需要對用戶輸入錯誤的地方進行提示! 所有我們需要使用forms組件搭建註冊頁面! 平時我們書寫form是組件的時候是在views.py裡面書寫的, 但是為了接耦合,我們需要將forms組件都單獨寫在一個地方,需要用的時候導入就行! 例如,在項目文件 ...
  • 思路分析 登錄頁面,我們還是採用ajax的方式提交用戶數據 唯一需要學習的是如何製作圖片驗證碼! 具體的登錄頁面效果圖如下: 如何製作圖片驗證碼 推導步驟1:在img標簽的src屬性里放上驗證碼的請求路徑 補充1.img的src屬性: 1.圖片路徑 2.url 3.圖片的二進位數據 補充2:字體樣式 ...
  • 哈嘍,兄弟們! 最近有許多小伙伴都在吐槽打工好難。 每天都是執行許多重覆的任務 例如閱讀新聞、發郵件、查看天氣、打開書簽、清理文件夾等等, 使用自動化腳本,就無需手動一次又一次地完成這些任務, 非常方便啊有木有?! 而在某種程度上,Python 就是自動化的代名詞。 今天就來和大家一起學習一下, 用 ...
  • 作者:IT王小二 博客:https://itwxe.com 前面小二介紹過使用Typora+PicGo+LskyPro打造舒適寫作環境,那時候需要使用水印功能,但是小二在升級LskyPro2.x版本發現有很多不如人意的東西,遂棄用LskyPro使用MinIO結合代碼實現自己需要的圖床功能,也適合以後 ...
  • OpenAI Gym是一款用於研發和比較強化學習演算法的工具包,本文主要介紹Gym模擬環境的功能和工具包的使用方法,並詳細介紹其中的經典控制問題中的倒立擺(CartPole-v0/1)問題。最後針對倒立擺問題如何建立控制模型並採用爬山演算法優化進行了介紹,並給出了相應的完整python代碼示例和解釋。要... ...
  • python爬蟲瀏覽器偽裝 #導入urllib.request模塊 import urllib.request #設置請求頭 headers=("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, l ...
  • 前端代碼搭建 主要利用的是bootstrap3中js插件里的模態框版塊 <li><a href="" data-toggle="modal" data-target=".bs-example-modal-lg">修改密碼</a></li> <div class="modal fade bs-exam ...