emmm~ 起因呢,這昨晚女同桌跟我說電腦有點卡,喊我去宿舍給她裝個新系統,裝系統就裝系統吧,結果又說新系統表情包都沒保存~ 我當時就有點生氣,真當我是萬能的呢? 於是我直接就用Python給她爬了幾十個G,完事扭頭就走,任她怎麼喊我也沒用! 一、準備工作 使用的環境 python3.8 | Ana ...
emmm~
起因呢,這昨晚女同桌跟我說電腦有點卡,喊我去宿舍給她裝個新系統,裝系統就裝系統吧,結果又說新系統表情包都沒保存~
我當時就有點生氣,真當我是萬能的呢?
於是我直接就用Python給她爬了幾十個G,完事扭頭就走,任她怎麼喊我也沒用!
一、準備工作
使用的環境
- python3.8 | Anaconda
- pycharm
使用的模塊
- requests 第三方模塊 需要手動安裝
- re 內置模塊不需要安裝
win+r 輸入cmd ,確定後新視窗輸入 pip install requests 即可安裝成功。
插件安裝
xpath helper擴展工具包
安裝步驟:找助理老師獲取xpath helper擴展工具包(註意:不要解壓)
》》 打開Google瀏覽器 --> 更多工具 --> 擴展程式 --> 打開開發者模式 --> 把xpath helper擴展工具包直接拖入 --> 刷新
使用方法:快捷鍵 ctrl+shift+X
思路流程
1、分析數據來源
第一頁:https://fabiaoqing.com/biaoqing/lists/page/1.html
多頁 —> 第一頁 --> 一個
2、實現代碼
- 發送請求,第一頁數據
- 獲取數據
- 解析數據,表情
- 保存數據
二、效果展示
部分效果展示
三、代碼解析
1、發送請求
第一頁數據
url = 'https://fabiaoqing.com/biaoqing/lists/page/1.html' headers = { # 鍵值對 用戶代理 瀏覽器的基本身份 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36' } response = requests.get(url, headers=headers) # <Response [200]> 響應對象 200 狀態 成功 404 403 print(response)
2、獲取數據
網頁源代碼
print(response.text)
re 找規律
3、解析數據
.*? 精準匹配數據
re_data = re.findall('<img class="ui image lazy" data-original="(.*?)" src="/Public/lazyload/img/transparent.gif" title="(.*?)" ', response.text) # print(re_data) # for 迴圈 for img in re_data: # print(img) #索引 [0] [1] () # 單個表情包鏈接 link = img[0] suffix = link.split('.')[-1] # print(suffix) # print(link) # 名字 title = img[1] title = re.sub(r'[\/:*?"<>|]','',title) # 二進位 content = requests.get(link, headers=headers).content # print(content)
4、保存數據
with open('表情包\\' + title +'.' +suffix, mode='wb') as file: file.write(content) # 我也錄製了對應的視頻詳細講解,完整代碼和視頻都放在這個裙了 279199867
好了,今天的分享就到這裡~
最後給大家分享一套Python教程:Python實戰100例,希望對大家有所幫助!