前言 網路上的信息很多,有的時候我們需要關鍵字搜索才可以快速方便的找到我們需要的信息。今天我們實現搜索關鍵字爬取堆糖網上相關的美圖,零基礎學會通用爬蟲,當然我們還可以實現多線程爬蟲,加快爬蟲爬取速度 環境: windows pycharm python3 導入模塊 import urllib.par ...
前言
網路上的信息很多,有的時候我們需要關鍵字搜索才可以快速方便的找到我們需要的信息。今天我們實現搜索關鍵字爬取堆糖網上相關的美圖,零基礎學會通用爬蟲,當然我們還可以實現多線程爬蟲,加快爬蟲爬取速度
環境:
windows
pycharm
python3
導入模塊
import urllib.parse import json import requests import jsonpath
確定目標網址
url = 'https://www.duitang.com/napi/blog/list/by_search/?kw={}&start={}'
分析網站,確定爬取目標
label = '美女' label = urllib.parse.quote(label)
發送請求,提取數據
num = 0 for index in range(0,2400,24): u = url.format(label,index) we_data = requests.get(u).text
類型轉換
html = json.loads(we_data) photo = jsonpath.jsonpath(html,"$..path")
保存數據
for i in photo: a = requests.get(i) with open(r'C:\Users\Administrator\Desktop\tupian\{}.jpg'.format(num),'wb') as f: f.write(a.content) # 二進位 num += 1
運行代碼,效果如下圖: