如何用Python爬蟲實現百度圖片自動下載?

来源:https://www.cnblogs.com/nnngu/archive/2018/02/03/8410903.html
-Advertisement-
Play Games

Github: "https://github.com/nnngu/LearningNotes" 製作爬蟲的步驟 製作一個爬蟲一般分以下幾個步驟: 分析需求 分析網頁源代碼,配合開發者工具 編寫正則表達式或者XPath表達式 正式編寫 python 爬蟲代碼 效果預覽 運行效果如下: ![][1] ...


Github:https://github.com/nnngu/LearningNotes


製作爬蟲的步驟

製作一個爬蟲一般分以下幾個步驟:

  • 分析需求
  • 分析網頁源代碼,配合開發者工具
  • 編寫正則表達式或者XPath表達式
  • 正式編寫 python 爬蟲代碼

效果預覽

運行效果如下:

存放圖片的文件夾:

需求分析

我們的爬蟲至少要實現兩個功能:一是搜索圖片,二是自動下載。

搜索圖片:最容易想到的是爬百度圖片的結果,我們就上百度圖片看看:

隨便搜索幾個關鍵字,可以看到已經搜索出來很多張圖片:

分析網頁

我們點擊右鍵,查看源代碼:

打開源代碼之後,發現一堆源代碼比較難找出我們想要的資源。

這個時候,就要用開發者工具!我們回到上一頁面,調出開發者工具,我們需要用的是左上角那個東西:(滑鼠跟隨)。

然後選擇你想看源代碼的地方,就可以發現,下麵的代碼區自動定位到了相應的位置。如下圖:

我們複製這個地址,然後到剛纔的一堆源代碼里搜索一下,發現了它的位置,但是這裡我們又疑惑了,這個圖片有這麼多地址,到底用哪個呢?我們可以看到有thumbURL,middleURL,hoverURL,objURL

通過分析可以知道,前面兩個是縮小的版本,hoverURL 是滑鼠移動過後顯示的版本,objURL 應該是我們需要的,可以分別打開這幾個網址看看,發現 objURL 的那個最大最清晰。

找到了圖片地址,接下來我們分析源代碼。看看是不是所有的 objURL 都是圖片。

發現都是以.jpg格式結尾的圖片。

編寫正則表達式

pic_url = re.findall('"objURL":"(.*?)",',html,re.S)

編寫爬蟲代碼

這裡我們用了2個包,一個是正則,一個是 requests 包

#-*- coding:utf-8 -*-
import re
import requests

複製百度圖片搜索的鏈接,傳入 requests ,然後把正則表達式寫好

url = 'https://image.baidu.com/search/index?tn=baiduimage&ie=utf-8&word=%E6%A0%97%E5%B1%B1%E6%9C%AA%E6%9D%A5%E5%A4%B4%E5%83%8F&ct=201326592&ic=0&lm=-1&width=&height=&v=index'

html = requests.get(url).text
pic_url = re.findall('"objURL":"(.*?)",',html,re.S)

因為有很多張圖片,所以要迴圈,我們列印出結果來看看,然後用 requests 獲取網址,由於有些圖片可能存在網址打不開的情況,所以加了10秒超時控制。

pic_url = re.findall('"objURL":"(.*?)",',html,re.S)
i = 1
for each in pic_url:
    print each
    try:
        pic= requests.get(each, timeout=10)
    except requests.exceptions.ConnectionError:
        print('【錯誤】當前圖片無法下載')
        continue

接著就是把圖片保存下來,我們事先建立好一個 images 目錄,把圖片都放進去,命名的時候,以數字命名。

        dir = '../images/' + keyword + '_' + str(i) + '.jpg'
        fp = open(dir, 'wb')
        fp.write(pic.content)
        fp.close()
        i += 1

完整的代碼

# -*- coding:utf-8 -*-
import re
import requests


def dowmloadPic(html, keyword):
    pic_url = re.findall('"objURL":"(.*?)",', html, re.S)
    i = 1
    print('找到關鍵詞:' + keyword + '的圖片,現在開始下載圖片...')
    for each in pic_url:
        print('正在下載第' + str(i) + '張圖片,圖片地址:' + str(each))
        try:
            pic = requests.get(each, timeout=10)
        except requests.exceptions.ConnectionError:
            print('【錯誤】當前圖片無法下載')
            continue

        dir = '../images/' + keyword + '_' + str(i) + '.jpg'
        fp = open(dir, 'wb')
        fp.write(pic.content)
        fp.close()
        i += 1


if __name__ == '__main__':
    word = input("Input key word: ")
    url = 'http://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=' + word + '&ct=201326592&v=flip'
    result = requests.get(url)
    dowmloadPic(result.text, word)

我們看到有的圖片沒顯示出來,打開網址看,發現確實沒了。

因為百度有些圖片它緩存到百度的伺服器上,所以我們在百度上還能看見它,但它的實際鏈接已經失效了。

總結

enjoy 我們的第一個圖片下載爬蟲吧!當然它不僅能下載百度的圖片,依葫蘆畫瓢,你現在應該能做很多事情了,比如爬取頭像,爬淘寶展示圖等等。

完整代碼已經放到Githut上 https://github.com/nnngu/BaiduImageDownload


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 容器 Servlet沒有main()方法,它們受控於另一個Java應用,這個Java應用稱為容器(Container)。我們最常見的tomcat就是這樣一個容器。 Web伺服器應用(如Apache)得到一個指向Servlet的請求(而不是其他請求,如請求一個普通的靜態HTML頁面)時,伺服器不是把這 ...
  • 引言:CSP(http://www.cspro.org/lead/application/ccf/login.jsp)是由中國電腦學會(CCF)發起的"電腦職業資格認證"考試,針對電腦軟體開發、軟體測試、信息管理等領域的專業人士進行能力認證。認證對象是從事或將要從事IT領域專業技術與技術管理人 ...
  • mser 的全稱:Maximally Stable Extremal Regions 第一次聽說這個演算法時,是來自當時部門的一個同事, 提及到他的項目用它來做文字區域的定位,對這個演算法做了一些優化。 也就是中文車牌識別開源項目EasyPR的作者liuruoze,劉兄。 自那時起就有一塊石頭沒放下,想 ...
  • /** *Created by xuzili at 9:38 PM on 2/3/2018 */ public class bubble { public static void main(String[] args) { int[] a = new int[]{9, 6, 8, 3, 0, 1}; ...
  • Description Bessie is in Camelot and has encountered a sticky situation: she needs to pass through the forest that is guarded by the Knights of Ni. In ...
  • import os,sysclass node: def __init__(self,item): self.num=item self.lchild=None self.rchild=Noneclass tree: def __init__(self): self.root=None def ad ...
  • 最近在學慣用python寫爬蟲工具,某天偶然發現GoAhead系列伺服器的登錄方式跟大多數網站不一樣,不是採用POST等方法,通過查找資料發現GoAhead是一個開源(商業許可)、簡單、輕巧、功能強大、可以在多個平臺運行的嵌入式Web Server。大多數GoAhead伺服器採用了HTTP Dige ...
  • 當需求相似的函數需要使用裝飾器時,這種差別不大的函數,如果定義多個相似的裝飾器來各自裝飾特定函數就太過贅餘了。 【比如說A需要記錄日誌功能的裝飾器,B需要記錄日誌+發送給指定管理員功能的裝飾器,它們之間有重合的功能--記錄日誌】【如果相同代碼量很大,那麼新弄的代碼重覆量就更大了】 為瞭解決這種問題,... ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...