30分鐘編寫一個抓取 Unsplash 圖片的 Python爬蟲

来源:https://www.cnblogs.com/chengxuyuanaa/archive/2020/02/13/12304555.html
-Advertisement-
Play Games

我一直想用 Python and Selenium 創建一個網頁爬蟲,但從來沒有實現它。 幾天前, 我決定嘗試一下,這聽起來可能是挺複雜的, 然而編寫代碼從 Unsplash 抓取一些美麗的圖片還是挺容易的。 PS:很多人在學習Python的過程中,往往因為遇問題解決不了或者沒好的教程從而導致自己放 ...


  file  我一直想用 Python and Selenium 創建一個網頁爬蟲,但從來沒有實現它。 幾天前, 我決定嘗試一下,這聽起來可能是挺複雜的, 然而編寫代碼從 Unsplash 抓取一些美麗的圖片還是挺容易的。

PS:很多人在學習Python的過程中,往往因為遇問題解決不了或者沒好的教程從而導致自己放棄,為此我整理啦從基礎的python腳本到web開發、爬蟲、django、數據挖掘等【PDF等】需要的可以進Python全棧開發交流.裙 :一久武其而而流一思(數字的諧音)轉換下可以找到了,裡面有最新Python教程項目可拿,不懂的問題有老司機解決哦,一起相互監督共同進步!

簡易圖片爬蟲的組成部分

簡易圖片爬蟲的製作

把所有東西都安裝好了麽?不錯!跟著我們的代碼,我將開始解釋我們每一個爬蟲原料的作用。

第一件事情,我們將 把 Selenium webdriver 和 geckodriver 結合起來去打開一個為我們工作的瀏覽器視窗。首先,在 Pycharm 里創建一個項目,根據你的系統下載最新的 geckodriver , 打開下載的壓縮文件然後把 geckodriver 文件放到你的項目文件夾里。 Geckodriver 是 Selenium 控制 Firefox 的基礎, 因此我們需要把它放到我們項目的文件夾裡面,來讓我們能使用瀏覽器。

接下來我們要做的就是在代碼中導入 Selenium 的 webdriver 並且連接我們想要連接的 URL,所以讓我們這樣做吧:


from selenium import webdriver
# 你想打開的url地址
url = "https://unsplash.com"
# 用Selenium的webdriver去打開頁面
driver = webdriver.Firefox(executable_path=r'geckodriver.exe')
driver.get(url)

 

file  

 

一個遠程式控制制的 Firefox 視窗

很簡單,是吧? 如果你每一步都操作正確, 你已經度過了困難的一部分,你應該看到和上面展示圖片類似的瀏覽器視窗。

接下來,我們應該下滑頁面,這樣在我們下載圖片之前可以載入更多的圖片。我們還需要等待幾秒鐘,以防萬一網路連接緩慢,圖片載入不全。由於 Unsplash 是基於 React 構建的, 等待 5 秒鐘似乎是合適的時間,因此我們使用 time 包來進行等待的操作。我們還需要使用一些 Javascript 代碼來滾動頁面 。
--- 我們將使用 window.scrollTo() 來完成這個。把它們放到一起, 你應該得到這樣的代碼:

unscrape.py

import time
from selenium import webdriver

url = "https://unsplash.com"

driver = webdriver.Firefox(executable_path=r'geckodriver.exe')
driver.get(url)
# 滾動頁面,然後等待5秒
driver.execute_script("window.scrollTo(0,1000);")
time.sleep(5)

滾動頁面,然後等待 5 秒

在測試上面的代碼後,你應該看到瀏覽器向下滾動一些,下一件我們需要做的事情是在網頁上找到那些我們想要下載的圖片。在解析 recat 生成代碼後,我發現我們能用 CSS 選擇器在頁面代碼裡面定位我們想要的圖片。也許頁面具體的佈局和代碼在未來可能會改變, 但是在我寫代碼的這個時候我們可以用 #gridMulti img 選擇器來獲取所有出現在屏幕裡面的  <img> 標簽元素

我們能用 find_elements_by_css_selector() 得到這些標簽元素的 list 集合,但是我們想要的卻是是每個標簽元素的 src 的屬性。所以,我們可以遍歷 list 集合然後抓取它們:

unscrape.py

import time
from selenium import webdriver

url = "https://unsplash.com"

driver = webdriver.Firefox(executable_path=r'geckodriver.exe')
driver.get(url)

driver.execute_script("window.scrollTo(0,1000);")
time.sleep(5)
# 選擇圖片標簽元素,列印它們的URL
image_elements = driver.find_elements_by_css_selector("#gridMulti img")
for image_element in image_elements:
    image_url = image_element.get_attribute("src")
    print(image_url)

選擇圖片標簽元素,列印它們的 URL

現在,為了真正得到我們找到的圖片,我們將使用 requests 包和一部分 PIL 包,即 Image。我們還需要使用 io 包裡面的 BytesIO 來把圖片寫入一個 ./images/ 的文件夾,我們要在我們的項目文件夾裡面創建這個文件。 這樣,把所有東西組合在一起,我們需要給每個圖片的 URL 發送一個 HTTP 的 GET 請求,然後使用 Image 和 BytesIO,我們可以在我們得到的響應裡面存儲圖片,這裡是一個方法來實現這一步驟 :

unscrape.py

import requests
import time
from selenium import webdriver
from PIL import Image
from io import BytesIO

url = "https://unsplash.com"

driver = webdriver.Firefox(executable_path=r'geckodriver.exe')
driver.get(url)

driver.execute_script("window.scrollTo(0,1000);")
time.sleep(5)
image_elements = driver.find_elements_by_css_selector("#gridMulti img")
i = 0

for image_element in image_elements:
    image_url = image_element.get_attribute("src")
    # 發送一個HTTP的GET請求,在響應裡面獲取並存儲圖片
    image_object = requests.get(image_url)
    image = Image.open(BytesIO(image_object.content))
    image.save("./images/image" + str(i) + "." + image.format, image.format)
    i += 1

下載圖片

下載一大堆免費的圖片幾乎是你的所有需求了。顯而易見的,除非你想設計圖片原型或者僅僅需要得到隨機的圖片,這個小爬蟲是沒有多大用處的。 因此,我花了一些時間,通過增加了更多的特性來提升它:

  • 允許用戶使用命令行參數來指定搜索查詢的內容,同時使用滾動數值參數,這樣允許頁面為下載展示更多的圖片。
  • 可定製化的 CSS 選擇器。
  • 根據搜索查詢定製結果的文件夾。
  • 根據需要裁剪縮略圖的網址以獲得全高清圖像。
  • 基於圖片的 URL 給圖片命名。
  • 在程式結束後關閉瀏覽器視窗。

你可以 (也可能應該) 嘗試自己去實現其中的一些功能。可用的完整版的網頁爬蟲 這裡。 記得去單獨下載 geckodriver 並將其連接到你的項目,就像文章開頭說明的那樣 。

限制,思考和未來的改進

這個整體項目都是一個非常簡單的概念驗證,來看看網頁爬蟲是怎麼實現完成的,意味著有很多事情可以做,來改善這個小工具:

  • 沒有記錄這些圖片的原始上傳者是一個很不好的主意,Selenium 是絕對有能力來做這些事情的,所以讓每個圖片都帶著作者的名字。
  • Geckodriver 不應該被放置在項目的文件夾內,而更應該全局安裝,併成為 PATH 系統環境變數的一部分。
  • 搜索功能很容易地擴展到包括多個查詢,從而可以簡化下載大量圖片的過程。
  • 預設的瀏覽器可以從 Firefox 變成 Chrome 或者甚至 PhantomJS 對這類項目來說會好很多。

    總結:很多人在學習Python的過程中,往往因為遇問題解決不了或者沒好的教程從而導致自己放棄,為此我整理啦從基礎的python腳本到web開發、爬蟲、django、數據挖掘等【PDF等】需要的可以進Python全棧開發交流.裙 :一久武其而而流一思(數字的諧音)轉換下可以找到了,裡面有最新Python教程項目可拿,不懂的問題有老司機解決哦,一起相互監督共同進步
    本文的文字及圖片來源於網路加上自己的想法,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯繫我們以作處理。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 最近需要設計一個API伺服器,想要把API介面搞得規範一下,就通過網上搜集到了一些資料,以下便是自己的一些理解以及相關的具體實現 本文采用的是spring boot+maven的方案 restful規範 這個規範我在這裡也不打算長篇大論地講解,怎麼說呢,有人喜歡有人討厭,我也不去爭,因為我經驗不多, ...
  • 一、判斷一個數字X的i位是不是1 二、把一個數字二進位下的第i位改成1 三、把一個數字二進位下的最靠右的第一個1改成0(去掉) ...
  • windows破解教程 1. 首先下載jar包:(雲盤鏈接發不上去,大家關註gzh" 灰太狼學爪哇 "回覆 idea 獲取)將其放到合適的文件夾(首選IDEA的同級目錄)進行管理; 2. 進入C盤 — 用戶 — 用戶名 — .IntelliJIdea2019.2或者.IntelliJIdea2019 ...
  • VisualVM在Java 8中是JDK自帶的一個圖形化工具,項目主頁 "VisualVM" ,在後續版本中可能會從JDK移除。 VisualVM可以監控Java進程的CPU與記憶體占用情況,可以監控Java進程內的各個線程的執行情況,還可以與MAT工具一樣用來分析堆轉儲快照。 監控遠程Tomcat進 ...
  • 1.前提條件 1). 確保已經安裝需要的Python版本 2). 確保已經將Python的目錄加入到環境變數中 2. Python安裝包的幾種常用方式 1). pip安裝方式(正常線上安裝) 2). whl安裝方式(離線安裝),一般是.whl格式的包 3). 源碼安裝方式(離線安裝),tar.gz/ ...
  • 概念: 什麼是REST? REST是Representational State Transfer的縮寫。翻譯為"表現層狀態轉化",restful是一種介面設計風格,它不是一個協議,通常是基於HTTP協議的; 為什麼需要這麼一個風格呢? RESTful的重點之一就是統一的介面命名規則; 每個開發者可 ...
  • 請求限制 一些情況下我們可能需要對請求進行限制,比如僅允許POST,GET等... RequestMapping註解中提供了多個參數用於添加請求的限制條件 value 請求地址 path 請求地址 method 請求方法 headers 請求頭中必須包含指定欄位 params 必須包含某個請求參數 ...
  • 一.用字典映射代替switch case語句 if/else可以代替switch但是非常不合適。 用字典代替switch: day = 5 switcher = { 0:'Sunday', 1:'Monday', 2:'Tuesday' } day_name = switcher.get(day,' ...
一周排行
    -Advertisement-
    Play Games
  • Timer是什麼 Timer 是一種用於創建定期粒度行為的機制。 與標準的 .NET System.Threading.Timer 類相似,Orleans 的 Timer 允許在一段時間後執行特定的操作,或者在特定的時間間隔內重覆執行操作。 它在分散式系統中具有重要作用,特別是在處理需要周期性執行的 ...
  • 前言 相信很多做WPF開發的小伙伴都遇到過表格類的需求,雖然現有的Grid控制項也能實現,但是使用起來的體驗感並不好,比如要實現一個Excel中的表格效果,估計你能想到的第一個方法就是套Border控制項,用這種方法你需要控制每個Border的邊框,並且在一堆Bordr中找到Grid.Row,Grid. ...
  • .NET C#程式啟動閃退,目錄導致的問題 這是第2次踩這個坑了,很小的編程細節,容易忽略,所以寫個博客,分享給大家。 1.第一次坑:是windows 系統把程式運行成服務,找不到配置文件,原因是以服務運行它的工作目錄是在C:\Windows\System32 2.本次坑:WPF桌面程式通過註冊表設 ...
  • 在分散式系統中,數據的持久化是至關重要的一環。 Orleans 7 引入了強大的持久化功能,使得在分散式環境下管理數據變得更加輕鬆和可靠。 本文將介紹什麼是 Orleans 7 的持久化,如何設置它以及相應的代碼示例。 什麼是 Orleans 7 的持久化? Orleans 7 的持久化是指將 Or ...
  • 前言 .NET Feature Management 是一個用於管理應用程式功能的庫,它可以幫助開發人員在應用程式中輕鬆地添加、移除和管理功能。使用 Feature Management,開發人員可以根據不同用戶、環境或其他條件來動態地控制應用程式中的功能。這使得開發人員可以更靈活地管理應用程式的功 ...
  • 在 WPF 應用程式中,拖放操作是實現用戶交互的重要組成部分。通過拖放操作,用戶可以輕鬆地將數據從一個位置移動到另一個位置,或者將控制項從一個容器移動到另一個容器。然而,WPF 中預設的拖放操作可能並不是那麼好用。為瞭解決這個問題,我們可以自定義一個 Panel 來實現更簡單的拖拽操作。 自定義 Pa ...
  • 在實際使用中,由於涉及到不同編程語言之間互相調用,導致C++ 中的OpenCV與C#中的OpenCvSharp 圖像數據在不同編程語言之間難以有效傳遞。在本文中我們將結合OpenCvSharp源碼實現原理,探究兩種數據之間的通信方式。 ...
  • 一、前言 這是一篇搭建許可權管理系統的系列文章。 隨著網路的發展,信息安全對應任何企業來說都越發的重要,而本系列文章將和大家一起一步一步搭建一個全新的許可權管理系統。 說明:由於搭建一個全新的項目過於繁瑣,所有作者將挑選核心代碼和核心思路進行分享。 二、技術選擇 三、開始設計 1、自主搭建vue前端和. ...
  • Csharper中的表達式樹 這節課來瞭解一下表示式樹是什麼? 在C#中,表達式樹是一種數據結構,它可以表示一些代碼塊,如Lambda表達式或查詢表達式。表達式樹使你能夠查看和操作數據,就像你可以查看和操作代碼一樣。它們通常用於創建動態查詢和解析表達式。 一、認識表達式樹 為什麼要這樣說?它和委托有 ...
  • 在使用Django等框架來操作MySQL時,實際上底層還是通過Python來操作的,首先需要安裝一個驅動程式,在Python3中,驅動程式有多種選擇,比如有pymysql以及mysqlclient等。使用pip命令安裝mysqlclient失敗應如何解決? 安裝的python版本說明 機器同時安裝了 ...