一個鹹魚的Python爬蟲之路(三):爬取網頁圖片

来源:http://www.cnblogs.com/franklv/archive/2017/05/10/6829387.html
-Advertisement-
Play Games

學完Requests庫與Beautifulsoup庫我們今天來實戰一波,爬取網頁圖片。依照現在所學只能爬取圖片在html頁面的而不能爬取由JavaScript生成的圖。所以我找了這個網站http://www.ivsky.com 網站裡面有很多的圖集,我們就找你的名字這個圖集來爬取 http://ww ...


學完Requests庫與Beautifulsoup庫我們今天來實戰一波,爬取網頁圖片。依照現在所學只能爬取圖片在html頁面的而不能爬取由JavaScript生成的圖。
所以我找了這個網站http://www.ivsky.com

 

網站裡面有很多的圖集,我們就找你的名字這個圖集來爬取

 

  http://www.ivsky.com/bizhi/yourname_v39947/ 來看看這個頁面的源代碼:

可以看到我們想抓取的圖片信息在<li> 裡面然後圖片地址在img裡面那麼我們這裡可以用BeautifulSoup庫方法來解析網頁並抓取圖片信息。

soup =BeautifulSoup(html,'html.parser')
    all_img=soup.find_all('img')
    for img in all_img:
       src=img['src']


url方面我們用requests庫去獲取:

def getHtmlurl(url):         #獲取網址
    try:
       r=requests.get(url)
       r.raise_for_status()
       r.encoding=r.apparent_encoding
       return r.text
    except:
        return ""

我們要將圖片下載下來並存在本地:

       try:                              #創建或判斷路徑圖片是否存在並下載
           if not os.path.exists(root):
               os.mkdir(root)
           if not os.path.exists(path):
               r = requests.get(img_url)
               with open(path, 'wb') as f:
                   f.write(r.content)
                   f.close()
                   print("文件保存成功")
           else:
               print("文件已存在")
       except:
           print("爬取失敗")


整個爬蟲的框架與思路:

import requests
from bs4 import BeautifulSoup
import os

def getHtmlurl(url):  #獲取網址
pass

def getpic(html): #獲取圖片地址並下載
pass

def main(): 主函數
pass


這裡給出完整代碼

import requests
from bs4 import BeautifulSoup
import os

def getHtmlurl(url):         #獲取網址
    try:
       r=requests.get(url)
       r.raise_for_status()
       r.encoding=r.apparent_encoding
       return r.text
    except:
        return ""

def getpic(html): #獲取圖片地址並下載
    soup =BeautifulSoup(html,'html.parser')
    all_img=soup.find_all('img')
    for img in all_img:
       src=img['src']
       img_url=src
       print (img_url)
       root='D:/pic/'
       path = root + img_url.split('/')[-1]
       try:                              #創建或判斷路徑圖片是否存在並下載
           if not os.path.exists(root):
               os.mkdir(root)
           if not os.path.exists(path):
               r = requests.get(img_url)
               with open(path, 'wb') as f:
                   f.write(r.content)
                   f.close()
                   print("文件保存成功")
           else:
               print("文件已存在")
       except:
           print("爬取失敗")



def main():
    url='http://www.ivsky.com/bizhi/yourname_v39947/'
    html=(getHtmlurl(url))

    print(getpic(html))
main()


運行代碼:

我們可以看到圖片都保存在本地了 這就是簡單的實戰案列,大家可以自己試試。

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1、 縱觀大局,卻也精於細節 階段性瀏覽,不要碰到一點小知識就死磕,把握一個度。 2、 註重練習(複習) 複習或者強化練習太重要了,不然太容易忘記了。 ...
  • 說到文件上傳我們要做到: 1.引入兩個包:commons-fileupload-1.2.1.jar和commons-io-1.3.2.jar 2.將form改為上傳文件模式:enctype="multipart/form-data" 3.開始編寫相關代碼 這裡會用到幾個關鍵的類:磁碟文件工廠Disk ...
  • 04 樹4:是否同一棵二叉搜索樹 Description: 給定一個插入序列就可以唯一確定一棵二叉搜索樹。然而,一棵給定的二叉搜索樹卻可以由多種不同的插入序列得到。例如分別按照序列{2, 1, 3}和{2, 3, 1}插入初始為空的二叉搜索樹,都得到一樣的結果。於是對於輸入的各種插入序列,你需要判斷 ...
  • python是一款簡單易用的編程語言,特別是其第三方庫,能夠方便我們快速進入工作,但其第三方庫的安裝困擾很多人. 現在安裝python時,已經能自動安裝pip了 安裝成功後,我們可以在Scripts 文件夾下看到pip 使用pip 安裝類庫也比較簡單 pip install ... 即可 ...
  • redmine使用的版本為 2.3.01、打開rest web service2、jar依賴 3、代碼 ...
  • 插入排序Python實現 插入排序PHP實現 插入排序時間複雜度分析 插入排序演算法的時間複雜度為O(n2),但是插入排序法比冒泡和選擇排序的性能更好。 ...
  • 函數也是對象 要理解Python裝飾器,首先要明白在Python中,函數也是一種對象,因此可以把定義函數時的函數名看作是函數對象的一個引用。既然是引用,因此可以將函數賦值給一個變數,也可以把函數作為一個參數傳遞或返回。同時,函數體中也可以再定義函數。 裝飾器本質 可以通過編寫一個純函數的例子來還原裝 ...
  • 直接用StringBuilder,它的append方法方便快速構建字元串。 StringBuilder sb1=new StringBuilder(); for(int i=0;i<1024*1024*10;i++){ sb1.append('a'+""); } 取消息時 String str=sb ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...