一個鹹魚的Python爬蟲之路（三）：爬取網頁圖片

-Advertisement-

學完Requests庫與Beautifulsoup庫我們今天來實戰一波，爬取網頁圖片。依照現在所學只能爬取圖片在html頁面的而不能爬取由JavaScript生成的圖。所以我找了這個網站http://www.ivsky.com 網站裡面有很多的圖集，我們就找你的名字這個圖集來爬取 http://ww ...

學完Requests庫與Beautifulsoup庫我們今天來實戰一波，爬取網頁圖片。依照現在所學只能爬取圖片在html頁面的而不能爬取由JavaScript生成的圖。
所以我找了這個網站http://www.ivsky.com

網站裡面有很多的圖集，我們就找你的名字這個圖集來爬取

http://www.ivsky.com/bizhi/yourname_v39947/ 來看看這個頁面的源代碼：

可以看到我們想抓取的圖片信息在<li> 裡面然後圖片地址在img裡面那麼我們這裡可以用BeautifulSoup庫方法來解析網頁並抓取圖片信息。

soup =BeautifulSoup(html,'html.parser')
    all_img=soup.find_all('img')
    for img in all_img:
       src=img['src']

url方面我們用requests庫去獲取：

def getHtmlurl(url):         #獲取網址
    try:
       r=requests.get(url)
       r.raise_for_status()
       r.encoding=r.apparent_encoding
       return r.text
    except:
        return ""

我們要將圖片下載下來並存在本地：

       try:                              #創建或判斷路徑圖片是否存在並下載
           if not os.path.exists(root):
               os.mkdir(root)
           if not os.path.exists(path):
               r = requests.get(img_url)
               with open(path, 'wb') as f:
                   f.write(r.content)
                   f.close()
                   print("文件保存成功")
           else:
               print("文件已存在")
       except:
           print("爬取失敗")

整個爬蟲的框架與思路：

import requests
from bs4 import BeautifulSoup
import os

def getHtmlurl(url):  #獲取網址
pass

def getpic(html): #獲取圖片地址並下載
pass

def main(): 主函數
pass

這裡給出完整代碼

import requests
from bs4 import BeautifulSoup
import os

def getHtmlurl(url):         #獲取網址
    try:
       r=requests.get(url)
       r.raise_for_status()
       r.encoding=r.apparent_encoding
       return r.text
    except:
        return ""

def getpic(html): #獲取圖片地址並下載
    soup =BeautifulSoup(html,'html.parser')
    all_img=soup.find_all('img')
    for img in all_img:
       src=img['src']
       img_url=src
       print (img_url)
       root='D:/pic/'
       path = root + img_url.split('/')[-1]
       try:                              #創建或判斷路徑圖片是否存在並下載
           if not os.path.exists(root):
               os.mkdir(root)
           if not os.path.exists(path):
               r = requests.get(img_url)
               with open(path, 'wb') as f:
                   f.write(r.content)
                   f.close()
                   print("文件保存成功")
           else:
               print("文件已存在")
       except:
           print("爬取失敗")



def main():
    url='http://www.ivsky.com/bizhi/yourname_v39947/'
    html=(getHtmlurl(url))

    print(getpic(html))
main()

運行代碼：

我們可以看到圖片都保存在本地了

這就是簡單的實戰案列，大家可以自己試試。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Java學習方法

1、縱觀大局，卻也精於細節階段性瀏覽，不要碰到一點小知識就死磕，把握一個度。 2、註重練習（複習）複習或者強化練習太重要了，不然太容易忘記了。 ...
java文件上傳Demo

說到文件上傳我們要做到： 1.引入兩個包：commons-fileupload-1.2.1.jar和commons-io-1.3.2.jar 2.將form改為上傳文件模式：enctype="multipart/form-data" 3.開始編寫相關代碼這裡會用到幾個關鍵的類：磁碟文件工廠Disk ...
第四講樹（中）

04 樹4：是否同一棵二叉搜索樹 Description: 給定一個插入序列就可以唯一確定一棵二叉搜索樹。然而，一棵給定的二叉搜索樹卻可以由多種不同的插入序列得到。例如分別按照序列{2, 1, 3}和{2, 3, 1}插入初始為空的二叉搜索樹，都得到一樣的結果。於是對於輸入的各種插入序列，你需要判斷 ...
python 第三方庫的安裝，pip的使用

python是一款簡單易用的編程語言，特別是其第三方庫，能夠方便我們快速進入工作，但其第三方庫的安裝困擾很多人. 現在安裝python時，已經能自動安裝pip了安裝成功後，我們可以在Scripts 文件夾下看到pip 使用pip 安裝類庫也比較簡單 pip install ... 即可 ...
與redmine對接

redmine使用的版本為 2.3.01、打開rest web service2、jar依賴 3、代碼 ...
插入排序-Python與PHP實現版

插入排序Python實現插入排序PHP實現插入排序時間複雜度分析插入排序演算法的時間複雜度為O（n2），但是插入排序法比冒泡和選擇排序的性能更好。 ...
Python進階之裝飾器

函數也是對象要理解Python裝飾器，首先要明白在Python中，函數也是一種對象，因此可以把定義函數時的函數名看作是函數對象的一個引用。既然是引用，因此可以將函數賦值給一個變數，也可以把函數作為一個參數傳遞或返回。同時，函數體中也可以再定義函數。裝飾器本質可以通過編寫一個純函數的例子來還原裝 ...
Java_中建立0-10M的消息（字元串）

直接用StringBuilder，它的append方法方便快速構建字元串。 StringBuilder sb1=new StringBuilder(); for(int i=0;i<1024*1024*10;i++){ sb1.append('a'+""); } 取消息時 String str=sb ...