Python簡易爬蟲爬取百度貼吧圖片

-Advertisement-

通過python 來實現這樣一個簡單的爬蟲功能，把我們想要的圖片爬取到本地。(Python版本為3.6.0) 一.獲取整個頁面數據說明: 向getHtml()函數傳遞一個網址，就可以把整個頁面下載下來. urllib.request 模塊提供了讀取web頁面數據的介面，我們可以像讀取本地文件一樣讀 ...

　　　通過python 來實現這樣一個簡單的爬蟲功能，把我們想要的圖片爬取到本地。(Python版本為3.6.0)

一.獲取整個頁面數據

def getHtml(url):
    page=urllib.request.urlopen(url)
    html=page.read()
    return html

　說明:　

　　向getHtml()函數傳遞一個網址，就可以把整個頁面下載下來.
　　urllib.request 模塊提供了讀取web頁面數據的介面，我們可以像讀取本地文件一樣讀取www和ftp上的數據.

二.篩選頁面中想要的數據

　　在百度貼吧找到了幾張漂亮的圖片,想要下載下來.使用火狐瀏覽器,在圖片位置滑鼠右鍵單單擊有查看元素選項,點進去之後就會進入開發者模式,並且定位到圖片所在的前段代碼

現在主要觀察圖片的正則特征,編寫正則表達式.

reg=r'src="(https://imgsa[^>]+\.(?:jpeg|jpg))"'
#參考正則

編寫代碼

def getImg(html):
    reg=r'src="(https://imgsa[^>]+\.(?:jpeg|jpg))"'
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html.decode('utf-8'))
    return imglist

說明:

　　　re.compile() 可以把正則表達式編譯成一個正則表達式對象.

　　　re.findall() 方法讀取html 中包含 imgre（正則表達式）的數據。

　　　　運行腳本將得到整個頁面中包含圖片的URL地址。

三.將頁面篩選的數據保存到本地

　　編寫一個保存的函數

def saveFile(x):
    if not os.path.isdir(path):
        os.makedirs(path)
    t = os.path.join(path,'%s.img'%x)
    return  t

完整代碼:

'''
Created on 2017年7月15日

@author: Administrator
'''
import urllib.request,os
import re

def getHtml(url):
    page=urllib.request.urlopen(url)
    html=page.read()
    return html

path='D:/workspace/Python1/reptile/__pycache__/img'

def saveFile(x):
    if not os.path.isdir(path):
        os.makedirs(path)
    t = os.path.join(path,'%s.img'%x)
    return  t

html=getHtml('https://tieba.baidu.com/p/5248432620')
 
print(html)

print('\n')

def getImg(htnl):
    reg=r'src="(https://imgsa[^>]+\.(?:jpeg|jpg))"'
    imgre=re.compile(reg)
    imglist=re.findall(imgre,html.decode('utf-8'))
    x=0
    for imgurl in imglist:
        urllib.request.urlretrieve(imgurl,saveFile(x))
        print(imgurl)
        x+=1
        if x==23:
            break
    print(x)
    return imglist

getImg(html)
print('end')

核心是用到了urllib.request.urlretrieve()方法，直接將遠程數據下載到本地

最後,有點問題還沒有完全解決,這裡也向大家請教一下.

　　當下載圖片超過23張時會報錯:

　　　　urllib.error.HTTPError: HTTP Error 500: Internal Server Error
　　不知道是什麼問題,求助.

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

基於.NET CORE微服務框架 -談談Cache中間件和緩存降級

1、前言 surging受到不少.net同學的青睞，也提了不少問題，提的最多的是什麼時候集成API 網關，在這裡回答大家最近已經開始著手研發，應該在1,2個月內會有個初版API網關，其它像Token身份驗證，限流降級等功能完成時間會往後推最近也更新了surging新的版本更新內容： 1. Cac ...
模擬EF CodeFist 實現自己的ORM

一.什麼是ORM 對象關係映射（Object Relational Mapping，簡稱ORM）模式是一種為瞭解決面向對象與關係資料庫存在的互不匹配的現象的技術。簡單來說，ORM 是通過使用描述對象和資料庫之間映射的元數據，將程式中的對象自動持久化到關係資料庫中或者將資料庫的數據拉取出來二.EF ...
創建自己的代碼片段（CodeSnippet）

前言工作中經常會寫一些重覆的代碼片段，如自動屬性、for迴圈、Action等等，針對這種情況，VisualStudio已經給我們提供了一個非常方便的功能——代碼片段，是我們可以簡單的輸入幾個字母就能生成大段代碼。但是，工作中總會遇到一些重覆代碼是VisualStudio沒有提供的，這時就需要我們 ...
day7面向對象--反射

反射通過字元串映射或修改程式運行時的狀態、屬性、方法, 有以下4個方法 1、getattr(object, name[, default]) -> value Get a named attribute from an object; getattr(x, 'y') is equivalent t ...
給Java新手的一些建議——Java知識點歸納(Java基礎部分)

寫這篇文章的目的是想總結一下自己這麼多年來使用java的一些心得體會，主要是和一些java基礎知識點相關的，所以也希望能分享給剛剛入門的Java程式員和打算入Java開發這個行當的準新手們，希望可以給大家一些經驗，能讓大家更好學習和使用Java。這次介紹的主要內容是和J2SE相關的部分，另外，會在 ...
day6面向對象--類的特殊成員方法

類的特殊成員方法 1. __doc__ 表示類的描述信息 __doc__是用來列印類的描述信息。就是類的註釋。 2.__module__和__class__ __module__表示當前操作的對象在那個模塊 __class__ 表示當前操作的對象的類是什麼 3. __init__ 構造方法，通過類創 ...
15套java架構師大型分散式項目實戰視頻教程

15套java架構師、集群、高可用、高可擴展、高性能、高併發、性能優化、Spring boot、Redis、ActiveMQ、Nginx、Mycat、Netty、Jvm大型分佈式項目實戰視頻教程視頻課程包含：高級Java架構師包含：Spring boot、Spring cloud、Dubbo ...
ReentrantLock實現原理及源碼分析

ReentrantLock是Java併發包中提供的一個可重入的互斥鎖。ReentrantLock和synchronized在基本用法，行為語義上都是類似的，同樣都具有可重入性。只不過相比原生的Synchronized，ReentrantLock增加了一些高級的擴展功能，比如它可以實現公平鎖，同時也可 ...