Python簡易爬蟲爬取百度貼吧圖片

来源:http://www.cnblogs.com/fyqx/archive/2017/07/29/7257976.html
-Advertisement-
Play Games

通過python 來實現這樣一個簡單的爬蟲功能,把我們想要的圖片爬取到本地。(Python版本為3.6.0) 一.獲取整個頁面數據 說明: 向getHtml()函數傳遞一個網址,就可以把整個頁面下載下來. urllib.request 模塊提供了讀取web頁面數據的介面,我們可以像讀取本地文件一樣讀 ...


  

   通過python 來實現這樣一個簡單的爬蟲功能,把我們想要的圖片爬取到本地。(Python版本為3.6.0)

一.獲取整個頁面數據

  

def getHtml(url):
    page=urllib.request.urlopen(url)
    html=page.read()
    return html

 說明: 

  向getHtml()函數傳遞一個網址,就可以把整個頁面下載下來.
  urllib.request 模塊提供了讀取web頁面數據的介面,我們可以像讀取本地文件一樣讀取www和ftp上的數據.

 

二.篩選頁面中想要的數據

  在百度貼吧找到了幾張漂亮的圖片,想要下載下來.使用火狐瀏覽器,在圖片位置滑鼠右鍵單單擊有查看元素選項,點進去之後就會進入開發者模式,並且定位到圖片所在的前段代碼

 

 

現在主要觀察圖片的正則特征,編寫正則表達式.

reg=r'src="(https://imgsa[^>]+\.(?:jpeg|jpg))"'
#參考正則

編寫代碼

def getImg(html):
    reg=r'src="(https://imgsa[^>]+\.(?:jpeg|jpg))"'
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html.decode('utf-8'))
    return imglist

說明:

   re.compile() 可以把正則表達式編譯成一個正則表達式對象.

   re.findall() 方法讀取html 中包含 imgre(正則表達式)的數據。

      運行腳本將得到整個頁面中包含圖片的URL地址。

三.將頁面篩選的數據保存到本地

  編寫一個保存的函數

def saveFile(x):
    if not os.path.isdir(path):
        os.makedirs(path)
    t = os.path.join(path,'%s.img'%x)
    return  t

 

完整代碼:

'''
Created on 2017年7月15日

@author: Administrator
'''
import urllib.request,os
import re

def getHtml(url):
    page=urllib.request.urlopen(url)
    html=page.read()
    return html

path='D:/workspace/Python1/reptile/__pycache__/img'

def saveFile(x):
    if not os.path.isdir(path):
        os.makedirs(path)
    t = os.path.join(path,'%s.img'%x)
    return  t

html=getHtml('https://tieba.baidu.com/p/5248432620')
 
print(html)

print('\n')

def getImg(htnl):
    reg=r'src="(https://imgsa[^>]+\.(?:jpeg|jpg))"'
    imgre=re.compile(reg)
    imglist=re.findall(imgre,html.decode('utf-8'))
    x=0
    for imgurl in imglist:
        urllib.request.urlretrieve(imgurl,saveFile(x))
        print(imgurl)
        x+=1
        if x==23:
            break
    print(x)
    return imglist

getImg(html)
print('end')

 核心是用到了urllib.request.urlretrieve()方法,直接將遠程數據下載到本地

最後,有點問題還沒有完全解決,這裡也向大家請教一下.

  當下載圖片超過23張時會報錯:

    urllib.error.HTTPError: HTTP Error 500: Internal Server Error
  不知道是什麼問題,求助.


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1、前言 surging受到不少.net同學的青睞,也提了不少問題,提的最多的是什麼時候集成API 網關,在這裡回答大家最近已經開始著手研發,應該在1,2個月內會有個初版API網關,其它像Token身份驗證,限流降級等功能完成時間會往後推 最近也更新了surging新的版本 更新內容: 1. Cac ...
  • 一.什麼是ORM 對象關係映射(Object Relational Mapping,簡稱ORM)模式是一種為瞭解決面向對象與關係資料庫存在的互不匹配的現象的技術。 簡單來說,ORM 是通過使用描述對象和資料庫之間映射的元數據,將程式中的對象自動持久化到關係資料庫中或者將資料庫的數據拉取出來 二.EF ...
  • 前言 工作中經常會寫一些重覆的代碼片段,如自動屬性、for迴圈、Action等等,針對這種情況,VisualStudio已經給我們提供了一個非常方便的功能——代碼片段,是我們可以簡單的輸入幾個字母就能生成大段代碼。 但是,工作中總會遇到一些重覆代碼是VisualStudio沒有提供的,這時就需要我們 ...
  • 反射 通過字元串映射或修改程式運行時的狀態、屬性、方法, 有以下4個方法 1、getattr(object, name[, default]) -> value Get a named attribute from an object; getattr(x, 'y') is equivalent t ...
  • 寫這篇文章的目的是想總結一下自己這麼多年來使用java的一些心得體會,主要是和一些java基礎知識點相關的,所以也希望能分享給剛剛入門的Java程式員和打算入Java開發這個行當的準新手們,希望可以給大家一些經驗,能讓大家更好學習和使用Java。 這次介紹的主要內容是和J2SE相關的部分,另外,會在 ...
  • 類的特殊成員方法 1. __doc__ 表示類的描述信息 __doc__是用來列印類的描述信息。就是類的註釋。 2.__module__和__class__ __module__表示當前操作的對象在那個模塊 __class__ 表示當前操作的對象的類是什麼 3. __init__ 構造方法,通過類創 ...
  • 15套java架構師、集群、高可用、高可擴 展、高性能、高併發、性能優化、Spring boot、Redis、ActiveMQ、Nginx、Mycat、Netty、Jvm大型分佈 式項目實戰視頻教程 視頻課程包含: 高級Java架構師包含:Spring boot、Spring cloud、Dubbo ...
  • ReentrantLock是Java併發包中提供的一個可重入的互斥鎖。ReentrantLock和synchronized在基本用法,行為語義上都是類似的,同樣都具有可重入性。只不過相比原生的Synchronized,ReentrantLock增加了一些高級的擴展功能,比如它可以實現公平鎖,同時也可 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...