用python批量下載貼吧圖片 附源代碼

来源:http://www.cnblogs.com/woxinfeixiang2015/archive/2016/04/03/5349828.html
-Advertisement-
Play Games

環境:windows 7 64位;python2.7;IDE pycharm2016.1 功能: 批量下載百度貼吧某吧某頁的所有帖子中的所有圖片 使用方法: 1.安裝python2.7,安裝re模塊,安裝urllib2模塊 2.複製以下源代碼保存為tbImgiDownloader.py文件 3.打開 ...


 

環境:windows 7 64位;python2.7;IDE pycharm2016.1

 

功能:

  批量下載百度貼吧某吧某頁的所有帖子中的所有圖片

 

使用方法:

  1.安裝python2.7,安裝re模塊,安裝urllib2模塊

  2.複製以下源代碼保存為tbImgiDownloader.py文件

  3.打開某個貼吧並複製其網址

  4.打開文件tbImgiDownloader.py在第37行的單引號中輸入網址,保存

    5.雙擊tbImgiDownloader.py

 

說明:

  1.本程式每次可以下載大概50個貼子中的圖片

  2.圖片名字自動保存為時間+位序

  3.如若不能運行,歡迎咨詢

  4.複製源碼時註意別複製行號(我就這樣做過-_-|||)

  5.覺得好用的同學別忘了點推薦哦!

 1 #! /usr/bin/env python
 2 #coding=utf-8
 3 
 4 import re,time
 5 import urllib2,urllib
 6 
 7 
 8 def tiebaImgiDownloader(url):
 9   '''
10   貼吧jpg格式圖片下載器:
11   形式參數某吧某帖子的url地址
12   運行後將保存圖片到本目錄
13   '''
14 
15   pattern = r'img class="BDE_Image" .*?src="(.*?jpg)"'#待爬取鏈接的正則表達式
16   fstr = urllib2.urlopen(url).read()#讀取帖子網頁源代碼為str傳給fstr
17   urllist =  re.findall(pattern,fstr)#爬取所有與正則表達式匹配的jpg鏈接,並保存在urllist中
18   urllist = list( set(urllist) )
19 
20   print '總共爬取%d個圖片鏈接'%len(urllist),'\n'
21 
22   i = 1
23   for furl in urllist:
24     timestr = time.strftime('%Y%m%d%H%M%S')
25     urllib.urlretrieve(furl,timestr+'0%d.jpg'%i)#逐個下載圖片,並命名為當前時間+序數
26     print '已保存圖片',timestr+'0%d.jpg\n'%i
27     i+=1
28 
29   print  '圖片下載完畢!\n\n\n'
30 
31   return True
32 
33 
34 def __main__():
35   print '\n\t\t\t歡迎使用貼吧jpg格式圖片下載器!\n'
36 
37   html = urllib.urlopen('').read()  # 讀取某吧某頁的網頁源代碼  。。。。。。。。。。。。。。。。。粘貼網址區。。。。。。。。。。。。。。。。。。。。。。。。。。。。
38   '''網址示例
39   1.http://tieba.baidu.com/f?kw=%BE%CF%E6%BA%B5t&fr=ala0&loc=rec小鞠
40   2.http://tieba.baidu.com/f?kw=%E9%9E%A0%E5%A9%A7%E7%A5%8E&ie=utf-8&pn=200小鞠
41   3.http://tieba.baidu.com/f?kw=%E5%A3%81%E7%BA%B8&ie=utf-8&tab=good精品壁紙
42   '''
43   pattern = r'a href="(.p.[0-9]*)"'  # 待爬取二級網頁網址的正則表達式
44   urllist = re.findall(pattern, html)  # 抓取所有二級網頁網址,返回list
45   urllist = list(set(urllist))  # 刪除重覆的二級網頁網址
46   preurl = r'http://tieba.baidu.com'  # 二級網頁網址的首碼網址
47   print '抓取%d個二級網頁\n'%len( urllist )
48 
49   for urlOne in urllist:
50     tiebaImgiDownloader(preurl + urlOne)  # 下載二級網頁中的圖片
51 
52   return 0
53 
54 
55 if __name__ == '__main__':
56   __main__()

 後記:此文是本人原創,轉載請註明出處,謝謝合作

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 最近在開發中,需要在微信實現頁面點擊 撥打電話 實現一鍵撥打電話功能。 通過在網上搜索,大約都是2013年的博客和文章是這樣的說法 : 一般的web頁面用 JS實現一鍵撥打電話功能 : <a href="tel:10010">撥打電話</a> ,但在開發中發現微信上會屏蔽常規撥號功能。 因為微信有白 ...
  • Razor語法是在MVC3.0引入的全新的c#語法,取而代之<%...%>語法.用在mvc的view頁面. 首先談一下razor語法的基本用法: 1.如果在頁面輸出單一變數時,只要在c#語句之前加上@符號即可,範例如下: <p> 現在時刻:@DateTime.Now </p> 2、在頁面中輸出一段含 ...
  • 前言 ActionLink用於生成超鏈接,方法用於指向Controller的Action。 擴展方法與參數說明 ActionLink擴展方法如下: 參數類型說明如下: 重載格式 重載方法一: ActionLink(this HtmlHelper htmlHelper, string linkText ...
  • 這裡體現出閉包的數據共用 這裡體現出閉包的局部變數升級為成員變數 (在拉姆達表達式生成的匿名類中不會不會隨著方法執行完後彈棧 而是隨著回調函數徹底執行完後才被回收) ...
  • 一、前言 之前半年時間感覺自己有點浮躁,導致停頓了半年多的時間沒有更新博客,今天重新開始記錄博文,希望自己可以找回初心,繼續沉澱。由於最近做的項目中用到SignalR技術,所以打算總結下Asp.net SignalR的相關內容,希望對剛接觸或者接觸不多的朋友有所幫助。今天的專題就是讓大家可以快速的上 ...
  • 今天有意的在博客園裡面搜索了一下 Z.ExtensionMethods 這個擴展類庫,確發現只搜到跟這個真正相關的才兩篇博文而已,我都點進去看了一下,也都只是提到而已,沒有專門介紹,才引起我寫這篇文檔。 一. Z.ExtensionMethods 介紹 Z.ExtensionMethods 是國外( ...
  • ...
  • 2016-04-03 實現對二維數組排序❖ 對購物車商品表格實現:按數量,按單價分別降序/升序排序。❖ 查閱參考手中, usort( )函數的說明。 要求效果圖如下: 註:此處下方實際應有四個按鈕,分別控制四種不同的排序,因為一些特殊的原因無法給出。 實現代碼如下: sort-cart.php: 這 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...