用python批量下載貼吧圖片附源代碼

-Advertisement-

環境：windows 7 64位；python2.7；IDE pycharm2016.1 功能：批量下載百度貼吧某吧某頁的所有帖子中的所有圖片使用方法： 1.安裝python2.7，安裝re模塊，安裝urllib2模塊 2.複製以下源代碼保存為tbImgiDownloader.py文件 3.打開 ...

環境：windows 7 64位；python2.7；IDE pycharm2016.1

功能：

　　批量下載百度貼吧某吧某頁的所有帖子中的所有圖片

使用方法：

　　1.安裝python2.7，安裝re模塊，安裝urllib2模塊

　　2.複製以下源代碼保存為tbImgiDownloader.py文件

　　3.打開某個貼吧並複製其網址

　　4.打開文件tbImgiDownloader.py在第37行的單引號中輸入網址，保存

　 5.雙擊tbImgiDownloader.py

說明：

　　1.本程式每次可以下載大概50個貼子中的圖片

　　2.圖片名字自動保存為時間+位序

　　3.如若不能運行，歡迎咨詢

　　4.複製源碼時註意別複製行號（我就這樣做過-_-|||）

　　5.覺得好用的同學別忘了點推薦哦！

 1 #! /usr/bin/env python
 2 #coding=utf-8
 3 
 4 import re,time
 5 import urllib2,urllib
 6 
 7 
 8 def tiebaImgiDownloader(url):
 9   '''
10   貼吧jpg格式圖片下載器：
11   形式參數某吧某帖子的url地址
12   運行後將保存圖片到本目錄
13   '''
14 
15   pattern = r'img class="BDE_Image" .*?src="(.*?jpg)"'#待爬取鏈接的正則表達式
16   fstr = urllib2.urlopen(url).read()#讀取帖子網頁源代碼為str傳給fstr
17   urllist =  re.findall(pattern,fstr)#爬取所有與正則表達式匹配的jpg鏈接，並保存在urllist中
18   urllist = list( set(urllist) )
19 
20   print '總共爬取%d個圖片鏈接'%len(urllist),'\n'
21 
22   i = 1
23   for furl in urllist:
24     timestr = time.strftime('%Y%m%d%H%M%S')
25     urllib.urlretrieve(furl,timestr+'0%d.jpg'%i)#逐個下載圖片，並命名為當前時間+序數
26     print '已保存圖片',timestr+'0%d.jpg\n'%i
27     i+=1
28 
29   print  '圖片下載完畢！\n\n\n'
30 
31   return True
32 
33 
34 def __main__():
35   print '\n\t\t\t歡迎使用貼吧jpg格式圖片下載器！\n'
36 
37   html = urllib.urlopen('').read()  # 讀取某吧某頁的網頁源代碼  。。。。。。。。。。。。。。。。。粘貼網址區。。。。。。。。。。。。。。。。。。。。。。。。。。。。
38   '''網址示例
39   1.http://tieba.baidu.com/f?kw=%BE%CF%E6%BA%B5t&fr=ala0&loc=rec小鞠
40   2.http://tieba.baidu.com/f?kw=%E9%9E%A0%E5%A9%A7%E7%A5%8E&ie=utf-8&pn=200小鞠
41   3.http://tieba.baidu.com/f?kw=%E5%A3%81%E7%BA%B8&ie=utf-8&tab=good精品壁紙
42   '''
43   pattern = r'a href="(.p.[0-9]*)"'  # 待爬取二級網頁網址的正則表達式
44   urllist = re.findall(pattern, html)  # 抓取所有二級網頁網址，返回list
45   urllist = list(set(urllist))  # 刪除重覆的二級網頁網址
46   preurl = r'http://tieba.baidu.com'  # 二級網頁網址的首碼網址
47   print '抓取%d個二級網頁\n'%len( urllist )
48 
49   for urlOne in urllist:
50     tiebaImgiDownloader(preurl + urlOne)  # 下載二級網頁中的圖片
51 
52   return 0
53 
54 
55 if __name__ == '__main__':
56   __main__()

後記：此文是本人原創，轉載請註明出處，謝謝合作

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

微信開發：如何一鍵撥打電話

最近在開發中，需要在微信實現頁面點擊撥打電話實現一鍵撥打電話功能。通過在網上搜索，大約都是2013年的博客和文章是這樣的說法：一般的web頁面用 JS實現一鍵撥打電話功能： <a href="tel:10010">撥打電話</a> ，但在開發中發現微信上會屏蔽常規撥號功能。因為微信有白 ...
淺談MVC Razor基本語法

Razor語法是在MVC3.0引入的全新的c#語法，取而代之<%...%>語法.用在mvc的view頁面. 首先談一下razor語法的基本用法: 1.如果在頁面輸出單一變數時，只要在c#語句之前加上@符號即可，範例如下： <p> 現在時刻：@DateTime.Now </p> 2、在頁面中輸出一段含 ...
ASP.NET MVC HtmlHelper之Html.ActionLink

前言 ActionLink用於生成超鏈接，方法用於指向Controller的Action。擴展方法與參數說明 ActionLink擴展方法如下：參數類型說明如下：重載格式重載方法一： ActionLink(this HtmlHelper htmlHelper, string linkText ...
.net閉包的應用

這裡體現出閉包的數據共用這裡體現出閉包的局部變數升級為成員變數（在拉姆達表達式生成的匿名類中不會不會隨著方法執行完後彈棧而是隨著回調函數徹底執行完後才被回收） ...
[Asp.net 開發系列之SignalR篇]專題一：Asp.net SignalR快速入門

一、前言之前半年時間感覺自己有點浮躁，導致停頓了半年多的時間沒有更新博客，今天重新開始記錄博文，希望自己可以找回初心，繼續沉澱。由於最近做的項目中用到SignalR技術，所以打算總結下Asp.net SignalR的相關內容，希望對剛接觸或者接觸不多的朋友有所幫助。今天的專題就是讓大家可以快速的上 ...
Z.ExtensionMethods 一個強大的開源擴展庫

今天有意的在博客園裡面搜索了一下 Z.ExtensionMethods 這個擴展類庫，確發現只搜到跟這個真正相關的才兩篇博文而已，我都點進去看了一下，也都只是提到而已，沒有專門介紹，才引起我寫這篇文檔。一． Z.ExtensionMethods 介紹 Z.ExtensionMethods 是國外（ ...
.NET序員的成長之路

...
使用HTML和PHP，在頁面上迴圈輸出購物車信息表格，並實現通過二維數組的排序

2016-04-03 實現對二維數組排序❖ 對購物車商品表格實現：按數量，按單價分別降序/升序排序。❖ 查閱參考手中， usort( )函數的說明。要求效果圖如下：註：此處下方實際應有四個按鈕，分別控制四種不同的排序，因為一些特殊的原因無法給出。實現代碼如下: sort-cart.php: 這 ...

用python批量下載貼吧圖片 附源代碼

用python批量下載貼吧圖片附源代碼