...
實現功能:把http://tieba.baidu.com/p/2460150866上的圖片都爬下來保存在本地項目文件里
分為三個step
1.獲取頁面
2.根據正則表達式獲取圖片
3.保存圖片到本地
代碼如下:
#coding=utf-8 import urllib import re #get the page def getHtml(url): page = urllib.urlopen(url) html = page.read() return html def getImg(html): # get the img from the page reg = r'src="(.+?\.jpg)" pic_ext' imgre = re.compile(reg) imglist = re.findall(imgre,html) # save the img to the project folder x = 0 for imgurl in imglist: urllib.urlretrieve(imgurl,'%s.jpg' % x) x+=1 html = getHtml("http://tieba.baidu.com/p/2460150866") print getImg(html)