【Python爬蟲實戰】圖片爬蟲-淘寶圖片爬蟲--千圖網圖片爬蟲

-Advertisement-

所謂圖片爬蟲，就是從互聯網中自動把對方伺服器上的圖片爬下來的爬蟲程式。有些圖片是直接在html文件裡面，有些是隱藏在JS文件中，在html文件中只需要我們分析源碼就能得到如果是隱藏在JS文件中，那麼就需要進行抓包分析，這兒先只講分析html源碼得出圖片，註意這兒我們需要讀取的是高清原圖，不是經過網... ...

所謂圖片爬蟲，就是從互聯網中自動把對方伺服器上的圖片爬下來的爬蟲程式。
有些圖片是直接在html文件裡面，有些是隱藏在JS文件中，在html文件中只需要我們分析源碼就能得到
如果是隱藏在JS文件中，那麼就需要進行抓包分析，這兒先只講分析html源碼得出圖片，
註意 這兒我們需要讀取的是高清原圖，不是經過網站處理過的小圖片。

首先需要根據網址進行分析，分析出每一類商品的第幾頁第幾頁的網址之間的關聯進行自動載入指定頁碼（例如淘寶每下一頁為鏈接中s加44）

然後查看頁面源碼，找到圖片對應的鏈接，分析剔除掉後加修飾過的內容，將關鍵的內容截取在源碼中進行搜索即可找到圖片的原始地址
也就是源碼的地址。根據這個就能得到所要構造的正則表達式。
然後直接上代碼

import urllib.request
import re
import urllib.error

keyname = "短裙"
key = urllib.request.quote(keyname) #進行編碼

#偽裝瀏覽器 （因為淘寶能夠識別是否為爬蟲程式）
headers = ("User-Agent","Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36")
opener = urllib.request.build_opener()
opener.addheaders = [headers]
#將opener添加為全局
urllib.request.install_opener(opener)

#要爬取多少頁那麼進行多少次迴圈
for i in range(0,2):
    url = "https://s.taobao.com/search?q="+key+"&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20171209&ie=utf8&bcoffset=4&ntoffset=4&p4ppushleft=1%2C48&s="+str(i * 44)
    #先對所在的頁面的主頁進行爬取讀取內容，也就是讀取源碼
    data = urllib.request.urlopen(url).read().decode("utf-8","ignore")
    #構造正則表達式
    pattern = 'pic_url":"//(.*?)"'
    #在當前頁根據正則進行查找，查找到的所有連接存儲為一個list
    imagelist = re.compile(pattern).findall(data)
    #遍歷列表進行每個圖片的存儲到本地文件夾
    for j in range(0,len(imagelist)):
        thisimg = imagelist[j]
        thisimageurl = "http://"+thisimg
        file = "E://pythoncode/taobaoimg1/"+"b"+str(i)+str(j)+".jpg"
        urllib.request.urlretrieve(thisimageurl,file)



同理進行一個千圖網（http://www.58pic.com/）的高清原圖的爬取

第一步也是分析網站的源碼找到規律實現下一頁的載入，然後進行圖片鏈接的分析得到真實高清原圖的網址鏈接構建正則表達式
先對當前頁進行爬取，從爬取的內容中使用正則進行頁面查找，再對找到的每一個圖片鏈接進行爬取存儲到本地文件夾中。
直接上代碼

import urllib.request
import urllib.error
import re

key = "chengshi"

proxy = urllib.request.ProxyHandler({"http":"202.96.142.2:3128"})

opener = urllib.request.build_opener(proxy,urllib.request.HTTPHandler)
urllib.request.install_opener(opener)

for i in range(1,2):
    url = "http://www.58pic.com/tupian/"+key+"-0-0-"+str(i)+".html"
    data = urllib.request.urlopen(url).read().decode("utf-8","ignore")
    pattern = '"(http://pic.qiantucdn.com/58pic/.*?)!'
    imagelist = re.compile(pattern).findall(data)
    # print(imagelist)
    for j in range(0,len(imagelist)):
        thisurl = imagelist[j]
        file = "E:/pythoncode/qiantu/"+str(i)+str(j)+".jpg"
        urllib.request.urlretrieve(thisurl,file)

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

CLR via C#讀書筆記一：CLR的執行模型

CLR(Common Language Runtime)公共語言進行時是一個可由多種編程語言使用的“進行時”。將源代碼編譯成托管模塊可用支持CLR的任何語言創建源代碼文件，然後用對應的編譯器檢查語法和分析源代碼。無論選擇哪個編譯器，結果都是托管模塊(managed module)。托管模塊是標準 ...
元類與面向切麵編程

元類在 Python中，實例對象是由類生成的，而類本身也是可以被傳遞和自省的對象。那麼類對象是用什麼創建和生成的呢？答案是元類，元類就是一種知道如何創建和管理類的對象。讓我們回顧一個內置函數type()，type不僅可以返回對象的類型，而且可以使用類名稱、基類元組、類主體定義的字典作為參數來創建 ...
前後端連接（BootStrap_MySQL_MyEclipse）

今天學了前後臺的連接。之前腦子一團漿糊，就連後端對資料庫的操作都不熟。就一點點來寫吧，會多少寫多少，錯了以後再改吧，可能進步比較慢，但肯定會慢慢好起來的。以前一直對資料庫連接就不太懂。先從資料庫連接寫起。疑問點1：之前就是不明白為什麼要有一個con,而且還是Connection類型的，理解：你 ...
深入理解java虛擬機----->垃圾收集器與記憶體分配策略（下）

1. 前言記憶體分配與回收策略 JVM堆的結構分析（新生代、老年代、永久代）對象優先在Eden分配大對象直接進入老年代長期存活的對象將進入老年代動態對象年齡判定空間分配擔保 JVM堆的結構分析（新生代、老年代、永久代）對象優先在Eden分配大對象直接進入老年代長期存活的對象將進入老年 ...
Golang學習--包管理工具glide

上一篇文章中我們已經成功的運行了go的代碼，這是我們邁出的最基礎的一步。一個項目通常會依賴很多外部的庫，當依賴的庫比較多的時候，手工管理就會比較麻煩，這個時候就需要包管理工具出場了，幫你管理好所有依賴的庫。 php項目中使用composer，javascript項目中使用npm，那麼在go項目中， ...
【Python爬蟲實戰】多線程爬蟲---糗事百科段子爬取

多線程爬蟲：即程式中的某些程式段並行執行，合理地設置多線程，可以讓爬蟲效率更高糗事百科段子普通爬蟲和多線程爬蟲分析該網址鏈接得出：https://www.qiushibaike.com/8hr/page/頁碼/多線程爬蟲也就和JAVA的多線程差不多，直接上代碼 1 ''' 2 #此處代碼為普通爬蟲 ... ...
java策略模式

模式的定義策略模式定義了一系列的演算法，並將每一個演算法封裝起來，而且它們還可以相互替換。策略模式讓演算法獨立於使用它的客戶而獨立變化。使用場景針對同一類型問題的多種處理方式，僅僅是具體行為有差別時。需要安全的封裝多種同一類型的操作時。出現同一抽象多個子類，而又需要使用if-else 或者 sw ...
#198: 在一次考試中，每個學生的成績都不相同，現知道了每個學生的學號和成績，求考第k名學生的學號和成績。

1 #include<stdio.h> 2 struct Student 3 { 4 int num; 5 float score; 6 }a[105]; //定義結構體的類型 7 8 void input(struct Student *a,int n) 9 { 10 int i; 11 for( ...

【Python爬蟲實戰】 圖片爬蟲-淘寶圖片爬蟲--千圖網圖片爬蟲

【Python爬蟲實戰】圖片爬蟲-淘寶圖片爬蟲--千圖網圖片爬蟲