爬取妹子圖(requests + BeautifulSoup)

来源:https://www.cnblogs.com/forever-snow/archive/2018/03/04/8506746.html
-Advertisement-
Play Games

恢復內容開始 剛剛入門爬蟲,今天先對於單個圖集進行爬取,過幾天再進行翻頁爬取。 使用requests庫和BeautifulSoup庫 目標網站:妹子圖 今天是對於單個圖集的爬取,就選擇一個進行爬取,我選擇的鏈接為:http://www.mzitu.com/123114 首先網站的分析,該網站有一定的 ...


---恢復內容開始---

  剛剛入門爬蟲,今天先對於單個圖集進行爬取,過幾天再進行翻頁爬取。

  使用requests庫和BeautifulSoup庫

  目標網站:妹子圖

今天是對於單個圖集的爬取,就選擇一個進行爬取,我選擇的鏈接為:http://www.mzitu.com/123114

首先網站的分析,該網站有一定的反爬蟲策略,所以應對就是加入headers(目前是小白,目前不知道具體為毛這樣做)

Hostreferer = {
    'User-Agent':'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)',
    'Referer':'http://www.mzitu.com'
}
Picreferer = {
    'User-Agent':'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)',
    'Referer':'http://i.meizitu.net'
}

前一個頭作為請求網站,後一個頭作為破解盜鏈使用

獲得頁面HTML代碼

用requests庫的get方法,加上Hostreferer

def get_html(url):#獲得頁面html代碼
    req = requests.get(url, headers=Hostreferer)
    html = req.text
    return html

 

獲得圖集名稱以及圖集最大頁數

分析網頁構成如圖所示,圖集名稱包含在h2標簽內,且該標簽在整個HTML代碼里有唯一的class="main-title",

而最大頁數只是被span標簽包含,無法通過屬性來提取。所以提取圖集名稱採取標簽名+屬性名一起提取,而最大頁數就採取將span標簽全部找出,最大頁數在span標簽中第11位,

 

def get_page_name(url):#獲得圖集最大頁數和名稱
    html = get_html(url)
    soup = BeautifulSoup(html, 'lxml')
    span = soup.findAll('span')
    title = soup.find('h2', class_="main-title")
    return span[10].text, title.text

 

獲得圖片url鏈接

  分析頁面內容,含有圖片鏈接的img標簽中有一個alt屬性的值是跟圖集名稱相同,可以用這個來直接找到這個標簽,當然也可以先找到div標簽中的class屬性是main-inage,再找到img的src屬性,這裡我就採用第一種方法。

def get_img_url(url, name):
    html = get_html(url)
    soup = BeautifulSoup(html, 'lxml')
    img_url = soup.find('img', alt= name)
    return img_url['src']

 

將圖片存入本地

  得到圖片url鏈接之後要講圖片存到本地,在請求圖片url的時候要加入Picreferer,否則網站會認為你是一個爬蟲,會返還給你一個盜鏈圖

該方法傳入的參數有3個,第一個是圖片url,第二個當前圖片的頁數,用作創建文件,第三個是圖集名稱,在存儲之前先創建了一個名稱是圖集名稱的文件夾,這樣就能將圖片存入指定文件夾

def save_img(img_url, count, name):
    req = requests.get(img_url, headers=Picreferer)
    with open(name+'/'+str(count)+'.jpg', 'wb') as f:
        f.write(req.content)

 

完整代碼

import requests
from bs4 import BeautifulSoup
import os

Hostreferer = {
    'User-Agent':'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)',
    'Referer':'http://www.mzitu.com'
}
Picreferer = {
    'User-Agent':'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)',
    'Referer':'http://i.meizitu.net'
}

def get_page_name(url):#獲得圖集最大頁數和名稱
    html = get_html(url)
    soup = BeautifulSoup(html, 'lxml')
    span = soup.findAll('span')
    title = soup.find('h2', class_="main-title")
    return span[10].text, title.text

def get_html(url):#獲得頁面html代碼
    req = requests.get(url, headers=Hostreferer)
    html = req.text
    return html

def get_img_url(url, name):
    html = get_html(url)
    soup = BeautifulSoup(html, 'lxml')
    img_url = soup.find('img', alt= name)
    return img_url['src']

def save_img(img_url, count, name):
    req = requests.get(img_url, headers=Picreferer)
    with open(name+'/'+str(count)+'.jpg', 'wb') as f:
        f.write(req.content)

def main():
    old_url = "http://www.mzitu.com/123114"
    page, name = get_page_name(old_url)
    os.mkdir(name)
    for i in range(1, int(page)+1):
        url = old_url + "/" + str(i)
        img_url = get_img_url(url, name)
        #print(img_url)
        save_img(img_url, i, name)
        print('保存第' + str(i) + '張圖片成功')
main()

 

  在main方法中先請求到圖集的名稱和最大頁數,並且使用名稱創建一個文件夾來存儲圖片。再從1到最大頁數做一個for迴圈,

然後圖片的每一頁是     圖集首頁 + / + 當前頁數,得到含有圖片內容的url鏈接,後面就可以將得到圖片存入本地。

 

爬取結果

 

  文件夾名稱即為圖集名稱,內部圖片以頁數作為文件名。

 

 

 

#目前就先進行一個圖集的爬取,後面爬取多個圖集我會儘快更新,有什麼問題可以在下方評論,歡迎大家討論。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 交代背景 這篇帖子是為了提供我自己的July Novel站點的小說數據支撐。解決分散式部署爬蟲程式的繁瑣過程,由於本人對shell編程並不熟悉,故而先逐步記錄操作步驟,通過以下操作達到節省時間的方式。 三個前提: 1.首先是四台雲伺服器,全部安裝Cent OS 7.4, 四台伺服器中一臺主伺服器,三 ...
  • 數據類型為set。可以保證set內數據唯一。場景:生成訂單號,因為要求訂單號是絕對不能重覆的,所以資料庫中要設置為unique索引。但是其實可以通過redis,set來做每天的訂單集合。比如A客戶的訂單號201803041,B客戶併發了相同的訂單號,但是A客戶插入了set集合,B客戶插入就會返回0, ...
  • 常用來製作隊列,當然lpush+rpop也能做棧 #將RPUSH RPUSHX LPUSH LPUSHX一併介紹(具體介紹RPUSH和RPUSHX,因為其實就是插入的方向的區別) RPUSH key value [value ...] 向存於 key 的列表的尾部插入所有指定的值。如果 key 不存 ...
  • 八皇後問題 :假設 將八個皇後放到國際象棋盤上,使其兩兩之間無法相互攻擊。共有幾種擺法? 基礎知識: 國際象棋里,棋盤為8X8格。 皇後每步可以沿直線、斜線 走任意格。 思路: 1.想把8個皇後放進去,肯定最終每行只有一個皇後,每列只有一個皇後。 2.設個二維數組chess [ i ] [ j ] ...
  • #設置值 SET key value [EX seconds] [PX milliseconds] [NX|XX] SET命令加上選項已經可以完全取代SETNX, SETEX, PSETEX的功能,所以在將來的版本中,redis可能會不推薦使用並且最終拋棄這幾個命令。 所以我依次介紹下set的不同模 ...
  • 不會造成迴圈引用的block 大部分GCD方法 因為self並沒有對GCD的block進行持有,沒有形成迴圈引用。目前我還沒碰到使用GCD導致迴圈引用的場景,如果某種場景self對GCD的block進行了持有,則才有可能造成迴圈引用。 block並不是屬性值,而是臨時變數 這裡因為block只是一個 ...
  • 1、概念理解和知識鋪墊 在Spring整體框架的核心概念中,容器是核心思想,就是用來管理Bean的整個生命周期的,而在一個項目中,容器不一定只有一個,Spring中可以包括多個容器,而且容器有上下層關係,目前最常見的一種場景就是在一個項目中引入Spring和SpringMVC這兩個框架,那麼它其實就 ...
  • 一、變數是什麼 變數就是一個存儲數據的記憶體空間對象,存儲的內容可以動態變化。定義一個變數,相當於向記憶體申請一個帶地址(變數名)的訪問空間對象,用來存儲數據,方便數據的查詢及運算。 二、變數名規則 1.變數名只能包括字母、數字和下劃線。變數名可以字母或下劃線開頭,不能以數字開頭,例如,可以將變數命名為 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...