如何優雅的爬妹子網,手把手教你

来源:https://www.cnblogs.com/chengxuyuanaa/archive/2019/12/07/12002605.html
-Advertisement-
Play Games

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯繫我們以作處理。作者:bihl 直接上代碼,哈哈!! from urllib import request import os from user_agents import ua_list i ...


 

前言
本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯繫我們以作處理。
作者:bihl

 
直接上代碼,哈哈!!
from urllib import request
import os
from user_agents import ua_list
import time
import random
import re
import requests
from lxml import etree

class MeiziSpider():
    def __init__(self):
        self.url = 'https://www.mzitu.com/all/'

    def get_html(self, url):
        headers = {'User-Agent': random.choice(ua_list)}
        req = request.Request(url=url, headers=headers)
        res = request.urlopen(req)
        html = res.read()
        return html
        # print(html)

    def re_func(self, re_bds, html):
        pattern = re.compile(re_bds, re.S)
        r_list = pattern.findall(html)
        return r_list

    # 獲取想要的數據 - 解析一級頁面
    # def parse_html(self, url):
    #     one_html = self.get_html(url).decode()
    #     # print(one_html)
    #     re_bds = '<p class="url">.*?<a href="(.*?)" target="_blank">(.*?)</a>'
    #     one_list = self.re_func(re_bds, one_html)
    #     # print(one_list)
    #     # time.sleep(random.randint(1, 3))
    #     self.write_html(one_list)


    def parse_html(self,url):
        html = self.get_html(url).decode()
        parse_obj = etree.HTML(html)
        href_list = parse_obj.xpath('//div[@class="all"]/ul[@class="archives"]/li/p[@class="url"]/a/@href')
        print("href_list:",href_list)
        self.write_html(href_list)





    def write_html(self, href_list):
        for href in href_list:
            two_url = href
            print(two_url)
            time.sleep(random.randint(1, 3))
            self.save_image(two_url)

    def save_image(self, two_url):
        headers = {'Referer': two_url, 'User-Agent': random.choice(ua_list)}
        print('---------two_url-----------', two_url)
        # 向圖片鏈接發請求.得到bytes類型
        i = 0
        while True:
            try:
                img_link = two_url + '/{}'.format(i)
                print("img_link:", img_link)
                html = requests.get(url=img_link, headers=headers).text
                re_bds = ' <div class="main-image"><p><a href="https://www.mzitu.com/.*?" ><img ' \
                         'src="(.*?)" alt="(.*?)" width=".*?" height=".*?" /></a></p>'
                img_html_list = self.re_func(re_bds, html)
                print("img_html_list", img_html_list)
                name = img_html_list[0][1]
                print("-----name:",name)
                direc = '/home/ubuntu/meizi/{}/'.format(name)
                print("direc:",direc)
                if not os.path.exists(direc):
                    os.makedirs(direc)
                img_ = requests.get(url=img_html_list[0][0], headers=headers).content
                filename = direc + name + img_link.split('/')[-1] + '.jpg'
                # print("img_:",img_)
                with open(filename, 'wb') as f:
                    f.write(img_)
                i += 1
            except Exception as e:
                break


if __name__ == '__main__':
    spider = MeiziSpider()
    spider.parse_html('https://www.mzitu.com/all')

大功告成。都看懂了吧。如果有不懂的,可以去小編的Python交流.裙 :一久武其而而流一思(數字的諧音)轉換下可以找到了,裡面有最新Python教程項目!一起交流進步吧


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 本人第一次寫博客,之前都是用自己的日記本。 但是苦於不能時時帶著電腦,實在是不方便。。。。所以決定用手機。正好就是朋友也都在用博客,所以,,真香。。。 廢話不多說,點到為止。。 原理:比較兩個相鄰的元素,將值大的元素交換至右端。 冒泡排序的優點:每進行一趟排序,就會少比較一次,因為每進行一趟排序都會 ...
  • 大家好,歡迎來到樂位元組小樂的Java技術分享園地。這次給大家分享的是Tomcat 一. 什麼是 Tomcat Tomcat 是一個符合 JavaEE WEB 標準的最小的 WEB 容器,所有的 JSP 程式一定要有 WEB 容器的支持才能運行,而且在給定的 WEB 容器裡面都會支持事務處理操作。 T ...
  • 利用JavaFX設計一個井字棋游戲,其中包括了能夠與玩家對戰的AI。AI的實現相比五子棋來說要簡單得多,可以保證AI在後手情況下絕對不會輸,具體實現如下: /* * To change this license header, choose License Headers in Project Pr ...
  • 說在前面 我覺得沒有什麼錯誤是調試器無法解決的,如果沒有,那我再說一遍,如果有,那當我沒說 一、拋出異常 可以通過 raise 語句拋出異常,使程式在我們已經知道的缺陷處停下,併進入到 except 語句 raise句法: raise關鍵字 調用的異常函數名 ValueError (這個函數必須是異 ...
  • 一.賦值即定義 1.運行以下代碼會出現報錯 2.使用global關鍵字解決以上報錯 3.不推薦使用global global總結 x+=1這種是特殊形式產生的錯誤的原因?先引用後賦值,而python動態語言是賦值才算定義,才能被引用。解決辦法,在這條語句前增加x=0之類的賦值語句,或者使用globa ...
  • 作者:陳皓 (@左耳朵耗子) | 編輯:玲玲 來源:https://dwz.cn/YELpxqyC 對,你沒看錯,本文就是教你怎麼寫出讓同事無法維護的代碼。 一、程式命名 1、容易輸入的變數名。比如:Fred,asdf 2、單字母的變數名。比如:a,b,c, x,y,z(如果不夠用,可以考慮a1,a ...
  • 1 開發需要環境 工欲善其事,必先利其器。在正式開發之前我們檢查好需要安裝的拓展,不要開發中發現這些問題,打斷思路影響我們的開發效率。 安裝 swoole 拓展包 安裝 redis 拓展包 安裝 laravel5.5 版本以上 如果你還不會用swoole就out了 2 Laravel 生成命令行 p ...
  • 投資機構或電商企業等積累的客戶交易數據繁雜。需要根據用戶的以往消費記錄分析出不同用戶群體的特征與價值,再針對不同群體提供不同的營銷策略。 用戶分析指標 根據美國資料庫營銷研究所Arthur Hughes的研究,客戶資料庫中有三個神奇的要素,這三個要素構成了數據分析最好的指標 R-最近一次消費(Rec ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...