python之scrapy實戰爬取表情包

来源:https://www.cnblogs.com/chengxuyuanaa/archive/2020/03/13/12489153.html
-Advertisement-
Play Games

前言:在之前我們學習了scrapy框架的基本使用,今天我們通過實戰(爬取http://www.doutula.com的套圖)來更加瞭解scrapy框架額使用,僅以此來告別我們的爬蟲入門,後續會有一些反爬,驗證碼識別,數據分析的文章。下次我們就從基礎開始學習python,中間也有可能會穿插一些有趣的東 ...


前言:在之前我們學習了scrapy框架的基本使用,今天我們通過實戰(爬取http://www.doutula.com的套圖)來更加瞭解scrapy框架額使用,僅以此來告別我們的爬蟲入門,後續會有一些反爬,驗證碼識別,數據分析的文章。下次我們就從基礎開始學習python,中間也有可能會穿插一些有趣的東西。來幫助我們學習python。

註意:很多人學Python過程中會遇到各種煩惱問題,沒有人幫答疑。為此小編建了個Python全棧免費答疑交流.裙 :一久武其而而流一思(數字的諧音)轉換下可以找到了,不懂的問題有老司機解決裡面還有最新Python教程項目可拿,,一起相互監督共同進步!

一、爬取表情包思路(http://www.doutula.com)

1、打開網站,點擊最新套圖

2、之後我們可以看到沒有套圖,我們需要提取每個套圖的連接

3、獲取連接之後,進入頁面提取圖片就好了

4、我們可以發現該網站還穿插有廣告,我們需要過濾點廣告

二、實戰

關於新建項目我們就不再多說了。不知道的可以看看這篇文章:scrapy的基本使用

1、首先我們提取第一頁的url

 

通過上圖我們可以發現我們想要的url全在class名為col-sm-9的div下,

紅色框的部分為廣告。不是a標簽,所以我們就不用過濾了。我們直接選取col-sm-9下的直接子節點即可

寫下如下代碼:

 

值得註意的是在settings.py中需要添加頭信息和將robots.txt協議修改為False

 

我們打上斷點調試一下:

 

我們發現我們想要的信息已經提取出來了。

註意:在Request中的mate參數,是用來傳遞參數的,傳遞給下一個方法使用。使用方法和字典相似。

2、完善item

我們只需要三個欄位,什麼系列,圖片url,圖片名稱。

 

3、提取item中我們需要的欄位

 

4、下一頁

 

5、保存

因為對scrapy保存圖片沒有研究,所以就自己寫保存圖片的方法。

在pipelines.py種添加如下代碼:

 

並且在settings.py中添加:

 

6、運行

直接報錯,所以我們在settings.py添加頭信息

運行一段時候後又報錯了,看來需要隨機更換表頭信息。

這裡我們使用第三方庫很方便,pip3 install fake_useragent

安裝成功後我們在middlewares.py中導入:from fake_useragent import UserAgent

添加如下代碼:

 

在settings.py文件中添加

 

運行main文件:

 

即可。

小結:

效果圖:

 

 

問題:

在運行過程中遇到了四個問題:

1、沒有獲取大到圖片連接:

可能這個網站有兩個版本獲取的css方式不一樣。

解決方法:可以使用xpath中的|(或)來解決

2、沒有獲取到圖片名稱

解決方法:同上

3、圖片名稱相同

解決方法:可以使用md5加密後添加,你也可以使用你自己的方法

4、在圖片名中含有?/\等非法字元

解決方法:可以通過正則過濾,如果md5加密,那麼一下解決兩個問題。

雖然有些圖片沒有獲取到,但是還是爬取了很多。有興趣的可以嘗試去修改。

註意:很多人學Python過程中會遇到各種煩惱問題,沒有人幫答疑。為此小編建了個Python全棧免費答疑交流.裙 :一久武其而而流一思(數字的諧音)轉換下可以找到了,不懂的問題有老司機解決裡面還有最新Python教程項目可拿,,一起相互監督共同進步!
本文的文字及圖片來源於網路加上自己的想法,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯繫我們以作處理。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 代碼示例全部保存在,歡迎star:https://github.com/EnochZg/golang examples 安裝組件 使用 先創建ini尾碼的配置文件,本文以config.ini為例 在main函數中加入以下代碼讀取username配置 運行後即可讀取到username的值,上文中的Se ...
  • 自從Java發佈以來,基本數據類型就是Java語言的一部分,分別是byte, short, int, long, char, float, double, boolean. 其中: 整型:byte, short, int, long 字元型:char 浮點型:float, double 布爾型:bo ...
  • 分類是在一群已經知道類別標號的樣本中,訓練一種分類器,讓其能夠對某種未知的樣本進行分類,分類演算法屬於一種有監督的學習。分類演算法的分類過程就是建立一種分類模型來描述預定的數據集或概念集,通過分析由屬性描述的資料庫元組來構造模型。分類的目的就是使用分類對新的數據集進行劃分,其主要涉及分類規則的準確性、過 ...
  • 安裝python3(註意代碼規範,不建議用來學習本書,代碼有點差異,報錯)或python2 註:安裝哪一個都可以,但註意安裝完一定要自己去手動添加環境變數,如果安裝二個不同版本環境變數在靠上面的優先被識別,你可以嘗試更換一下順序,用powershell檢測一下,指令:python 如果沒有識別最可能 ...
  • 本人免費整理了Java高級資料,涵蓋了Java、Redis、MongoDB、MySQL、Zookeeper、Spring Cloud、Dubbo高併發分散式等教程,一共30G,需要自己領取。傳送門:https://mp.weixin.qq.com/s/osB-BOl6W-ZLTSttTkqMPQ J ...
  • [TOC] 概述 Range和Cells這兩個函數,都可以獲取單元格內容和將內容寫入單元格。既然這兩個功能相同,那麼速度就成為了選擇的關鍵。 註:Range有著比Cells更強大的功能,大家千萬不要把這兩個函數完全等同。當然了,這也從側面反應了速度上必然Range更慢。 測試速度的代碼 測試結果 測 ...
  • 前言 JDK1.5 之後發佈了JUC(java.util.concurrent),用於解決多線程併發問題。AQS 是一個特別重要的同步框架,很多同步類都藉助於 AQS 實現了對線程同步狀態的管理。 AQS 中最主要的就是獨占鎖和共用鎖的獲取和釋放,以及提供了一些可中斷的獲取鎖,超時等待鎖等方法。 R ...
  • Ps: 看了左神的一節課程,他提出的這個方法來驗證數字的迴文串確實很好,時間複雜度也比較小。 class Solution { public: bool ispalindrome(int n) { if (n < 0) return false; int help = 1; while (n / h ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...