爬取鬥圖網圖片,使用xpath格式來匹配內容,對請求偽裝成瀏覽器, Referer 防跨域請求

来源:https://www.cnblogs.com/pythonywy/archive/2019/06/21/11066842.html
-Advertisement-
Play Games

6.21自我總結 一.爬取鬥圖網 1.摘要 2.爬取代碼 ...


6.21自我總結

一.爬取鬥圖網

1.摘要

    使用xpath匹配規則查找對應信息文件
    將請求偽裝成瀏覽器
    Referer 防跨域請求

2.爬取代碼

#導入模塊
import requests

#爬取網址
url = 'http://www.doutula.com/'

#偽裝成成瀏覽器請求
#找到request200,200代表請求成功的裡面的內容,按F12裡面找
'''
Referer: http://www.doutula.com/  Referer為防跨域請求,我看了下圖片都是這個所有也可以不加上去,這個簡單來說就是你只能通過這個網址來找到圖片,如果他和url不同我們也把他加入再hearders裡面,和下麵保存一起
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36
'''

#編程字典,為了把我們請求偽裝成瀏覽器
hearders = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36',}

response = requests.get(url,headers=hearders) #hearders是請求頭,body是請求主體

#成功拿到響應

#查找的內容
'''
data-original="http://ww4.sinaimg.cn/bmiddle/9150e4e5gy1g48gluqdp6j203c03ct92.jpg" 
'''

#我們用xpath進行查找
#我們去頁面找,他對應的xpath
img_xpath = './/img/@data-original'

#解析
from lxml.html import etree
#把爬取的內容變成html格式
html = etree.HTML(response.text) #我們請求下來的內容要以text格式
#把xpath的匹配規則丟進去
img_url = html.xpath(img_xpath)
#print(img_url)

#保存文件
#創建個文件夾
import os

#創建當前文件夾位置一個img文件夾
img_file_path = os.path.join(os.path.dirname(__file__),'img')  #獲得文件夾名

if not os.path.exists(img_file_path): #沒有文件夾名創建文件夾
    os.mkdir(img_file_path)

#把圖片保存進該文件夾
count = 1 #用於計數
for img in img_url:

    img_path = os.path.join(img_file_path,f'第{count}張.jpg')    #創建圖片名稱

    with open(img_path,'wb') as fw:

        #獲取圖片的二進位形式
        img_response = requests.get(img)
        img_response = img_response.content

        #寫入文件
        fw.write(img_response)
        count +=1

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 這個月經歷了好多事,一忙就把更新的事給忘了 但是絕對沒有偷懶,格鬥游戲進展神速 8號給我媽下葬回來就研究結婚的事, 因為種種原因,今年先不舉辦婚禮了,其它的照常,後天就去拍婚紗照 媳婦現在還在一邊組裝她買的非常麻煩的禮糖盒子...至少要150人份的 格鬥游戲進展 1:增加2P,並且實現了兩個人換位置 ...
  • 一、冒泡排序介紹 冒泡排序(英語:Bubble Sort)是一種簡單的排序演算法。它重覆地遍歷要排序的數列,一次比較兩個元素,如果他們的順序錯誤就把他們交換過來。遍曆數列的工作是重覆地進行直到沒有再需要交換,也就是說該數列已經排序完成。這個演算法的名字由來是因為越小的元素會經由交換慢慢“浮”到數列的頂端 ...
  • python,flask, ...
  • 在Python中,有這兩個概念容易讓人混淆。第一個是可迭代對象(Iterable),第二個是迭代器(Iterator),第三個是生成器(Generator),這裡暫且不談生成器。 可迭代對象 列表、元組、字元串、字典等都是可迭代對象,可以使用for迴圈遍歷出所有元素的都可以稱為可迭代對象(Itera ...
  • 嵌套 ? 一系列字典存儲在列表or列表作為值存儲在字典or字典中套字典 1. 字典列表 這樣手動一個一個輸入太費勁,讓其自動生成多個: 但此時生成的數量是很多了,可都具有一樣的特征,怎麼辦呢? 通過切片修改部分外星人的特征,就可生成具有不同特征的外星人。 2. 在字典中存儲列表 多個鍵值對時: 運行 ...
  • 一、Cache緩存簡介 從Spring3開始定義Cache和CacheManager介面來統一不同的緩存技術; Cache介面為緩存的組件規範定義,包含緩存的各種操作集合; Cache介面下Spring提供了各種緩存的實現; 如RedisCache,EhCacheCache ,ConcurrentM ...
  • 正則表達式基礎以及Java中使用正則查找 定義: 正則表達式是一些用來匹配和處理文本的字元串 正則的基礎(先大致瞭解下) 1. 正則表達式的作用 1. 查找特定的信息(搜索) 2. 替換一些文本(替換) 2. 正則基礎知識 1. 元字元 . 匹配除換行符(\n)以外的任何單個字元 w 匹配字母、數字 ...
  • 6.8 包的使用 包就是一個包含有init.py文件的文件夾,所以其實我們創建包的目的就是為了用文件夾將文件/模塊組織起來 強調: 在python3中,即使包下沒有__init__.py文件,import 包仍然不會報錯,而在python2中,包下一定要有該文件,否則import 包報錯 包以及包所 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...