6.21自我總結

一.爬取鬥圖網

1.摘要

    使用xpath匹配規則查找對應信息文件
    將請求偽裝成瀏覽器
    Referer 防跨域請求

2.爬取代碼

#導入模塊
import requests

#爬取網址
url = 'http://www.doutula.com/'

#偽裝成成瀏覽器請求
#找到request200,200代表請求成功的裡面的內容,按F12裡面找
'''
Referer: http://www.doutula.com/  Referer為防跨域請求,我看了下圖片都是這個所有也可以不加上去,這個簡單來說就是你只能通過這個網址來找到圖片,如果他和url不同我們也把他加入再hearders裡面,和下麵保存一起
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36
'''

#編程字典,為了把我們請求偽裝成瀏覽器
hearders = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36',}

response = requests.get(url,headers=hearders) #hearders是請求頭,body是請求主體

#成功拿到響應

#查找的內容
'''
data-original="http://ww4.sinaimg.cn/bmiddle/9150e4e5gy1g48gluqdp6j203c03ct92.jpg" 
'''

#我們用xpath進行查找
#我們去頁面找,他對應的xpath
img_xpath = './/img/@data-original'

#解析
from lxml.html import etree
#把爬取的內容變成html格式
html = etree.HTML(response.text) #我們請求下來的內容要以text格式
#把xpath的匹配規則丟進去
img_url = html.xpath(img_xpath)
#print(img_url)

#保存文件
#創建個文件夾
import os

#創建當前文件夾位置一個img文件夾
img_file_path = os.path.join(os.path.dirname(__file__),'img')  #獲得文件夾名

if not os.path.exists(img_file_path): #沒有文件夾名創建文件夾
    os.mkdir(img_file_path)

#把圖片保存進該文件夾
count = 1 #用於計數
for img in img_url:

    img_path = os.path.join(img_file_path,f'第{count}張.jpg')    #創建圖片名稱

    with open(img_path,'wb') as fw:

        #獲取圖片的二進位形式
        img_response = requests.get(img)
        img_response = img_response.content

        #寫入文件
        fw.write(img_response)
        count +=1

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

HO引擎近況20190622

這個月經歷了好多事,一忙就把更新的事給忘了但是絕對沒有偷懶,格鬥游戲進展神速 8號給我媽下葬回來就研究結婚的事, 因為種種原因,今年先不舉辦婚禮了,其它的照常,後天就去拍婚紗照媳婦現在還在一邊組裝她買的非常麻煩的禮糖盒子...至少要150人份的格鬥游戲進展 1:增加2P,並且實現了兩個人換位置 ...
python演算法與數據結構-冒泡排序(32)

一、冒泡排序介紹冒泡排序（英語：Bubble Sort）是一種簡單的排序演算法。它重覆地遍歷要排序的數列，一次比較兩個元素，如果他們的順序錯誤就把他們交換過來。遍曆數列的工作是重覆地進行直到沒有再需要交換，也就是說該數列已經排序完成。這個演算法的名字由來是因為越小的元素會經由交換慢慢“浮”到數列的頂端 ...
Flask 理論知識彙總

python，flask， ...
Python中可迭代對象、迭代器以及iter()函數的兩個用法詳解

在Python中，有這兩個概念容易讓人混淆。第一個是可迭代對象（Iterable），第二個是迭代器（Iterator），第三個是生成器（Generator），這裡暫且不談生成器。可迭代對象列表、元組、字元串、字典等都是可迭代對象，可以使用for迴圈遍歷出所有元素的都可以稱為可迭代對象（Itera ...
字典的學習3——嵌套——Python編程從入門到實踐

嵌套？一系列字典存儲在列表or列表作為值存儲在字典or字典中套字典 1. 字典列表這樣手動一個一個輸入太費勁，讓其自動生成多個：但此時生成的數量是很多了，可都具有一樣的特征，怎麼辦呢？通過切片修改部分外星人的特征，就可生成具有不同特征的外星人。 2. 在字典中存儲列表多個鍵值對時：運行 ...
SpringBoot2.0 基礎案例(13)：基於Cache註解模式，管理Redis緩存

一、Cache緩存簡介從Spring3開始定義Cache和CacheManager介面來統一不同的緩存技術； Cache介面為緩存的組件規範定義，包含緩存的各種操作集合； Cache介面下Spring提供了各種緩存的實現；如RedisCache，EhCacheCache ,ConcurrentM ...
Java提取文本文檔中的所有網址（小案例介紹正則基礎知識）

正則表達式基礎以及Java中使用正則查找定義：正則表達式是一些用來匹配和處理文本的字元串正則的基礎（先大致瞭解下） 1. 正則表達式的作用 1. 查找特定的信息（搜索） 2. 替換一些文本（替換） 2. 正則基礎知識 1. 元字元 . 匹配除換行符（\n）以外的任何單個字元 w 匹配字母、數字 ...
python 之包的使用

6.8 包的使用包就是一個包含有init.py文件的文件夾，所以其實我們創建包的目的就是為了用文件夾將文件/模塊組織起來強調：在python3中，即使包下沒有__init__.py文件，import 包仍然不會報錯，而在python2中，包下一定要有該文件，否則import 包報錯包以及包所 ...