爬蟲超級簡單入門_ZenDei技術網路在線

爬蟲超級簡單入門

-Advertisement-

前兩天看到某個程式猿寫了個爬蟲，然後公司200多人被端，作為在入門python 的小白，產生了興趣，於是乎學習了下，寫了一個小爬蟲，做一些入門的抓爬，爬點美女圖片吧！ let's do it 看一眼美女，寫代碼的興緻就上來了爬蟲是通過找到要爬的圖片的url 然後進行下載，這個url怎麼找 ...

前兩天看到某個程式猿寫了個爬蟲，然後公司200多人被端，作為在入門python 的小白，產生了興趣，於是乎學習了下，寫了一個小爬蟲，做一些入門的抓爬，爬點美女圖片吧！

let's do it

看一眼美女，寫代碼的興緻就上來了

爬蟲是通過找到要爬的圖片的url 然後進行下載，這個url怎麼找呢？

寫過網頁的應該都知道，但是我沒寫過，我們打開網頁後按F12彈出調試工具

選擇network,在左側選擇一個有Request Headers 的

然後可以看到有 Referer, 字面意思是引用，在此處是用來防止跨域請求，（我的理解是只能通過該網頁，來獲取左側選擇的文件也就是這個頁面上的元素），一會我們的請求頭要用到

User-Agent: 用戶代理，裡面發現有Chrome這個單詞，猜測是瀏覽器，於是換個火狐試了下裡面有Firefox，這應該是瀏覽器代理每個瀏覽器不同，我們用這個來偽裝成瀏覽器訪問

headers = {
    'Referer':'https://www.85814.com/meinv/gaotiaomeinv/',
    'User-Agent':'ozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.104 Safari/537.36'
}

我們把它放到一個字典中，因為後面類型要求是字典

接著用Request庫連接下網站

import requests
headers = {
    'Referer':'https://www.85814.com/meinv/gaotiaomeinv/',
    'User-Agent':'ozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.104 Safari/537.36'
}

url = 'https://www.85814.com/meinv/gaotiaomeinv/'
resp = requests.get(url,headers=headers)
pass

可以看到 Response 為 200 表示連接上了

很好

下一步我們就要獲取圖片的url了，點擊開發工具左上角的元素審查，然後點擊一張圖

可以看到，img 的alt屬性對於圖的標題， src就是圖片的源地址，可以複製出來，在進入這個網站試試。

多試幾個圖片的話，知道中間的大圖數據組織方式是一樣的，我們可以通過一個路徑匹配來查找所有的src

Ctrl+F

下麵是一個匹配模式，.//p[@id="l"] .//p會匹配當前頁面下所有p標簽這裡用屬性id ="i"限制，找到主框，然後雙斜杠在p[@id="l"] 下麵匹配所有的img。後面/@src 是獲得所有的src 也就是url

上代碼

from lxml import etree
html = etree.HTML(resp.text)
srcs = html.xpath('.//p[@id="l"]//img/@src')

得到的srcs是一個 list 只要遍歷這個list 對每一個url 的圖片進行download

for src in srcs:
    time.sleep(0.2)
    filename= src.split('/')[-1]
    img = requests.get(src, headers=headers,timeout=10,verify=False)
    with open( 'imgs/'+ filename,'wb') as file:
        file.write(img.content)

用到了time,用來延遲，防止請求過快被伺服器認作受到攻擊，之前本人就被一個網站封ip了，還有很多其他方法，比如每次用不同的 User-Agent偽裝成不同的瀏覽器，還有用代理ip, 之後會提到。

然後在當前目錄創建imgs路徑， img.context是圖片的內容。

存的是bytes 所以用'wb' 打開。

運行程式在img下就有很多美女圖片了

一個簡單的爬蟲就完成了。

學習尚淺，有錯誤或不當之處還請指正。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

git使用

版本控制工具代碼管理工具 git--分散式 SVN--集中式 git基本指令 git init 初始化本地倉庫 git remote add origin url 遠程倉庫相關 git add 將工作區的文件添加緩存區 git commit 將緩存區的文件提交到本地倉庫 git push orig ...
網頁設計和開發中，關於字體的常識

本文的最新內容將在 "GitHub" 上實時更新。歡迎在GitHub上關註我，一起入門和進階前端。前言我周圍的碼農當中，有很多是技術大神，卻常常被字體這種簡單的東西所困擾。這篇文章，我們來講一講關於字體的常識。這些常識所涉及到的問題，有很強的可操作性，都是在實際業務中真實遇到的，都是需要開發同 ...
使用Eclipse開發Web項目（JSP）——簡單登錄、無sql

基於Tomcat，首次使用Eclipse開發Web項目（JSP） ...
鬆軟科技前端課堂:JavaScript 日期

JavaScript 日期輸出預設情況下，JavaScript 將使用瀏覽器的時區並將日期顯示為全文本字元串：創建 Date 對象 Date 對象由新的 Date() 構造函數創建。有 4 種方法創建新的日期對象： new Date() new Date(year, month, day, h ...
學習重構(2)-重新組織函數

1. Extract Method（提煉函數）將代碼段放進一個獨立函數中，並讓函數名稱解釋該函數的用途。示例： void printOwing(double amount) { printBanner(); //print details System.out.println("name: " ...
通俗易懂設計模式解析——訪問者模式

前言今天我們看的是訪問者模式【Visitor Pattern 】，我們理解訪問者模式這個名稱可能會有利於我們理解其核心代碼塊。我們看這麼個例子：我去朋友家做客，那麼朋友屬於主人，我則屬於訪問者。這時剛好朋友在炒菜，卻沒得醬油了。如果朋友下去買醬油將會很麻煩而且會影響炒菜。這時就到我這個訪問者出馬了 ...
[書籍翻譯] 《JavaScript併發編程》第二章 JavaScript運行模型

本文是我翻譯《JavaScript Concurrency》書籍的第二章 JavaScript運行模型，該書主要以Promises、Generator、Web workers等技術來講解JavaScript併發編程方面的實踐。完整書籍翻譯地址： "https://github.com/yzsunl ...
微服務的資料庫設計

單獨的資料庫：微服務設計的一個關鍵是資料庫設計，基本原則是每個服務都有自己單獨的資料庫，而且只有微服務本身可以訪問這個資料庫。它是基於下麵三個原因。 + 優化服務介面：微服務之間的介面越小越好，最好只有服務調用介面（RPC或消息），沒有其他介面。如果微服務不能獨享自己的資料庫，那麼資料庫也變成了 ...