Python的爬蟲

来源:https://www.cnblogs.com/establish/archive/2017/12/27/8127784.html
-Advertisement-
Play Games

一 前段時間自學了一段時間的Python,想著濃一點項目來練練手。看著大佬們一說就是爬了100W+的數據就非常的羡慕,不過對於我這種初學者來說,也就爬一爬圖片。 我相信很多人的第一個爬蟲程式都是爬去貼吧的圖片,嗯,我平時不玩貼吧,加上我覺得豆瓣挺良心的,我就爬了豆瓣首頁上面的圖片。其實最剛開始是想爬 ...


  前段時間自學了一段時間的Python,想著濃一點項目來練練手。看著大佬們一說就是爬了100W+的數據就非常的羡慕,不過對於我這種初學者來說,也就爬一爬圖片。

  我相信很多人的第一個爬蟲程式都是爬去貼吧的圖片,嗯,我平時不玩貼吧,加上我覺得豆瓣挺良心的,我就爬了豆瓣首頁上面的圖片。其實最剛開始是想爬全站,後來一想我這簡直是腦子犯抽,全站的圖片爬下來得有多少,再說這個只是練一下手,所以就只爬取了首頁上的圖片。廢話不多說 開始代碼。

  首先是主文件的代碼:

 1 import re
 2 from html_downloder import HtmlDownloader
 3 from html_downloder import Image
 4 
 5 "'起始URL'"
 6 url = "https://www.douban.com"
 7 "'保存目錄'"
 8 image_path = "F:\source\Python\爬蟲\ImageGet\Image%s.jpg"
 9 "'定義實體類'"
10 downloader = HtmlDownloader()
11 html = downloader.download(url)
12 "'SaveFile(html, html_path)'"
13 html = html.decode('utf-8')
14 "'正則表達式'"
15 reg1 = r'="(https://img[\S]*?[jpg|png])"'
16 "'提取圖片的URL'"
17 dbdata = re.findall(reg1, html)
18 imgsave = Image()
19 
20 "'下載保存圖片'"
21 imgsave.ImageGet(dbdata, image_path)

我們打開豆瓣首頁然後看一下裡面圖片的url會發現

 

都是以“=”等號開頭,後面接雙引號,中間都是https://img,末尾以雙引號結束。

因此我們的正則表達式可以寫成 reg1 = r'="(https://img[\S]*?[jpg|png])"'

在這個表達式中"[]"中括弧裡面的東西會作為一個整體,其中[\S]表示大小寫字母和數字,[jpg|png]表示以png結尾或者jpg結尾(在這次爬蟲中並沒有包括gif,因為打開gif的url發現是空白)。

 

然後是html_downloder.py的代碼:

 1 # file: html_downloader.py
 2 
 3 import urllib.request
 4 import urllib.error
 5 import time
 6 
 7 
 8 class HtmlDownloader(object):
 9     def download(self, url):
10         if url is None:
11             return None
12         try:
13             header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64)'}
14             "'發出請求'"
15             request = urllib.request.Request(url=url, headers=header)
16             "'獲取結果'"
17             response = urllib.request.urlopen(url)
18         except urllib.error.URLError as e:
19             if hasattr(e, "code"):
20                 print(e.code)
21             if hasattr(e, "reason"):
22                 print(e.reason)
23         if response.getcode() != 200:
24             return None
25         html = response.read()
26         response.close()
27         return html
28 
29 
30 class Image (object):
31     def ImageGet(self, imageurl, image_path):
32         x = 0
33         for li in imageurl:
34             urllib.request.urlretrieve(li, image_path % x)
35             x = x + 1
36             "'休眠5s以免給伺服器造成嚴重負擔'"
37             time.sleep(5)

這個文件的代碼主要是負責下載html網頁和下載具體的圖片。

接下來就可以在保存路徑對應的文件夾中中看到下載的圖片了

 至此,爬蟲告一段落,離大佬的路還遠得很,繼續加油!!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • JAVA中的異常類都繼承自Throwable類,也就是說,這是異常類的根。Throwable類擴展了兩個類Error類和Exception類,Exception類又擴展了一個RuntimeException類。如下圖: Error:稱為錯誤,由Java虛擬機生成並拋出,這類錯誤一般是運行時系統內部的 ...
  • 題目大意:每個人有兩種值Di和Pi,從n個人中選m個人組成集合J,D(J)和P(J)為這m個人的Di與Pi和,使|D(J) - P(J)|最小。若有多個集合J最小,則使D(J) + P(J) 最大。 1<=n<=200, 1<=m<=20 ,Di和Pi最大為20. 註意到Di和Pi的和很小,我們可以 ...
  • 章節:enote筆記法的思考 why enote筆記法: key1)大腦喜歡顏色。 我們的大腦天生就喜歡顏色、對顏色很敏感,這是由我們人類過去的演化歷程決定的。 你可以理解為,文字有了顏色,讓這個冰冷的黑白世界突然有了色彩,變得絢麗多彩、色彩斑斕,充滿溫暖的暖意了起來,這使得讓你能更容易專註起來&保 ...
  • 首先來介紹下 Jetty,根據 wiki 的介紹: Jetty 是一個純粹的基於 Java 的網頁伺服器和 Java Servlet 容器。儘管網頁伺服器通常用來為人們呈現文檔, 但是 Jetty 通常在較大的軟體框架中用於電腦與電腦之間的通信。 Jetty 作為 Eclipse 基金會的一部分 ...
  • GCC4和GCC5使用的C++標準庫下,string的名字不一樣,導致鏈接錯誤。 ...
  • 抽象類(abstract) 以下麵多態的示例來說明: 父類Animal中的sing()方法遲早要被子類Cat、Dog重寫,而且在多態實現下,Animal的sing()完全是多餘的。因此,可以將Animal的sing()方法的方法體刪掉。 更徹底一點,將sing()方法加上abstract關鍵字,這個 ...
  • 一. 問題: 在使用solr時, 分詞器解析中文的時候, 是一個一個字解析的. 這並不是我們想要的結果. 而在lucene中, 使用的中文分詞器是 IKAnalyzer. 那麼在solr裡面, 是不是任然可以用這個呢. 二. 整合 ik 1. 修改schema配置文件 打開如下路徑中的managed ...
  • #有‘*’為重點import timeprint(time.time())#以秒的形式返回******time.sleep(3) ******print(time.clock()) #cpu執行的時間print(time.gmtime()) # 結構化時間,本初子午線那裡的時間time.struct ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...