Python爬小草1024圖片,蓋達爾的誘惑(urllib.request)

来源:https://www.cnblogs.com/viczc/archive/2019/01/15/10274613.html
-Advertisement-
Play Games

項目說明: Python版本:3.7.2 模塊:urllib.request,re,os,ssl 目標地址:http://小草.com/ 第二個爬蟲項目,設備轉移到了Mac上,Mac上的Pycharm有坑, 環境變數必須要配置好,解釋器要選對,不然模塊載入不出來 項目實現: 小草圖片下載時後有ssl ...


項目說明:

Python版本:3.7.2

模塊:urllib.request,re,os,ssl

目標地址:http://小草.com/

第二個爬蟲項目,設備轉移到了Mac上,Mac上的Pycharm有坑, 環境變數必須要配置好,解釋器要選對,不然模塊載入不出來

 項目實現: 

#!/usr/bin/env python3
# -*- coding:utf-8 -*-
#__author__ = 'vic'
##導入模塊
import urllib.request,re,os

小草圖片下載有ssl證書驗證,我們全局跳過驗證

ssl._create_default_https_context = ssl._create_unverified_context

一、設置代理

小草伺服器在海外,需要繞過GFW,代理軟體選擇的是ssX-NG,偏好設置查看監聽地址 

Path = '/Users/vic/Pictures/'
##設置代理,http和https都用的是http監聽,也可以改為sock5
proxy = urllib.request.ProxyHandler({'http':'http://127.0.0.1:1087/','https':'https://127.0.0.1:1087'})
##創建支持處理HTTP請求的opener對象
opener = urllib.request.build_opener(proxy)
##安裝代理到全局環境
urllib.request.install_opener(opener)
##定義請求頭,Upgrade-Insecure-Requests表示能夠處理https
header = {'Upgrade-Insecure-Requests':'1',"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/11.1.2 Safari/605.1.15"}

二、獲取源代碼

def getcontent(url):
    req = urllib.request.Request(url,headers = header)
    ##同requests一樣,request轉為response
    res = urllib.request.urlopen(req)
    content = res.read()
    ##記憶體及時關閉
    res.close()
    return content

三、獲取列錶鏈接

##鏈接最後為相應頁碼
url = 'http://小草.com/thread0806.php?fid=16&search=&page='

分析文章鏈接,也就是http://小草.com/直接加上尾碼即可,把所有顏色的鏈接全部扒下來

但是有個公告欄只在第一頁有,所以我想到了在第一頁把list切片

def geturl_list(url,i):
    ##列錶鏈接+頁碼
    article_url = url + str(i)
    ##轉為字元串
    content = str(getcontent(article_url))
    ##創建正則模式對象,匹配全文鏈接
    pattern = re.compile(r'<a href="htm_data.{0,30}html" target="_blank" id="">.*?')
    ##取出所有匹配內容
    com_list = pattern.findall(content)
    ##如果是第一頁,把公告欄鏈接切片
    if i == 1:
        com_list = com_list[7:]
    ##鏈接正則
    pattern_url = re.compile(r'a href="(.*?)"')
    ##取出所有鏈接尾碼
    url_list = pattern_url.findall(str(com_list))
    return url_list

四、獲取圖集信息

先找標題 

這個簡單,re直接找title就好了 

然後是圖片地址,圖片的尾碼大多是JPG和少量的GIF,但是Python的格式好像太嚴格了?所以圖片格式分別大小寫 ,圖床地址全是https協議的,最重要的是有大圖片小圖片鏈接,大圖片下載是盜鏈,我解決不了,所以可以等差求奇數鏈接

def getTitle_Imgurl(url):
    content = getcontent(url)
    ##內容轉gbk
    string = content.decode('gbk', 'replace')
    #print(string)
    m = re.findall("<title>.*</title>", string)
    ##切片去掉標題兩邊的標簽
    title = m[0][7:-35]
    ##圖片地址匹配正則,gif文件太大,我只要jpg格式的
    pattern = re.compile(r'(https:[^\s]*?(JPG|jpg))')
    ##取出圖片地址,返回tuple添加到list里,tuple結構為(網址,格式類型)
    Imgurl_list = pattern.findall(str(content))
    return title,Imgurl_list

五、下載函數

rllib.request.urlretrieve()

下載也有坑,這個遠程下載在PC上好像可以直接使用,但是在mac上單文件鏈接可以下載,放進程式了卻死活下不下來,而且下載速度還慢,所以還是選擇open函數讀寫文件

def downImg(url,path,count):
    try:
        req = urllib.request.Request(url, headers=header)
        res = urllib.request.urlopen(req)
        content = res.read()
        with open(path +  '/' + str(count) + '.jpg', 'wb') as file:
            file.write(content)
            file.close()
    except:
        print('ERROR')

六、主函數

def main():
    ##1到20頁列表
    for i in range(1,20):
        ##第一頁文章列表
        url_list = geturl_list(url,i)
        ##文章地址拼接,list從0開始
        for t in range(0,len(url_list) - 1):
            artical_url = 'http://小草.com/' + url_list[t]
            print(artical_url)
            ##取標題,圖片地址list
            title, Imgurl_list = getTitle_Imgurl(artical_url)
            ##創建文件夾
            Img_Path = Path + title
            if not os.path.isdir(Img_Path):
                os.mkdir(Img_Path)
                ##迴圈圖片地址,小圖片和大圖片通過取奇數解決,大圖片下載會得到盜鏈
                for num in range(1,len(Imgurl_list) - 1,2):
                    Imgurl = Imgurl_list[num][0]
                    downImg(Imgurl,Img_Path,num)
            else:
                print('已下載跳過')

七、全部代碼

#!/usr/bin/env python3
# -*- coding:utf-8 -*-
#__author__ = 'vic'
import urllib.request,re,os,ssl
ssl._create_default_https_context = ssl._create_unverified_context
url='http://小草.com/thread0806.php?fid=16&search=&page='
Path = '/Users/vic/Pictures/'
proxy = urllib.request.ProxyHandler({'http':'http://127.0.0.1:1087/','https':'https://127.0.0.1:1087'})
opener = urllib.request.build_opener(proxy)
urllib.request.install_opener(opener)
header = {'Upgrade-Insecure-Requests':'1',"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/11.1.2 Safari/605.1.15"}

def getcontent(url):
    req = urllib.request.Request(url,headers = header)
    res = urllib.request.urlopen(req)
    content = res.read()#.decode('gbk','replace') 
    res.close()
    return content
def geturl_list(url,i):
    article_url = url + str(i)
    content = str(getcontent(article_url))
    pattern = re.compile(r'<a href="htm_data.{0,30}html" target="_blank" id="">.*?')
    com_list = pattern.findall(content)
    if i == 1:
        com_list = com_list[7:]
    pattern_url = re.compile(r'a href="(.*?)"')
    url_list = pattern_url.findall(str(com_list))
    return url_list
def getTitle_Imgurl(url):
    content = getcontent(url)
    string = content.decode('gbk', 'replace')
    m = re.findall("<title>.*</title>", string)
    title = m[0][7:-35]
    pattern = re.compile(r'(https:[^\s]*?(JPG))')
    Imgurl_list = pattern.findall(str(content))
    return title,Imgurl_list
def downImg(url,path,count):
    try:
        req = urllib.request.Request(url, headers=header)
        res = urllib.request.urlopen(req)
        content = res.read()
        with open(path +  '/' + str(count) + '.jpg', 'wb') as file:
            file.write(content)
            file.close()
    except:
        print('ERROR')
def main():
    for i in range(1,20):
        url_list = geturl_list(url,i)
        for t in range(0,len(url_list) - 1):
            artical_url = 'http://小草com/' + url_list[t]
            print(artical_url)
            title, Imgurl_list = getTitle_Imgurl(artical_url)
            Img_Path = Path + title
            if not os.path.isdir(Img_Path):
                os.mkdir(Img_Path)
                for num in range(1,len(Imgurl_list) - 1,2):
                    Imgurl = Imgurl_list[num][0]
                    downImg(Imgurl,Img_Path,num)
            else:
                print('已下載跳過')
if __name__ == '__main__':
    if not os.path.isdir(Path):
        os.mkdir(Path)
    main()

八、項目成果 

文件名也是成等差了,有點尷尬,就這樣吧。

最後總的來說爬蟲,BeautifulSoup要比正則好用的多,requests也要比urllib.request簡單,搞了一晚上,等兩天再爬其他的

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 本篇主要介紹的是SpringCloud中的服務消費者(Feign)和負載均衡(Ribbon)功能的實現以及使用Feign結合Ribbon實現負載均衡。 ...
  • 1、習題 4: 更多的變數和列印 學習目標: 瞭解用戶輸入方法,明白pthon2和Python3之間的用戶輸入的區別。瞭解格式化字元串(format string)的概念,學會如何創建包含變數內容的字元串。使用專門的格式和語法把變數的內容放到字元串里,然後進行格式化的列印輸出。 1.1、用戶輸入 在 ...
  • 一、概述 只要用框架開發java,一定躲不過spring,Spring是一個輕量級的Java開源框架,存在的目的是用於構建輕量級的J2EE應用。Spring的核心是控制反轉(IOC)和麵向切麵編程(AOP)。spring有如下特點: 輕量級:應用大小和應用開支,包括應用方式 DI/IoC:提供松耦合 ...
  • Spring Security(三) 個性化用戶認證流程 自定義登錄頁面 在配置類中指定登錄頁面和接收登錄的 url 在項目中新建登錄頁面 啟動項目時再訪問 Security 就會跳轉到你自已定義的登陸頁面讓你登錄。 深入定義(判斷是PC端還是移動端,PC端跳轉頁面,移動端響應 json) 創建一個 ...
  • 今天在家裡的Linux系統上,試著搭建Eclipse C/C++開發環境,最後終獲成功。下麵貼上兩篇對搭建過程很有幫助的文章 用 Eclipse 平臺進行 C/C++ 開發 https://www.ibm.com/developerworks/cn/linux/opensource/os-ecc/ ...
  • PEP8編碼規範是一種非常優秀的編碼規範,也得到了Python程式員的普遍認可,如果實踐中或者項目中沒有統一的編碼規範,建議儘量遵循PEP8編碼規範,當然如果項目中已經有了自身的編碼規範,應當優先遵循自身的編碼規範,哪怕原先的代碼風格在你看來很糟糕,也要儘量與源代碼風格保持一致。原文地址:https ...
  • 最近在學習Spring如何讀取配置文件,記錄下方便自己也方便別人; 大致分為兩類吧,一種的思路是利用Spring的beanFactoryPostProcessor讀取配置文件內容到記憶體中,也就是應用程式的某個對象的屬性中,然後設置上去; 另外一種思路就是SPEL表達式,這是Spring3.x的特性, ...
  • GitHub DES 數據加密標準(Data Encryption Standard),簡稱DES,是由IBM公司提交,美國政府於1977年1月5日頒佈的一種加密演算法。 DES的設計目標是,用於加密保護靜態存儲和傳輸通道中的數據,安全使用10~15年。 DES綜合運用了置換、代替、代數等多種密碼技術 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...