python3 爬蟲 爬取1024圖片區

来源:https://www.cnblogs.com/Redemption7/archive/2018/01/09/8254058.html
-Advertisement-
Play Games

接觸python有一段時間了,一直想寫個爬蟲,然而最近臨近期末實在沒什麼時間,就做了個demo出來,有的時候會出現一些error,但是跑還是能跑起來,下個幾百張圖片還是沒問題,剩下的問題估計要到放假才能解決好了,先把代碼放上來,以供交流,歡迎大家提出指導意見 進入正題 我寫這個爬蟲的時候參考了純潔的 ...


接觸python有一段時間了,一直想寫個爬蟲,然而最近臨近期末實在沒什麼時間,就做了個demo出來,有的時候會出現一些error,但是跑還是能跑起來,下個幾百張圖片還是沒問題,剩下的問題估計要到放假才能解決好了,先把代碼放上來,以供交流,歡迎大家提出指導意見

進入正題

我寫這個爬蟲的時候參考了純潔的微笑的博客,思路基本差不多,把他的那篇博客也貼出來:http://www.cnblogs.com/ityouknow/p/6013074.html

我的代碼如下

from bs4 import BeautifulSoup

import re
import os
import requests
import json
import time

import OpenSSL
mainsite="http://1024的網址就不貼了.com/"
def getbs(url):
header={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36",
"Referer":"http://t66y.com//thread0806.php?fid=16&search=&page=1",
"Host":"t66y.com"
}
req=requests.get(url,headers=header)
req.encoding="gbk"#這裡因為1024圖片帖子內的編碼是gbk,如果不指明編碼,得到的是亂碼
bsobj = BeautifulSoup(req.text, "html5lib")
return bsobj

def getallpage(start,end):
urls=[]
for i in range(start,end+1):
url="http://地址打碼/thread0806.php?fid=16&search=&page={}".format(str(i))
bsobj=getbs(url)
urls+=bsobj.find_all("a",{"href":re.compile("^htm_data.*")})
return urls
def getpicofpage(url):
bsobj=getbs(url)
div=bsobj.find("div",{"class":"tpc_content do_not_catch"})
if div==None:
print("獲取不到內容,跳過")
return -1
inputs=div.find_all("input")
title=bsobj.find("h4").text
if inputs==[]:
print("本頁無圖片,跳過")
return -1
num=1
if os.path.exists(path + "new\\tupian\\" + "\\" + title)==False:
os.mkdir(path + "new\\tupian\\" + "\\" + title)
else:
print("已存在該文件夾,跳過")
return -1
for i in inputs:
try:#問題主要出在這裡
res = requests.get(i["src"],timeout=25)
with open(path +"new\\tupian\\"+"\\"+title+"\\"+str(time.time())[:10]+".jpg", 'wb') as f:
f.write(res.content)
except requests.exceptions.Timeout:#
爬圖片時有的會超時,如果不設置超時,可能會一直卡在那裡

print("已超時,跳過本頁")
return -1
except OpenSSL.SSL.WantReadError:#這裡也是個問題,有的時候會跳出這個異常,但是我這裡是捕捉不到的,這個異常到底是怎麼回事,我還沒弄清楚
print("OpenSSL.SSL.WantReadError,跳過")
return -1
print(num)
num+=1
l=getallpage(5,10)
page=1
ed=[]
for i in l:
url=mainsite+i["href"]
if url in ed:
print(url+"本頁已採集過,跳過")
continue
print(url)
getpicofpage(url)
ed.append(url)
print("採集完第{}頁".format(page))
page+=1
time.sleep(3)

 另外也把上面說的ssl異常貼出來:

 

Traceback (most recent call last):
File "D:\python\Lib\site-packages\urllib3\contrib\pyopenssl.py", line 441, in wrap_socket
cnx.do_handshake()
File "D:\python\Lib\site-packages\OpenSSL\SSL.py", line 1806, in do_handshake
self._raise_ssl_error(self._ssl, result)
File "D:\python\Lib\site-packages\OpenSSL\SSL.py", line 1521, in _raise_ssl_error
raise WantReadError()
OpenSSL.SSL.WantReadError
During handling of the above exception, another exception occurred:
Traceback (most recent call last):
File "D:\python\Lib\site-packages\urllib3\connectionpool.py", line 595, in urlopen
self._prepare_proxy(conn)
File "D:\python\Lib\site-packages\urllib3\connectionpool.py", line 816, in _prepare_proxy
conn.connect()
File "D:\python\Lib\site-packages\urllib3\connection.py", line 326, in connect
ssl_context=context)
File "D:\python\Lib\site-packages\urllib3\util\ssl_.py", line 329, in ssl_wrap_socket
return context.wrap_socket(sock, server_hostname=server_hostname)
File "D:\python\Lib\site-packages\urllib3\contrib\pyopenssl.py", line 445, in wrap_socket
raise timeout('select timed out')
socket.timeout: select timed out
During handling of the above exception, another exception occurred:
Traceback (most recent call last):
File "D:\python\Lib\site-packages\requests\adapters.py", line 440, in send
timeout=timeout
File "D:\python\Lib\site-packages\urllib3\connectionpool.py", line 639, in urlopen
_stacktrace=sys.exc_info()[2])
File "D:\python\Lib\site-packages\urllib3\util\retry.py", line 388, in increment
raise MaxRetryError(_pool, url, error or ResponseError(cause))
urllib3.exceptions.MaxRetryError: HTTPSConnectionPool(host='www.srimg.com', port=443): Max retries exceeded with url: /u/20180104/11315126.jpg (Caused by ProxyError('Cannot connect to proxy.', timeout('select timed out',)))
During handling of the above exception, another exception occurred:
Traceback (most recent call last):
File "D:\PyCharm 2017.3.1\helpers\pydev\pydev_run_in_console.py", line 52, in run_file
pydev_imports.execfile(file, globals, locals) # execute the script
File "D:\PyCharm 2017.3.1\helpers\pydev\_pydev_imps\_pydev_execfile.py", line 18, in execfile
exec(compile(contents+"\n", file, 'exec'), glob, loc)
File "D:/learnPython/crawler/crawler.py", line 301, in <module>
getpicofpage(url)
File "D:/learnPython/crawler/crawler.py", line 281, in getpicofpage
res = requests.get(i["src"],timeout=25)
File "D:\python\Lib\site-packages\requests\api.py", line 72, in get
return request('get', url, params=params, **kwargs)
File "D:\python\Lib\site-packages\requests\api.py", line 58, in request
return session.request(method=method, url=url, **kwargs)
File "D:\python\Lib\site-packages\requests\sessions.py", line 508, in request
resp = self.send(prep, **send_kwargs)
File "D:\python\Lib\site-packages\requests\sessions.py", line 618, in send
r = adapter.send(request, **kwargs)
File "D:\python\Lib\site-packages\requests\adapters.py", line 502, in send
raise ProxyError(e, request=request)
requests.exceptions.ProxyError: HTTPSConnectionPool(host='www.srimg.com', port=443): Max retries exceeded with url: /u/20180104/11315126.jpg (Caused by ProxyError('Cannot connect to proxy.', timeout('select timed out',)))
PyDev console: starting.

還有一點,雖然我開了vpn,但是直接爬是獲取不到內容的,會提示主機沒有響應,但是後來發現開了fiddler就能爬了,估計是ip的原因,這個我還沒仔細深究,也請各位不吝賜教

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 變數 初識變數 變數(variable)是學習Python初始時,就會接觸到的一個新知識點,也會一個需要熟知的概念。Python是一種動態類型語言,在賦值的執行中可以綁定不通類型的值,這個過程叫做變數賦值操作,賦值同時確定了變數的類型。 變數命名規範 變數由字母、數字、下劃線組成 變數不能由數字開頭 ...
  • 當我們用到大量的數據時,不可能將數據都寫入程式中,可以寫入文件里,在程式需要用到時,去讀取或者修改它。 讀寫文件 以讀文件的模式打開一個文件對象,使用內置函數open(),將會返回一個 file 對象,基本語法格式如下: 下麵是mode的一些參數,預設為r 只讀: 'r':以只讀方式打開文件(預設) ...
  • 在面向對象這個專題的最後 結合前面多篇文章,用到了面向對象的很多方面知識,做了一個簡單的案例: 飯店案例: ...
  • 總是看到四種許可權,這裡做一個介紹: 最大許可權是public,後面依次是protected,default,private private修飾的只在本類可以使用 public是最大許可權,可以跨包使用,不同包的子類和無關類都可以使用,可以修飾類,方法,成員變數 不寫許可權就是default預設許可權:限於本 ...
  • Python條件語句是通過一條或多條語句的執行結果(True或者False)來決定執行的代碼塊。 條件語句的執行過程,如下圖: 條件語句,又稱為if語句,它的完整語法如下: 以上語法的執行過程是: 當 條件1 為 True,執行 語句塊1 的語句 如果 條件1 為 False , 判斷 條件2 當 ...
  • 剛開始編寫Java代碼時,會遇到很多困難,下麵來說一個比較常見的錯誤,如下: 對於初學者,一般都是從Hello,World開始的學起的,廢了好大勁兒,銅鼓了半天,終於要在DOS上運行javac Hello.java時,就會報錯:找不到文件 解決辦法,要在如下幾個步驟中進行排查: 1、檢查環境變數是否 ...
  • (一)引用數組元素時指針的運算 如果指針變數p已指向數組中的一個元素,則p+1指向同一數組的下一個元素,p-1指向同一數組的上一個元素。 附:P+1並不是簡單將值+1,而是加上元素所占的位元組數。 int、float、long都是占4個位元組,char占一個位元組。 (二)*p++、*(p++)、*(++ ...
  • 今天是期末考第一天,也是開始接觸Java第一天,無心複習,那就來學點新的東西咯!! Java三大平臺 1、Java SE 分為四個部分:JVM(虛擬機),JRE(運行環境),JDK(開發工具包),Java 2、Java EE 3、Java ME (用的少了) Java開發環境配置 記事本/Notep ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...