python3 爬蟲 爬取1024圖片區

来源:https://www.cnblogs.com/Redemption7/archive/2018/01/09/8254058.html
-Advertisement-
Play Games

接觸python有一段時間了,一直想寫個爬蟲,然而最近臨近期末實在沒什麼時間,就做了個demo出來,有的時候會出現一些error,但是跑還是能跑起來,下個幾百張圖片還是沒問題,剩下的問題估計要到放假才能解決好了,先把代碼放上來,以供交流,歡迎大家提出指導意見 進入正題 我寫這個爬蟲的時候參考了純潔的 ...


接觸python有一段時間了,一直想寫個爬蟲,然而最近臨近期末實在沒什麼時間,就做了個demo出來,有的時候會出現一些error,但是跑還是能跑起來,下個幾百張圖片還是沒問題,剩下的問題估計要到放假才能解決好了,先把代碼放上來,以供交流,歡迎大家提出指導意見

進入正題

我寫這個爬蟲的時候參考了純潔的微笑的博客,思路基本差不多,把他的那篇博客也貼出來:http://www.cnblogs.com/ityouknow/p/6013074.html

我的代碼如下

from bs4 import BeautifulSoup

import re
import os
import requests
import json
import time

import OpenSSL
mainsite="http://1024的網址就不貼了.com/"
def getbs(url):
header={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36",
"Referer":"http://t66y.com//thread0806.php?fid=16&search=&page=1",
"Host":"t66y.com"
}
req=requests.get(url,headers=header)
req.encoding="gbk"#這裡因為1024圖片帖子內的編碼是gbk,如果不指明編碼,得到的是亂碼
bsobj = BeautifulSoup(req.text, "html5lib")
return bsobj

def getallpage(start,end):
urls=[]
for i in range(start,end+1):
url="http://地址打碼/thread0806.php?fid=16&search=&page={}".format(str(i))
bsobj=getbs(url)
urls+=bsobj.find_all("a",{"href":re.compile("^htm_data.*")})
return urls
def getpicofpage(url):
bsobj=getbs(url)
div=bsobj.find("div",{"class":"tpc_content do_not_catch"})
if div==None:
print("獲取不到內容,跳過")
return -1
inputs=div.find_all("input")
title=bsobj.find("h4").text
if inputs==[]:
print("本頁無圖片,跳過")
return -1
num=1
if os.path.exists(path + "new\\tupian\\" + "\\" + title)==False:
os.mkdir(path + "new\\tupian\\" + "\\" + title)
else:
print("已存在該文件夾,跳過")
return -1
for i in inputs:
try:#問題主要出在這裡
res = requests.get(i["src"],timeout=25)
with open(path +"new\\tupian\\"+"\\"+title+"\\"+str(time.time())[:10]+".jpg", 'wb') as f:
f.write(res.content)
except requests.exceptions.Timeout:#
爬圖片時有的會超時,如果不設置超時,可能會一直卡在那裡

print("已超時,跳過本頁")
return -1
except OpenSSL.SSL.WantReadError:#這裡也是個問題,有的時候會跳出這個異常,但是我這裡是捕捉不到的,這個異常到底是怎麼回事,我還沒弄清楚
print("OpenSSL.SSL.WantReadError,跳過")
return -1
print(num)
num+=1
l=getallpage(5,10)
page=1
ed=[]
for i in l:
url=mainsite+i["href"]
if url in ed:
print(url+"本頁已採集過,跳過")
continue
print(url)
getpicofpage(url)
ed.append(url)
print("採集完第{}頁".format(page))
page+=1
time.sleep(3)

 另外也把上面說的ssl異常貼出來:

 

Traceback (most recent call last):
File "D:\python\Lib\site-packages\urllib3\contrib\pyopenssl.py", line 441, in wrap_socket
cnx.do_handshake()
File "D:\python\Lib\site-packages\OpenSSL\SSL.py", line 1806, in do_handshake
self._raise_ssl_error(self._ssl, result)
File "D:\python\Lib\site-packages\OpenSSL\SSL.py", line 1521, in _raise_ssl_error
raise WantReadError()
OpenSSL.SSL.WantReadError
During handling of the above exception, another exception occurred:
Traceback (most recent call last):
File "D:\python\Lib\site-packages\urllib3\connectionpool.py", line 595, in urlopen
self._prepare_proxy(conn)
File "D:\python\Lib\site-packages\urllib3\connectionpool.py", line 816, in _prepare_proxy
conn.connect()
File "D:\python\Lib\site-packages\urllib3\connection.py", line 326, in connect
ssl_context=context)
File "D:\python\Lib\site-packages\urllib3\util\ssl_.py", line 329, in ssl_wrap_socket
return context.wrap_socket(sock, server_hostname=server_hostname)
File "D:\python\Lib\site-packages\urllib3\contrib\pyopenssl.py", line 445, in wrap_socket
raise timeout('select timed out')
socket.timeout: select timed out
During handling of the above exception, another exception occurred:
Traceback (most recent call last):
File "D:\python\Lib\site-packages\requests\adapters.py", line 440, in send
timeout=timeout
File "D:\python\Lib\site-packages\urllib3\connectionpool.py", line 639, in urlopen
_stacktrace=sys.exc_info()[2])
File "D:\python\Lib\site-packages\urllib3\util\retry.py", line 388, in increment
raise MaxRetryError(_pool, url, error or ResponseError(cause))
urllib3.exceptions.MaxRetryError: HTTPSConnectionPool(host='www.srimg.com', port=443): Max retries exceeded with url: /u/20180104/11315126.jpg (Caused by ProxyError('Cannot connect to proxy.', timeout('select timed out',)))
During handling of the above exception, another exception occurred:
Traceback (most recent call last):
File "D:\PyCharm 2017.3.1\helpers\pydev\pydev_run_in_console.py", line 52, in run_file
pydev_imports.execfile(file, globals, locals) # execute the script
File "D:\PyCharm 2017.3.1\helpers\pydev\_pydev_imps\_pydev_execfile.py", line 18, in execfile
exec(compile(contents+"\n", file, 'exec'), glob, loc)
File "D:/learnPython/crawler/crawler.py", line 301, in <module>
getpicofpage(url)
File "D:/learnPython/crawler/crawler.py", line 281, in getpicofpage
res = requests.get(i["src"],timeout=25)
File "D:\python\Lib\site-packages\requests\api.py", line 72, in get
return request('get', url, params=params, **kwargs)
File "D:\python\Lib\site-packages\requests\api.py", line 58, in request
return session.request(method=method, url=url, **kwargs)
File "D:\python\Lib\site-packages\requests\sessions.py", line 508, in request
resp = self.send(prep, **send_kwargs)
File "D:\python\Lib\site-packages\requests\sessions.py", line 618, in send
r = adapter.send(request, **kwargs)
File "D:\python\Lib\site-packages\requests\adapters.py", line 502, in send
raise ProxyError(e, request=request)
requests.exceptions.ProxyError: HTTPSConnectionPool(host='www.srimg.com', port=443): Max retries exceeded with url: /u/20180104/11315126.jpg (Caused by ProxyError('Cannot connect to proxy.', timeout('select timed out',)))
PyDev console: starting.

還有一點,雖然我開了vpn,但是直接爬是獲取不到內容的,會提示主機沒有響應,但是後來發現開了fiddler就能爬了,估計是ip的原因,這個我還沒仔細深究,也請各位不吝賜教

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 變數 初識變數 變數(variable)是學習Python初始時,就會接觸到的一個新知識點,也會一個需要熟知的概念。Python是一種動態類型語言,在賦值的執行中可以綁定不通類型的值,這個過程叫做變數賦值操作,賦值同時確定了變數的類型。 變數命名規範 變數由字母、數字、下劃線組成 變數不能由數字開頭 ...
  • 當我們用到大量的數據時,不可能將數據都寫入程式中,可以寫入文件里,在程式需要用到時,去讀取或者修改它。 讀寫文件 以讀文件的模式打開一個文件對象,使用內置函數open(),將會返回一個 file 對象,基本語法格式如下: 下麵是mode的一些參數,預設為r 只讀: 'r':以只讀方式打開文件(預設) ...
  • 在面向對象這個專題的最後 結合前面多篇文章,用到了面向對象的很多方面知識,做了一個簡單的案例: 飯店案例: ...
  • 總是看到四種許可權,這裡做一個介紹: 最大許可權是public,後面依次是protected,default,private private修飾的只在本類可以使用 public是最大許可權,可以跨包使用,不同包的子類和無關類都可以使用,可以修飾類,方法,成員變數 不寫許可權就是default預設許可權:限於本 ...
  • Python條件語句是通過一條或多條語句的執行結果(True或者False)來決定執行的代碼塊。 條件語句的執行過程,如下圖: 條件語句,又稱為if語句,它的完整語法如下: 以上語法的執行過程是: 當 條件1 為 True,執行 語句塊1 的語句 如果 條件1 為 False , 判斷 條件2 當 ...
  • 剛開始編寫Java代碼時,會遇到很多困難,下麵來說一個比較常見的錯誤,如下: 對於初學者,一般都是從Hello,World開始的學起的,廢了好大勁兒,銅鼓了半天,終於要在DOS上運行javac Hello.java時,就會報錯:找不到文件 解決辦法,要在如下幾個步驟中進行排查: 1、檢查環境變數是否 ...
  • (一)引用數組元素時指針的運算 如果指針變數p已指向數組中的一個元素,則p+1指向同一數組的下一個元素,p-1指向同一數組的上一個元素。 附:P+1並不是簡單將值+1,而是加上元素所占的位元組數。 int、float、long都是占4個位元組,char占一個位元組。 (二)*p++、*(p++)、*(++ ...
  • 今天是期末考第一天,也是開始接觸Java第一天,無心複習,那就來學點新的東西咯!! Java三大平臺 1、Java SE 分為四個部分:JVM(虛擬機),JRE(運行環境),JDK(開發工具包),Java 2、Java EE 3、Java ME (用的少了) Java開發環境配置 記事本/Notep ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...