scrapy代理的設置

来源:http://www.cnblogs.com/Chenjiabing/archive/2017/05/26/6907220.html
-Advertisement-
Play Games

scrapy代理的設置 在我的上一篇文章介紹了 "scrapy下載器中間件的使用" ,這裡的scrapy 的代理就是用這個原理實現的,重寫了下載器中間件的 這個函數,這個函數的主要作用就是對request進行處理。 話不多說直接擼代碼 import random import scrapy impo ...


scrapy代理的設置

在我的上一篇文章介紹了scrapy下載器中間件的使用,這裡的scrapyIP的代理就是用這個原理實現的,重寫了下載器中間件的process_request(self,request,spider)這個函數,這個函數的主要作用就是對request進行處理。

話不多說直接擼代碼

import random  
import scrapy
import logging
class proxMiddleware(object):
#proxy_list=[{'http': 'http://123.157.146.116:8123'}, {'http': 'http://116.55.16.233:8998'}, {'http': 'http://115.85.233.94:80'}, {'http': 'http://180.76.154.5:8888'}, {'http': 'http://139.213.135.81:80'}, {'http': 'http://124.88.67.14:80'}, {'http': 'http://106.46.136.90:808'}, {'http': 'http://106.46.136.226:808'}, {'http': 'http://124.88.67.21:843'}, {'http': 'http://113.245.84.253:8118'}, {'http': 'http://124.88.67.10:80'}, {'http': 'http://171.38.141.12:8123'}, {'http': 'http://124.88.67.52:843'}, {'http': 'http://106.46.136.237:808'}, {'http': 'http://106.46.136.105:808'}, {'http': 'http://106.46.136.190:808'}, {'http': 'http://106.46.136.186:808'}, {'http': 'http://101.81.120.58:8118'}, {'http': 'http://106.46.136.250:808'}, {'http': 'http://106.46.136.8:808'}, {'http': 'http://111.78.188.157:8998'}, {'http': 'http://106.46.136.139:808'}, {'http': 'http://101.53.101.172:9999'}, {'http': 'http://27.159.125.68:8118'}, {'http': 'http://183.32.88.133:808'}, {'http': 'http://171.38.37.193:8123'}]
proxy_list=[
    "http://180.76.154.5:8888",
    "http://14.109.107.1:8998",
    "http://106.46.136.159:808",
    "http://175.155.24.107:808",
    "http://124.88.67.10:80",
    "http://124.88.67.14:80",
    "http://58.23.122.79:8118",
    "http://123.157.146.116:8123",
    "http://124.88.67.21:843",
    "http://106.46.136.226:808",
    "http://101.81.120.58:8118",
    "http://180.175.145.148:808"
]
def process_request(self,request,spider):
    # if not request.meta['proxies']:
    ip = random.choice(self.proxy_list)
    print ip
    #print 'ip=' %ip
    request.meta['proxy'] = ip
    

主要的原理:

給出一個代理列表,然後在這個列表中隨機取出一個代理,設置在request中,其中request.meta['proxy']就是設置代理的格式

但是現在主要的問題就是沒有代理ip可用,如果去買的話又太貴了,自己玩玩買代理不值當,所以只好自己寫爬蟲去爬取免費的代理了,但是免費的代理存活的時間是有限的,這是個非常麻煩的事情,我提供的方法就是實現自己的一個ip代理池,每天定時更新自己的代理池,具體的實現方法會在下一篇文章中介紹,現在提供一段代碼用來爬
取西刺網站的代理

直接擼代碼,接招吧

#coding:utf-8
import requests
from bs4 import BeautifulSoup
import threading
import Queue
class Get_ips():
def __init__(self,page):
    self.ips=[]
    self.urls=[]
    for i in range(page):
        self.urls.append("http://www.xicidaili.com/nn/" + str(i))
    self.header = {"User-Agent": 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0'}
    #self.file=open("ips",'w')
    self.q=Queue.Queue()
    self.Lock=threading.Lock()
def get_ips(self):
    for url in self.urls:
        res = requests.get(url, headers=self.header)
        soup = BeautifulSoup(res.text, 'lxml')
        ips = soup.find_all('tr')
        for i in range(1, len(ips)):
            ip = ips[i]
            tds = ip.find_all("td")
            ip_temp = "http://" + tds[1].contents[0] + ":" + tds[2].contents[0]
            # print str(ip_temp)
            self.q.put(str(ip_temp))
def review_ips(self):
    while not self.q.empty():
        ip=self.q.get()
        try:
            proxy={"http": ip}
            #print proxy
            res = requests.get("http://www.baidu.com", proxies=proxy,timeout=5)
            self.Lock.acquire()
            if res.status_code == 200:
                self.ips.append(ip)
                print ip
                self.Lock.release()
        except Exception:
            pass
            #print 'error'
def main(self):
    self.get_ips()
    threads=[]
    for i in range(40):
        threads.append(threading.Thread(target=self.review_ips,args=[]))
    for t in threads:
        t.start()
    for t in threads:
        t.join()
    return self.ips
def get_ip():
my=Get_ips(4)
return my.main()
get_ip()

實現的原理

這裡用到了BeautifulSoup解析頁面,然後將提取到的代理交給隊列,然後再通過共用隊列分配給線程,這裡主要開啟線程通過設置代理ip訪問一個網站,因為訪問網站的時間比較長,因此要開起多個線程,相信大家能夠學習設置代理ip了應該都是比較上手的了,這裡具體的代碼就不一一解釋了,如果代碼有什麼問題可以及時聯繫我,我的聯繫方式在關於我的一欄中有提到

補充

想要ip應用起來,還要在配置文件settings中添加DOWNLOADER_MIDDLEWARES = { 'demo.proxy.proxMiddleware':400 }這裡的demo是工程的名字,proxy是py文件的名,proxMiddleware是類的名字

當然這裡可能你覺得proxy_list寫在這裡有點冗餘,你可以在配置文件中定義,然後將配置文件的內容import到py文件中

以上全是博主慢慢摸索出來的,可以說自學一門技術真的很難,學習python爬蟲已經有兩三個月了,可以說全是自己通過看項目,網上查資料才有了今天的成功,不過現在還有幾個問題沒有解決,就是分散式爬蟲、移動端爬取,博主接下來就要主攻這兩個方面,學好之後會在自己的博客上分享學習心得的,因為網上沒有系統的學習教程,對於自學的人來說實在是太痛苦了


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 本文簡要介紹在 Java 世界中, 線程相關知識。主要包含 線程的創建與銷毀;線程安全與同步;線程通訊;註意本文沒有什麼高深新知識,只緣起前段時間在翻看項目代碼的時候,發現有些同學對此有諸多誤解,故在此稍微整理一下,以幫助類似同學,同時警醒一下自己。 ...
  • 例一: 一個Student pojo類: public class Student{ private String name; private int age; public String getName(){ return this.name; } public void setName(Stri... ...
  • 即使是經驗豐富的程式猿,在編程的過程中犯個錯誤也是在所難免的。如果開發人員不能註意到這些錯誤,也無法瞭解編譯器報錯信息的含義,那麼這些錯誤信息不僅毫無用處,還會常常讓人感到沮喪,所以更好地理解錯誤信息可以大大節省尋找並改正錯誤內容所花費的時間。 變數聲明: 如果在一條語句中聲明一個變數,如下所示:$ ...
  • orm: 對象關係映射,把原來對資料庫表和欄位的操作改變為對類和對象的操作,是對象和關係的映射,主要實現程式對象到關係資料庫數據的映射。通俗理解就是不需要直接對資料庫操作,例如寫sql語句,建表等。 hibernate屬於orm框架,因為hibernate對jdbc重度封裝,不用寫sql語句,在用h ...
  • spring可以幫助開發人員管理一些與開發代碼無關的事,例如日誌,事物等。 spring中用到了什麼設計模式: 1.工廠模式,這個很明顯,在各種BeanFactory以及ApplicationContext創建中都用到了; 2.模版模式,這個也很明顯,在各種BeanFactory以及Applicat ...
  • 程式只要在運行,就免不了會出現錯誤,錯誤很常見,比如Error,Notice,Warning等等。在PHP中,主要有以下3種錯誤類型。 1. 註意(Notices) 這些都是比較小而且不嚴重的錯誤,比如去訪問一個未被定義的變數。通常,這類的錯誤是不提示給用戶的,但有時這些錯誤會影響到運行的結果。 2 ...
  • python發送郵件 準備 python中發送郵件主要用的是smtplib和email兩個模塊,下麵主要對這兩個模塊進行講解 在講解之前需要準備至少兩個測試的郵箱,其中要在郵箱的設置中開啟smtplib協議才可以進行發送和接受 smtplib 是`SMTP 163 smtp.163.com port ...
  • David Gourley,Endeca的首席技術官(Chief TechnologyOfficer),負責Endeca產品的研究及開發。Endeca開發的網際網路及內部網路信息訪問解決方案為企業級數據的導航及研究提供了一些新的方式。在到Endeca工作之前,David是Inktomi基礎工程組的一員 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...