Win10環境下的Scrapy結合Tor進行匿名爬取

-Advertisement-

本文內容來源：http://blog.privatenode.in/torifying-scrapy-project-on-ubuntu/ 在使用Scrapy的時候，一旦進行高頻率的爬取就容易被封IP，此時可以通過使用TOR來進行匿名爬取，同時要安裝Polipo代理伺服器註意：要進行下麵的操作的前...

本文內容來源：http://blog.privatenode.in/torifying-scrapy-project-on-ubuntu/

在使用Scrapy的時候，一旦進行高頻率的爬取就容易被封IP，此時可以通過使用TOR來進行匿名爬取，同時要安裝Polipo代理伺服器

註意：要進行下麵的操作的前提是，你能FQ

安裝TOR

下載地址：https://www.torproject.org/download/download.html.en

下載Expert Bundle並解壓到一個目錄下，例如：D:\Tor，這個版本並沒有一個圖形化的操作界面，要修改配置十分麻煩，可以通過下載Vidalia來使用TOR，Vidalia的下載地址：https://people.torproject.org/~erinn/vidalia-standalone-bundles/ ，下載該頁面的最下麵那個即可：vidalia-standalone-0.2.21-win32-1_zh-CN.exe，安裝完成之後，以管理員許可權運行Start Vidalia.exe，進行下麵的設定

點擊啟動Tor

過一陣子後顯示連接成功

下載安裝Polipo

下載地址：http://www.pps.univ-paris-diderot.fr/~jch/software/files/polipo/

選擇polipo-1.1.0-win32.zip，下載並解壓，然後編輯解壓後的文件config.sample，在文件的開頭加上以下配置

socksParentProxy = "localhost:9050"

socksProxyType = socks5

diskCacheRoot = ""

使用cmd命令運行該目錄下的程式：polipo.exe -c config.sample

打開edge瀏覽器，設置代理

然後在瀏覽器中訪問：https://check.torproject.org/

看到以下的界面意味著配置成功

配置Scrapy

在settings.py文件中加入下麵的內容

#More comprehensive list can be found at

#http://techpatterns.com/forums/about304.html

USER_AGENT_LIST = [

    'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.7 (KHTML, like Gecko) Chrome/16.0.912.36 Safari/535.7',

    'Mozilla/5.0 (Windows NT 6.2; Win64; x64; rv:16.0) Gecko/16.0 Firefox/16.0',

    'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_3) AppleWebKit/534.55.3 (KHTML, like Gecko) Version/5.1.3 Safari/534.53.10',

    ]

HTTP_PROXY = 'http://127.0.0.1:8123'

DOWNLOADER_MIDDLEWARES = {

    'myspider.middlewares.RandomUserAgentMiddleware': 400, # 修改這裡的myspider為項目名稱

    'myspider.middlewares.ProxyMiddleware': 410, # 同上

    'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': None,

}

在scrapy項目的根目錄新建一個middlewares.py文件，並輸入以下內容

import random

from scrapy.conf import settings

from scrapy import log

class RandomUserAgentMiddleware(object):

    def process_request(self, request, spider):

        ua = random.choice(settings.get('USER_AGENT_LIST'))

        if ua:

            request.headers.setdefault('User-Agent', ua)

            #this is just to check which user agent is being used for request

            spider.log(

                u'User-Agent: {} {}'.format(request.headers.get('User-Agent'), request),

                level=log.DEBUG

            )

class ProxyMiddleware(object):

    def process_request(self, request, spider):

        request.meta['proxy'] = settings.get('HTTP_PROXY')

至此，scrapy與tro的整合完成了，本文不對任何人使用這個方法所造成的後果負責

配置Tor瀏覽器

下麵的內容與上面無關，只是記錄一下如何使用Tor瀏覽器，在我們下載tor的頁面上，還有一個下載選項（第一個就是一個瀏覽器，通過該瀏覽器可以匿名訪問網頁，Tor Browser會自動通過Tor網路啟動Tor的後臺進程連接網路。一旦關閉程式的便會自動刪除隱私敏感數據，如HTTP cookie和瀏覽歷史記錄，以避免竊聽並保留在互聯網上的隱私）

下載了第一個Tor Browser並安裝後，進行下麵的配置

由於Tor的連接被牆掉了，所以要配置網橋

獲取網橋：https://bridges.torproject.org/options

將網橋複製下來，粘貼到tor瀏覽器上

有時候連接不成功，就要再申請新的網橋來嘗試

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

asp.net identity 3.0.0 在MVC下的基本使用序言

本人也尚在學習使用之中，錯誤之處請大家指正。開發環境：vs2015 UP1 項目環境：asp.net 4.6.1 模板為：asp.net 5 模板 identity版本為：asp.net identity 3.0.0 如圖：建成後的項目已經和之前的模板建成的項目有非常大的不同了。identity
自己寫一個分頁PageHelper

每次寫分頁導航的時候都要在html頁面寫一堆標簽和樣式，太麻煩了，所以乾脆自己動手封裝一個自己喜歡的類直接生成。一、PageHelper類: /// <summary> /// 分頁導航 /// </summary> /// <param name="pageNum">當前第幾頁</param>
SQLSERVER常見系統函數之字元串函數(一)

好久沒有寫博客了，這段時間準備寫一下字元串函數 QQ群： 499092562；歡迎交流字元串函數： 1、LEN(需要獲取長度的字元串) 返回：字元串的長度示例： SELECT LEN('小搬運工很帥！') 2、RIGHT(需要被從右邊截取的字元串,截取的開始下標，截取的長度) 返回：右邊的字元串
OUR D3.JS 數據可視化專題站（轉）

http://www.ourd3js.com/wordpress/
Lua中的協同程式 coroutine（轉）

Lua中的協程和多線程很相似，每一個協程有自己的堆棧，自己的局部變數，可以通過yield-resume實現在協程間的切換。不同之處是：Lua協程是非搶占式的多線程，必須手動在不同的協程間切換，且同一時刻只能有一個協程在運行。並且Lua中的協程無法在外部將其停止，而且有可能導致程式阻塞。協同程式（C
深入探索Java 8 Lambda表達式

2014年3月，Java 8發佈，Lambda表達式作為一項重要的特性隨之而來。或許現在你已經在使用Lambda表達式來書寫簡潔靈活的代碼。比如，你可以使用Lambda表達式和新增的流相關的API，完成如下的大量數據的查詢處理： int total = invoices.stream() .filt
java中queue的使用

Queue介面與List、Set同一級別，都是繼承了Collection介面。LinkedList實現了Queue接口。Queue介面窄化了對LinkedList的方法的訪問許可權（即在方法中的參數類型如果是Queue時，就完全只能訪問Queue介面所定義的方法了，而不能直接訪問 LinkedLi
openssl 使用非阻塞 bio

在 openssl 中使用非阻塞的bio方法紀要。通過與 epoll 的配合，完成高效的加密連接處理。