爬蟲代理 IP 池及隧道代理(2022.05.24)

来源:https://www.cnblogs.com/xiaoQQya/archive/2022/05/24/16305232.html
-Advertisement-
Play Games

爬蟲代理 IP 池及隧道代理 日常開發中,偶爾會遇到爬取網頁數據的需求,為了隱藏本機真實 IP,常常會用到代理 IP 池,本文將基於 openresty 與代理 IP 池搭建更為易用的隧道代理。 1. 代理 IP 池 1.1 簡介 代理 IP 池即在資料庫中維護一個可用的 IP 代理隊列,一般實現思 ...


爬蟲代理 IP 池及隧道代理

目錄

日常開發中,偶爾會遇到爬取網頁數據的需求,為了隱藏本機真實 IP,常常會用到代理 IP 池,本文將基於 openresty 與代理 IP 池搭建更為易用的隧道代理。

1. 代理 IP 池

1.1 簡介

代理 IP 池即在資料庫中維護一個可用的 IP 代理隊列,一般實現思路如下:

  1. 定時從免費或收費代理網站獲取代理 IP 列表;
  2. 將代理 IP 列表以 Hash 結構存入 Redis;
  3. 定時檢測代理 IP 的可用性,剔除不可用的代理 IP;
  4. 對外提供 API 介面用來管理代理 IP 池;

1.2 實現

此處筆者採用的開源項目jhao104/proxy_pool,具體實現方式參考其文檔

1.3 測試

import json

import requests
from retrying import retry


def get_proxy_ip() -> str:
    resp = requests.get(url="http://192.168.0.121:5010/get")
    assert resp.status_code == 200
    return f"http://{json.loads(resp.text)['proxy']}"


@retry(stop_max_attempt_number=5)
def proxy_test() -> None:
    resp = requests.get(url="http://httpbin.org/get", proxies={"http": get_proxy_ip()}, timeout=5)
    assert resp.status_code == 200
    print(f"origin: {json.loads(resp.text)['origin']}")


if __name__ == "__main__":
    try:
        proxy_test()
    except Exception as e:
        print(f"Error: {e}.")

2. 隧道代理

2.1 簡介

通過代理 IP 池實現了隱藏本機真實 IP,但每次需要通過 API 介面獲取新的代理 IP,不太方便,所以出現了隧道代理。隧道代理內部自動將請求通過不同的代理 IP 進行轉發,對外提供統一的代理地址。

2.2 實現

此處筆者通過 openresty 配合上文搭建的代理 IP 池實現隧道代理。

2.2.1 目錄結構

openresty
├── conf.d
│   └── tunnel-proxy.stream
├── docker.sh
└── nginx.conf

2.2.2 配置文件

  1. nginx.conf 文件為 openresty 的主配置文件,主要修改為引入了 stream 相關的配置文件,具體內容如下:

    # nginx.conf  --  docker-openresty
    #
    # This file is installed to:
    #   `/usr/local/openresty/nginx/conf/nginx.conf`
    # and is the file loaded by nginx at startup,
    # unless the user specifies otherwise.
    #
    # It tracks the upstream OpenResty's `nginx.conf`, but removes the `server`
    # section and adds this directive:
    #     `include /etc/nginx/conf.d/*.conf;`
    #
    # The `docker-openresty` file `nginx.vh.default.conf` is copied to
    # `/etc/nginx/conf.d/default.conf`.  It contains the `server section
    # of the upstream `nginx.conf`.
    #
    # See https://github.com/openresty/docker-openresty/blob/master/README.md#nginx-config-files
    #
    
    #user  nobody;
    #worker_processes 1;
    
    # Enables the use of JIT for regular expressions to speed-up their processing.
    pcre_jit on;
    
    
    
    #error_log  logs/error.log;
    #error_log  logs/error.log  notice;
    #error_log  logs/error.log  info;
    
    #pid        logs/nginx.pid;
    
    
    events {
        worker_connections  1024;
    }
    
    
    http {
        include       mime.types;
        default_type  application/octet-stream;
    
        # Enables or disables the use of underscores in client request header fields.
        # When the use of underscores is disabled, request header fields whose names contain underscores are marked as invalid and become subject to the ignore_invalid_headers directive.
        # underscores_in_headers off;
    
        #log_format  main  '$remote_addr - $remote_user [$time_local] "$request" '
        #                  '$status $body_bytes_sent "$http_referer" '
        #                  '"$http_user_agent" "$http_x_forwarded_for"';
    
        #access_log  logs/access.log  main;
    
            # Log in JSON Format
            # log_format nginxlog_json escape=json '{ "timestamp": "$time_iso8601", '
            # '"remote_addr": "$remote_addr", '
            #  '"body_bytes_sent": $body_bytes_sent, '
            #  '"request_time": $request_time, '
            #  '"response_status": $status, '
            #  '"request": "$request", '
            #  '"request_method": "$request_method", '
            #  '"host": "$host",'
            #  '"upstream_addr": "$upstream_addr",'
            #  '"http_x_forwarded_for": "$http_x_forwarded_for",'
            #  '"http_referrer": "$http_referer", '
            #  '"http_user_agent": "$http_user_agent", '
            #  '"http_version": "$server_protocol", '
            #  '"nginx_access": true }';
            # access_log /dev/stdout nginxlog_json;
    
        # See Move default writable paths to a dedicated directory (#119)
        # https://github.com/openresty/docker-openresty/issues/119
        client_body_temp_path /var/run/openresty/nginx-client-body;
        proxy_temp_path       /var/run/openresty/nginx-proxy;
        fastcgi_temp_path     /var/run/openresty/nginx-fastcgi;
        uwsgi_temp_path       /var/run/openresty/nginx-uwsgi;
        scgi_temp_path        /var/run/openresty/nginx-scgi;
    
        sendfile        on;
        #tcp_nopush     on;
    
        #keepalive_timeout  0;
        keepalive_timeout  65;
    
        #gzip  on;
    
        include /etc/nginx/conf.d/*.conf;
    
        # Don't reveal OpenResty version to clients.
        # server_tokens off;
    }
    
    stream {
        log_format proxy '$remote_addr [$time_local] '
                         '$protocol $status $bytes_sent $bytes_received '
                         '$session_time "$upstream_addr" '
                         '"$upstream_bytes_sent" "$upstream_bytes_received" "$upstream_connect_time"';
        access_log /usr/local/openresty/nginx/logs/access.log proxy;
        error_log /usr/local/openresty/nginx/logs/error.log notice;
        open_log_file_cache off;
    
        include /etc/nginx/conf.d/*.stream;
    }
    
  2. tunnel-proxy.stream 為配置隧道代理的文件,通過查詢 Redis 獲取代理 IP,並將請求通過代理 IP 轉發到指定目標地址,具體內容如下:

    # tunnel-proxy.stream
    
    upstream backend {
        server 0.0.0.0:9870;
    
        balancer_by_lua_block {
            local balancer = require "ngx.balancer"
            local host = ngx.ctx.proxy_host
            local port = ngx.ctx.proxy_port
    
            local success, msg = balancer.set_current_peer(host, port)
            if not success then
                ngx.log(ngx.ERR, "Failed to set the peer. Error: ", msg, ".")
            end
        }
    }
    
    server {
        # 對外代理監聽埠
        listen 9870;
        listen [::]:9870;
    
        proxy_connect_timeout 10s;
        proxy_timeout 10s;
        proxy_pass backend;
    
        preread_by_lua_block {
            local redis = require("resty.redis")
            local redis_instance = redis:new()
            redis_instance:set_timeout(3000)
    
            # Redis 地址
            local rhost = "192.168.0.121"
            # Redis 埠
            local rport = 6379
            # Redis 資料庫
            local database = 0
            # Redis Hash 鍵名
            local rkey = "use_proxy"
            local success, msg = redis_instance:connect(rhost, rport)
            if not success then
                ngx.log(ngx.ERR, "Failed to connect to redis. Error: ", msg, ".")
            end
    
            redis_instance:select(database)
            local proxys, msg = redis_instance:hkeys(rkey)
            if not proxys then
                ngx.log(ngx.ERR, "Proxys num error. Error: ", msg, ".")
                return redis_instance:close()
            end
    
            math.randomseed(tostring(ngx.now()):reverse():sub(1, 6))
            local proxy = proxys[math.random(#proxys)]
            local colon_index = string.find(proxy, ":")
            local proxy_ip = string.sub(proxy, 1, colon_index - 1)
            local proxy_port = string.sub(proxy, colon_index + 1)
            ngx.log(ngx.NOTICE, "Proxy: ", proxy, ", ip: ", proxy_ip, ", port: ", proxy_port, ".");
            ngx.ctx.proxy_host = proxy_ip
            ngx.ctx.proxy_port = proxy_port
            redis_instance:close()
        }
    }
    

2.2.3 openresty

通過 docker 啟動 openresty,此處筆者為了方便,將 docker 命令保存成了 shell 文件,具體內容如下:

docker run --name openresty -itd --restart always \
-p 9870:9870 \
-v $PWD/nginx.conf:/usr/local/openresty/nginx/conf/nginx.conf \
-v $PWD/conf.d:/etc/nginx/conf.d \
-e LANG=C.UTF-8 \
-e TZ=Asia/Shanghai \
--log-driver json-file \
--log-opt max-size=1g \
--log-opt max-file=3 \
openresty/openresty:alpine

執行 bash docker.sh 命名啟動 openresty,至此隧道代理搭建完成。

2.3 測試

import json

import requests
from retrying import retry

proxies = {
    "http": "http://192.168.0.121:9870"
}


@retry(stop_max_attempt_number=5)
def proxy_test() -> None:
    resp = requests.get(
        url="http://httpbin.org/get", proxies=proxies,  timeout=5, )
    assert resp.status_code == 200
    print(f"origin: {json.loads(resp.text)['origin']}")


if __name__ == "__main__":
    try:
        proxy_test()
    except Exception as e:
        print(f"Error: {e}.")

參考鏈接:


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 0、前言 本篇博客的初衷是為了特定的人弄的,這些內容在網上都可以找到原文,因此:這篇博客只是保證能夠讓特定的人看懂,其他人看得懂就看,看不懂拉倒,同時,這篇博客中細節說明沒有、運行截圖沒有、特別備註沒有...... 1、JUL 指的是Java Util Logging包,它是java原生的日誌框架, ...
  • 在kubernetes容器環境下 kafka會預設把主機名註冊到zookeeper。這個時候消費端部署在不同的命名空間或者不同的集群中會出現無法訪問的情況。用advertised.listeners配置可以重寫預設註冊的地址。 定義 listeners listeners 配置的是kafka Ser ...
  • 到底是什麼面試題, 讓一個工作了4年的精神小伙,只是去參加了一場技術面試, 就被搞得精神萎靡。鬱郁寡歡! 這一切的背後到底是道德的淪喪,還是人性的扭曲。 讓我們一起揭秘一下這道面試題。 關於, “簡述你對線程池的理解”,看看普通人和高手的回答。 普通人: 嗯。。。。。。。。。。 高手: 關於這個問題 ...
  • 目錄 一.簡介 二.效果演示 三.源碼下載 四.猜你喜歡 零基礎 OpenGL (ES) 學習路線推薦 : OpenGL (ES) 學習目錄 >> OpenGL ES 基礎 零基礎 OpenGL (ES) 學習路線推薦 : OpenGL (ES) 學習目錄 >> OpenGL ES 轉場 零基礎 O ...
  • 每日一句 軍人天生就捨棄了戰鬥的意義! 概述 RabitMQ 發佈確認,保證消息在磁碟上。 前提條件 1。隊列必須持久化 隊列持久化 2。隊列中的消息必須持久化 消息持久化 使用 三種發佈確認的方式: 1。單個發佈確認 2。批量發佈確認 3。非同步批量發佈確認 開啟發佈確認的方法 //創建一個連接工廠 ...
  • 使用FFmpeg庫做的項目,調試項目的時候發現,連續解視頻進行播放,會有明顯記憶體增加問題。連續工作10個小時後就會 被linux 內核kill掉。 通過逐步註掉代碼和網上查閱資料。最後發現記憶體泄漏有一些幾個地方: 一、av_read_frame的問題 從網上查閱大神們的經驗,主要是av_read_f ...
  • 在Java 9中又新增了一些API來幫助便捷的創建不可變集合,以減少代碼複雜度。 本期配套視頻:Java 9 新特性:快速定義不可變集合 常規寫法 以往我們創建一些不可變集合的時候,通常是這樣寫的: // 不可變的Set Set<String> set = new HashSet<>(); set. ...
  • 反向代理(2022/03/31) 簡單記錄 Nginx 反向代理相關的一些配置文件,描述不足之處請自行查閱相關資料。 1. HTTP 配置 upstream web { server domain.com:80; } server { # 監聽 tcp4 listen 80; # 監聽 tcp6 l ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...