python爬蟲--自動獲取seebug的poc

来源:http://www.cnblogs.com/ZhangShY/archive/2017/08/04/7287162.html
-Advertisement-
Play Games

簡單的寫了一個爬取www.seebug.org上poc的小玩意兒~ 首先我們進行一定的抓包分析 我們遇到的第一個問題就是seebug需要登錄才能進行下載,這個很好處理,只需要抓取返回值200的頁面,將我們的headers信息複製下來就行了 (這裡我就不放上我的headers信息了,不過headers ...


簡單的寫了一個爬取www.seebug.org上poc的小玩意兒~

首先我們進行一定的抓包分析

我們遇到的第一個問題就是seebug需要登錄才能進行下載,這個很好處理,只需要抓取返回值200的頁面,將我們的headers信息複製下來就行了

(這裡我就不放上我的headers信息了,不過headers里需要修改和註意的內容會在下文講清楚)

headers = {
    'Host':******,
    'Connection':'close',
    'Accept':******,
    'User-Agent':******,
    'Referer':'https://www.seebug.org/vuldb/ssvid-',
    'Accept-Language':'zh-CN,zh;q=0.8',
    'Cookie':***********
}

由上所知,我們的中點就是referer這一項,是我們後面要進行修改的

那麼怎麼去修改這個呢

我先進行點擊下載鏈接抓包發現,seebug的poc下載鏈接特別的整齊:

'https://www.seebug.org/vuldb/downloadPoc/xxxxx',

後面只需要加上一個五位數就行,而且五位數是連號的哦!

這就一目瞭然,我更改了五位數再次進行請求時發現,並沒有返回美麗的200狀態碼,瞄了一眼header,發現了referer這一項:

'Referer':'https://www.seebug.org/vuldb/ssvid-xxxxx'

也就是說referer這一項的五位數字也要隨之變化,這樣我們的get請求頭部就完成了

 

接下來是線程的問題

使用了queue和threading進行多線程處理,發現我們不能圖快,不然會被反爬蟲發現

於是導入time增加time.sleep(1),能有一秒的休眠就行了,線程數給了2個(這樣看來好像線程的意義並不大,不過也就這麼寫啦)

# coding=utf-8

import requests
import threading
import Queueimport time 

headers = {
            ******
        }
url_download = 'https://www.seebug.org/vuldb/downloadPoc/'

class SeeBugPoc(threading.Thread):
    def __init__(self,queue):
        threading.Thread.__init__(self)
        self._queue = queue

    def run(self):
        while not self._queue.empty():
            url_download = self._queue.get_nowait()
            self.download_file(url_download)


    def download_file(self,url_download):
        r = requests.get(url = url_download,headers = headers)
        print r.status_code
        name = url_download.split('/')[-1]
        print name 
        if r.status_code == 200:
            f = open('E:/poc/'+name+'.txt','w')
            f.write(r.content)
            f.close()
            print 'it ok!'
        else:
            print 'what fuck !'
        time.sleep(1)
'''
    def get_html(self,url):

        r = requests.get(url = url,headers = headers)
        print r.status_code
        print time.time()
'''


def main():
    queue = Queue.Queue()
    for i in range(93000,93236):
        headers['Referer'] = 'https://www.seebug.org/vuldb/ssvid-'+str(i)
        queue.put('https://www.seebug.org/vuldb/downloadPoc/'+str(i))


        #queue用來存放設計好的url,將他們放入一個隊列中,以便後面取用

    threads = []
    thread_count = 2
    for i in range(thread_count):
        threads.append(SeeBugPoc(queue))

    for i in threads:
        i.start()

    for i in threads:
        i.join()

if __name__ == '__main__':
    main()

代碼如上

控制下載的range()中的兩個五位數,大家只要去seebug庫中找一找想要掃描的庫的開頭和結尾編碼的五位數就行了(也就是他們的編號)

關於返回的狀態碼,如果項目不提供poc下載、poc下載不存在、poc需要兌換幣才能下載,就不能夠返回正常的200啦(非正常:404/403/521等)

當然,如果一直出現521,可以考慮刷新網頁重新獲取header並修改代碼

最後進行一個狀態碼的判斷,並且將200的文件寫出來就好了

 

  表示慚愧感覺自己寫的很簡單

  如果大家發現錯誤或者有疑惑可以留言討論哦


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 心血來潮想瞭解下常用圖片的格式解析,翻看了一些資料後,發現最簡單的是bmp格式,所以先拿它開刀。 BMP格式 這種格式內的數據分為 三到四個 部分,依次是: 1. 文件信息頭 (14位元組)存儲著文件類型,文件大小等信息 2. 圖片信息頭 (40位元組)存儲著圖像的尺寸,顏色索引,位平面數等信息 3. ...
  • 操作系統 : CentOS7.3.1611_x64 python版本:2.7.5 sklearn版本:0.18.2 tensorflow版本 :1.2.1 多項式的定義及展現形式 多項式(Polynomial)是代數學中的基礎概念,是由稱為不定元的變數和稱為繫數的常數通過有限次加減法、乘法以及自然數 ...
  • 平行運算 前言: 編寫Python程式時,我們可能會遭遇性能問題,即使優化了代碼,程式也依然有可能運行的很慢,從而無法滿足我們對執行速度的要求,目前的電腦,其cpu核心數越來越多,於是,我們可以考慮通過平行計算來提升性能,能不能把代碼的總計算量分配到多個獨立的任務之中,併在多個CPU核心上面同時運 ...
  • 一、apache、php、mysql安裝 1.安裝php 分步式安裝: 下載php:wget http://cn2.php.NET/get/php-7.0.11.tar.gz/from/this/mirror 解壓:tar -zxvf mirror 安裝gcc:yum install -y gcc ...
  • 1、break break是終止本次迴圈,比如你很多個while迴圈,你在其中一個while迴圈里寫了一個break,滿足條件,只會終止這個while裡面的迴圈,程式會跳到上一層while迴圈繼續往下走 以簡單的for迴圈來舉例 ...
  • from flask import Flask,make_response,jsonify,request,url_for,g from flask_restful import reqparse, abort, Api, Resource from flask_httpauth import HT... ...
  • Java 記憶體區域和GC機制 目錄 Java垃圾回收概況 Java記憶體區域 Java對象的訪問方式 Java記憶體分配機制 Java GC機制 垃圾收集器 Java垃圾回收概況 Java GC(Garbage Collection,垃圾收集,垃圾回收)機制,是Java與C++/C的主要區別之一,作為J ...
  • 總結:本篇博客介紹使用gregwar/captcha實現驗證碼的具體操作步驟,以及可能遇到的問題和解決辦法。 操作步驟: 1, 在laravel5.4項目根目錄下找到 composer.json 這個文件, 添加 "gregwar/captcha": "1.*" 到composer.json這個文件 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...