python爬蟲--自動獲取seebug的poc

-Advertisement-

簡單的寫了一個爬取www.seebug.org上poc的小玩意兒~ 首先我們進行一定的抓包分析我們遇到的第一個問題就是seebug需要登錄才能進行下載，這個很好處理，只需要抓取返回值200的頁面，將我們的headers信息複製下來就行了（這裡我就不放上我的headers信息了，不過headers ...

簡單的寫了一個爬取www.seebug.org上poc的小玩意兒~

首先我們進行一定的抓包分析

我們遇到的第一個問題就是seebug需要登錄才能進行下載，這個很好處理，只需要抓取返回值200的頁面，將我們的headers信息複製下來就行了

（這裡我就不放上我的headers信息了，不過headers里需要修改和註意的內容會在下文講清楚）

headers = {
    'Host':******,
    'Connection':'close',
    'Accept':******,
    'User-Agent':******,
    'Referer':'https://www.seebug.org/vuldb/ssvid-',
    'Accept-Language':'zh-CN,zh;q=0.8',
    'Cookie':***********
}

由上所知，我們的中點就是referer這一項，是我們後面要進行修改的

那麼怎麼去修改這個呢

我先進行點擊下載鏈接抓包發現，seebug的poc下載鏈接特別的整齊：

'https://www.seebug.org/vuldb/downloadPoc/xxxxx',

後面只需要加上一個五位數就行，而且五位數是連號的哦！

這就一目瞭然，我更改了五位數再次進行請求時發現，並沒有返回美麗的200狀態碼，瞄了一眼header，發現了referer這一項：

'Referer':'https://www.seebug.org/vuldb/ssvid-xxxxx'

也就是說referer這一項的五位數字也要隨之變化，這樣我們的get請求頭部就完成了

接下來是線程的問題

使用了queue和threading進行多線程處理，發現我們不能圖快，不然會被反爬蟲發現

於是導入time增加time.sleep(1)，能有一秒的休眠就行了，線程數給了2個（這樣看來好像線程的意義並不大，不過也就這麼寫啦）

# coding=utf-8

import requests
import threading
import Queueimport time 

headers = {
            ******
        }
url_download = 'https://www.seebug.org/vuldb/downloadPoc/'

class SeeBugPoc(threading.Thread):
    def __init__(self,queue):
        threading.Thread.__init__(self)
        self._queue = queue

    def run(self):
        while not self._queue.empty():
            url_download = self._queue.get_nowait()
            self.download_file(url_download)


    def download_file(self,url_download):
        r = requests.get(url = url_download,headers = headers)
        print r.status_code
        name = url_download.split('/')[-1]
        print name 
        if r.status_code == 200:
            f = open('E:/poc/'+name+'.txt','w')
            f.write(r.content)
            f.close()
            print 'it ok!'
        else:
            print 'what fuck !'
        time.sleep(1)
'''
    def get_html(self,url):

        r = requests.get(url = url,headers = headers)
        print r.status_code
        print time.time()
'''


def main():
    queue = Queue.Queue()
    for i in range(93000,93236):
        headers['Referer'] = 'https://www.seebug.org/vuldb/ssvid-'+str(i)
        queue.put('https://www.seebug.org/vuldb/downloadPoc/'+str(i))


        #queue用來存放設計好的url，將他們放入一個隊列中，以便後面取用

    threads = []
    thread_count = 2
    for i in range(thread_count):
        threads.append(SeeBugPoc(queue))

    for i in threads:
        i.start()

    for i in threads:
        i.join()

if __name__ == '__main__':
    main()

代碼如上

控制下載的range()中的兩個五位數，大家只要去seebug庫中找一找想要掃描的庫的開頭和結尾編碼的五位數就行了（也就是他們的編號）

關於返回的狀態碼，如果項目不提供poc下載、poc下載不存在、poc需要兌換幣才能下載，就不能夠返回正常的200啦（非正常：404/403/521等）

當然，如果一直出現521，可以考慮刷新網頁重新獲取header並修改代碼

最後進行一個狀態碼的判斷，並且將200的文件寫出來就好了

（

　　表示慚愧感覺自己寫的很簡單

　　如果大家發現錯誤或者有疑惑可以留言討論哦

）

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

c語言解析bmp圖片

心血來潮想瞭解下常用圖片的格式解析，翻看了一些資料後，發現最簡單的是bmp格式，所以先拿它開刀。 BMP格式這種格式內的數據分為三到四個部分，依次是： 1. 文件信息頭（14位元組）存儲著文件類型，文件大小等信息 2. 圖片信息頭（40位元組）存儲著圖像的尺寸，顏色索引，位平面數等信息 3. ...
多項式回歸學習筆記

操作系統： CentOS7.3.1611_x64 python版本：2.7.5 sklearn版本：0.18.2 tensorflow版本：1.2.1 多項式的定義及展現形式多項式（Polynomial）是代數學中的基礎概念，是由稱為不定元的變數和稱為繫數的常數通過有限次加減法、乘法以及自然數 ...
Python開發【筆記】：concurrent.futures 平行運算

平行運算前言：編寫Python程式時，我們可能會遭遇性能問題，即使優化了代碼，程式也依然有可能運行的很慢，從而無法滿足我們對執行速度的要求，目前的電腦，其cpu核心數越來越多，於是，我們可以考慮通過平行計算來提升性能，能不能把代碼的總計算量分配到多個獨立的任務之中，併在多個CPU核心上面同時運 ...
centos7.2搭建LAMP環境

一、apache、php、mysql安裝 1.安裝php 分步式安裝：下載php：wget http://cn2.php.NET/get/php-7.0.11.tar.gz/from/this/mirror 解壓：tar -zxvf mirror 安裝gcc：yum install -y gcc ...
python中break continue exit() pass淺析

1、break break是終止本次迴圈，比如你很多個while迴圈，你在其中一個while迴圈里寫了一個break，滿足條件，只會終止這個while裡面的迴圈，程式會跳到上一層while迴圈繼續往下走以簡單的for迴圈來舉例 ...
flask_restful 學習筆記

from flask import Flask,make_response,jsonify,request,url_for,g from flask_restful import reqparse, abort, Api, Resource from flask_httpauth import HT... ...
Java記憶體區域劃分和GC機制

Java 記憶體區域和GC機制目錄 Java垃圾回收概況 Java記憶體區域 Java對象的訪問方式 Java記憶體分配機制 Java GC機制垃圾收集器 Java垃圾回收概況 Java GC（Garbage Collection，垃圾收集，垃圾回收）機制，是Java與C++/C的主要區別之一，作為J ...
laravel5.4生成驗證碼

總結：本篇博客介紹使用gregwar/captcha實現驗證碼的具體操作步驟，以及可能遇到的問題和解決辦法。操作步驟： 1, 在laravel5.4項目根目錄下找到 composer.json 這個文件，添加 "gregwar/captcha": "1.*" 到composer.json這個文件 ...