python 採集鬥圖啦(多線程)_ZenDei技術網路在線

python 採集鬥圖啦(多線程)

-Advertisement-

import concurrent import requests; from concurrent.futures import ThreadPoolExecutor import os; import parsel; def send_request(url): header = { "user ...

import concurrent
import requests;
from concurrent.futures import ThreadPoolExecutor
import os;
import parsel;

def send_request(url):
    header = {
        "user-agent":'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
    }
    requests.packages.urllib3.disable_warnings()
    response = requests.get(url,headers=header)
    return response
def pare_data(data):
     selector = parsel.Selector(data)
     result_list = selector.xpath('//a[@class="col-xs-6 col-sm-3"]')
     for result in result_list:
        title = result.xpath('./img/@alt').get()
        src_url = result.xpath('./img/@data-original'). get()

        all_title = title+'.'+src_url.split('.')[-1]
        yield all_title,src_url

def save_data(file_name,data):
    dir_name = 'doutu_list'
    if not os.path.exists(dir_name):
        os.mkdir(dir_name)
    with open(dir_name+'/'+file_name,'wb') as f:
        f.write(data)
        print("保存完成:",file_name)


def main(page):
    for page in range(1,page+1):
        print('########################當前為第{}頁########################'.format(page))
        thread_pool = concurrent.futures.ThreadPoolExecutor(max_workers=1)
        res = send_request('https://www.doutula.com/photo/list/?page={}'.format(str(page)))
        src_url = pare_data(res.text)
        for file,url in src_url:
            print(file)
            print(url)
            image_response = send_request(url)
            thread_pool.submit(save_data,file,image_response.content)
        thread_pool.shutdown()

if __name__=='__main__':
    main(1)

高顏值後臺管理系統免費使用 ### 子楓後臺管理系統 ###，可在寶塔面板直接安裝

歡迎關註我的公眾號：子楓的奇妙世界，獲得獨家整理的學習資源和日常乾貨推送。
如果您對我的其他專題內容感興趣，直達我的個人博客：www.wangmingchang.com 。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Java反射詳解

一、反射概述 1. java.lang.Class:是反射的源頭我們創建一個類，通過編譯，生成對應的.calss文件，之後使用java.exe載入(jvm的類載入器)此.class文件，此.class文件載入到記憶體以後，就是一個運行時類，存在緩存區，那麼這個運行時類的本身就是一個class的實例 ...
真實世界的Python儀器監控-數據採集與控制系統自動化pdf|內附下載

真實世界的Python儀器監控》主要探討如何運用Python快速構建自動化儀器控制系統，幫助讀者瞭解如何通過自行開發應用程式來監視或者控制儀器硬體。《真實世界的Python儀器監控》內容涵蓋了從接線到建立介面，直到完成可用軟體的整個過程。本書提供逐步講解、清晰實例，以及將PC連接到各種設備的實踐技巧 ...
精通Python網路爬蟲核心技術-框架與項目實戰pdf【108mb】 |內附下載地址提取碼|

精通Python網路爬蟲這是一本實戰性的網路爬蟲秘笈，不僅講解瞭如何編寫爬蟲，而且還講解了流行的網路爬蟲的使用。點擊此處下載提取碼：h5nn 全書分為4個部分：第壹部分對網路爬蟲做了概要性的介紹，主要介紹了網路爬蟲的常識和所涉及的技術概覽；第二部分是本書的重點之一，詳細講解了網路爬蟲的核心技術， ...
C/C++編程筆記：C++入門知識丨多態性和虛函數

本篇要學習的內容和知識結構概覽多態性編譯時的多態性稱為靜態聯編. 當調用重載函數時, 在編譯期就確定下來調用哪個函數. 運行時的多態性稱為動態聯編. 在運行時才能確定調用哪個函數, 由虛函數來支持. 靜態聯編中的賦值相容性及名字支配規律派生一個類的原因並非總是為了添加新的成員或成員函數, 有時 ...
Stream流

摘要 Stream 是對集合對象功能的增強，它專註於對集合對象進行各種非常便利、高效的聚合操作，或者大批量數據操作。通常我們需要多行代碼才能完成的操作，藉助於Stream流式處理可以很簡單的實現。 Stream 不是集合元素，它不是數據結構並不保存數據，它是有關演算法和計算的。創建Steam流調用 ...
最全pycharm教材pdf精簡版|網盤下載內附提取碼|

此pdf文為pycharm最全使用教材，由山在嶺就在博主花了一周多時間嘔心創作~ 點擊此處下載提取碼：fdno ...
機器學習實戰pdf|網盤下載內附提取碼

點擊此處進入下載地址提取碼：67ju 目錄第一部分分類第 1 章機器學習基礎 .....................................21.1 何謂機器學習 ............................................3 1.1.1 感測器和海量 ...
在阿裡雲購買雲伺服器並安裝寶塔面板

阿裡雲購買伺服器購買雲伺服器,伺服器版本選擇centos 7.5版本,之後在控制台打開實例 2,設置root密碼如果你購買時沒有設置root密碼這裡需要重置下下載軟體並安裝寶塔本地下載putty 鏈接工具填入你的公網ip 然後open 賬號填root 密碼就是剛纔設置的那個密碼然後執行 ...