PYTHON爬取圖片_ZenDei技術網路在線

PYTHON爬取圖片

-Advertisement-

from threading import Threadfrom concurrent.futures import ThreadPoolExecutorfrom multiprocessing import Process, Queueimport requestsfrom lxml import ...

from threading import Thread
from concurrent.futures import ThreadPoolExecutor
from multiprocessing import Process, Queue
import requests
from lxml import etree
from urllib import parse

# 異常處理還未優化，後續補上
# 未解決問題1：這是爬取多個頁面的當前所有圖片，圖片內部的還未處理
# 未解決問題2：當爬取頁面過多時，會報錯，原因還未找到，後續補上

headers = {
    "User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Mobile Safari/537.36",
    # 防盜鏈 : 朔源，當前本次請求的上一級是誰
    "Referer": "https://xxx"
}


def get_img_src(q):
    urls = []
    for i in range(1, 5):
        if i == 1:
            a = f"https://xxx/index.html"
        else:
            a = f"https://xxx/{i}.html"
        urls.append(a)
    href_list_all = []
    for i in urls:
        resp = requests.get(i, headers=headers)
        resp.encoding = 'utf-8'
        tree = etree.HTML(resp.text)
        href_list = tree.xpath("//div[@class='list-box-p']/ul/li/a/@href")
        href_list_all.append(href_list)

    for all_list in href_list_all:
        for href in all_list:
            child_resp = requests.get(href, headers=headers)
            child_resp.encoding = 'utf-8'
            child_tree = etree.HTML(child_resp.text)
            src = child_tree.xpath("//div[@class='img_box']/a/img/@src")[0]  # 註意這裡獲取的是列表,需要取裡面的下標為0的第一個元素值
            q.put(src)  # 迴圈向隊列里裝東西,後面好給下載用
            print(f"---------------------------------------------------被塞進隊列--------------------->{src}")
    q.put("完事了")


def download(src):
    print('開始下載------------>', src)
    name = src.split('/')[-1]
    with open("./image/" + name, mode='wb') as f:
        resp = requests.get(src, headers=headers)
        f.write(resp.content)
    print('下載完畢------------>', src)


def download_img(q):
    with ThreadPoolExecutor(5) as t:
        while 1:
            src = q.get()  # 從隊列里拿東西,如果沒數據就阻塞,一直等著有數據來
            if src == "完事了":
                break
            t.submit(download, src)


if __name__ == '__main__':
    q = Queue()
    p1 = Process(target=get_img_src, args=(q,))
    p2 = Process(target=download_img, args=(q,))
    p1.start()
    p2.start()

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

痞子衡嵌入式：我被邀請做貿澤電子&與非網聯合推出的《對話工程師》節目嘉賓

《對話工程師》是「貿澤電子」贊助、「與非網」製作的一檔網路節目，自2022年11月起，邀請不同技術領域的資深工程師，聊聊開發過程中的經驗感悟，欄目共 10 期，痞子衡有幸被邀請做了第 4 期節目的嘉賓（12月5日在「B站 - 與非網官方賬號」里剛播出第 1 期）。說起與《對話工程師》節目的結緣， ...
1.5.6 NN與2NN-hadoop-最全最完整的保姆級的java大數據學習資料

1.5.6 NN與2NN 1.5.6.1 HDFS元數據管理機制問題1：NameNode如何管理和存儲元數據？電腦中存儲數據兩種：記憶體或者是磁碟元數據存儲磁碟：存儲磁碟無法面對客戶端對元數據信息的任意的快速低延遲的響應，但是安全性高元數據存儲記憶體：元數據存放記憶體，可以高效的查詢以及快速響應 ...
redis緩存更新策略【項目總結】

Redis項目總結--緩存更新策略 1.更新策略 | | 記憶體淘汰 | 超時剔除 | 主動更新 | | : : | : : | : : | : : | | 說明 | 不用自己維護，利用Redis記憶體淘汰機制，記憶體不足時自動淘汰部分數據，下次查詢時更新緩存 | 給緩存數據添加過期時間，到期刪除，下次查 ...
JavaScript：this指針

this指針，存儲的是一個記憶體地址，如同變數一樣，指向一塊記憶體區域；而這個記憶體區域，保存的就是一個對象的數據，那麼這個對象是什麼呢？通常來說，this指針，主要是用在方法（函數）中，用來指向調用方法（函數）的對象；比如說，有個方法eat()，這個方法裡面有個this指針；當Tom調用eat時 ...
Java工廠模式的最佳實踐？

"Simplicity is prerequisite for reliability." - Edsger Dijkstra “簡單是可靠的前提條件。” —— 艾茲格·迪傑斯特拉 0x00 大綱 0x01 前言最近在重溫設計模式（in Java）的相關知識，然後在工廠模式的實現上面進行了一些較深 ...
新款 c++ web framework 支持orm http/2

一、6-8作業總結（1）第六次作業：第一次作業分了兩個題，一個電信1題目非常長，給出了類圖，類很多工作量很大。還一個題以容器類為例展現了介面，多態的用處和效果，題目給出的提示非常多，按照題目來，再加上一些測試代碼，可以運用equals類實現。（2）第七次作業：第二次作業分了三個小題，第一個還是電 ...
用戶重覆註冊分析-多線程事務中加鎖引發的bug

本文記錄博主線上項目一次用戶重覆註冊問題的分析過程與解決方案博主github地址: github.com/wayn111 一復現過程線上客戶端用戶使用微信掃碼登陸時需要再綁定一個手機號，在綁定手機後，用戶購買客戶端商品下線再登錄，發現用戶賬號ID被變更，已經不是用戶剛綁定手機號時自動登錄的用戶 ...
從 695. 島嶼的最大面積入手深度優先搜素DFS

一、什麼是深度優先遍歷（DFS）以“深度”為第一關鍵詞，每次都沿路徑到不能再前進時，才退回到最近的岔路口，然後繼續按同樣的邏輯搜索。二、題目與解答題目： Leetcode 695. 島嶼的最大面積解答思路：首先要遍曆數組，當發現（i,j）對應為陸地時，進行如下步驟：（1）遞歸解法遞歸解 ...