Python爬蟲入門教程 26-100 知乎文章圖片爬取器之二

-Advertisement-

1. 知乎文章圖片爬取器之二博客背景昨天寫了知乎文章圖片爬取器的一部分代碼，針對知乎問題的答案json進行了數據抓取，博客中出現了部分寫死的內容，今天把那部分信息調整完畢，並且將圖片下載完善到代碼中去。首先，需要獲取任意知乎的問題，只需要你輸入問題的ID，就可以獲取相關的頁面信息，比如最重要的合 ...

1. 知乎文章圖片爬取器之二博客背景

昨天寫了知乎文章圖片爬取器的一部分代碼，針對知乎問題的答案json進行了數據抓取，博客中出現了部分寫死的內容，今天把那部分信息調整完畢，並且將圖片下載完善到代碼中去。

首先，需要獲取任意知乎的問題，只需要你輸入問題的ID，就可以獲取相關的頁面信息，比如最重要的合計有多少人回答問題。
問題ID為如下標紅數字
https://www.zhihu.com/question/29024583

編寫代碼，下麵的代碼用來檢測用戶輸入的是否是正確的ID，並且通過拼接URL去獲取該問題下麵合計有多少答案。

import requests
import re
import pymongo
import time
DATABASE_IP = '127.0.0.1'
DATABASE_PORT = 27017
DATABASE_NAME = 'sun'
client = pymongo.MongoClient(DATABASE_IP,DATABASE_PORT)
db = client.sun
db.authenticate("dba", "dba")
collection = db.zhihuone  # 準備插入數據

BASE_URL = "https://www.zhihu.com/question/{}"
def get_totle_answers(article_id):
    headers = {
        "user-agent": "需要自己補全 Mozilla/5.0 (Windows NT 10.0; WOW64)"
    }

    with requests.Session() as s:
        with s.get(BASE_URL.format(article_id),headers=headers,timeout=3) as rep:
            html = rep.text
            pattern =re.compile( '<meta itemProp="answerCount" content="(\d*?)"/>')
            s = pattern.search(html)
            print("查找到{}條數據".format(s.groups()[0]))
            return s.groups()[0]

if __name__ == '__main__':

    # 用死迴圈判斷用戶輸入的是否是數字
    article_id = ""
    while not article_id.isdigit():
        article_id = input("請輸入文章ID：")

    totle = get_totle_answers(article_id)
    if int(totle)>0:
        zhi = ZhihuOne(article_id,totle)
        zhi.run()
    else:
        print("沒有任何數據！")

完善圖片下載部分，圖片下載地址在查閱過程中發現，存在json欄位的content中，我們採用簡單的正則表達式將他匹配出來。細節如下圖展示

在這裡插入圖片描述

編寫代碼吧，下麵的代碼註釋請仔細閱讀，中間有一個小BUG，需要手動把pic3修改為pic2這個地方目前原因不明確，可能是我本地網路的原因，還有請在項目根目錄先創建一個imgs的文件夾，用來存儲圖片

    def download_img(self,data):
        ## 下載圖片
        for item in data["data"]:
            content = item["content"]
            pattern = re.compile('<noscript>(.*?)</noscript>')
            imgs = pattern.findall(content)
            if len(imgs) > 0:
                for img in imgs:
                    match = re.search('<img src="(.*?)"', img)
                    download = match.groups()[0]
                    download = download.replace("pic3", "pic2")  # 小BUG,pic3的下載不到

                    print("正在下載{}".format(download), end="")
                    try:
                        with requests.Session() as s:
                            with s.get(download) as img_down:
                                # 獲取文件名稱
                                file = download[download.rindex("/") + 1:]

                                content = img_down.content
                                with open("imgs/{}".format(file), "wb+") as f:  # 這個地方進行了硬編碼
                                    f.write(content)

                                print("圖片下載完成", end="\n")

                    except Exception as e:
                        print(e.args)



            else:
                pass

運行結果為

在這裡插入圖片描述

然後在玩知乎的過程中，發現了好多好問題
在這裡插入圖片描述

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

大事記 - 安卓微信瀏覽器 video 標簽層級過高

// 為什麼叫《大事記》？ // 以前總有面試官問這樣一個問題：“你在項目中遇到過最頭疼的問題是什麼，是怎麼解決的？” // 當時總覺得，已解決的問題都算不上頭疼，所以回答總是不盡人意。 // 最近遇到微信端的這個問題，非常讓人頭疼，正好有小伙伴和我聊到面試經驗，靈機一動，《大事記》由此而生問題描 ...
#WEB安全基礎：HTML/CSS | 0x0 我的第一個網頁

#WEB安全基礎：HTML/CSS系列，本系列採用第二人稱以免你不知道我在對著你說話，以朋友的視角和你交流 HTML的中文名叫做超文本標記語言，CSS叫做層疊樣式表用HTML設計你的第一個網頁，你需要做的是用你的眼睛看，用你的手敲。以下就是代碼，我已經幫你設計好了我寫了註釋有助於你理解。以下 ...
Ajax提交用FormData()上傳文件

1.form聲明如下 2.ajax設置如下 var formData = new FormData(document.getElementById("form")); $.ajax({ url:document.form.action, type:"POST", data:formData, pro ...
原生js 對象深拷貝

經常需要copy一個對象，又怕拷貝有問題，那下麵這段就很方便啦，不用擔心copy只是一個引用了。 / @ values 需要copy的變數 / function deepClone(values) { var copy; if(values == null || typeof values != " ...
jQuery----淘寶商品展示（類似與tab切換）

實現效果如圖：功能需求： ①滑鼠進入商品名稱，商品名稱變色，同時對應的物品展示圖片顯示對應的物品，滑鼠移出時候，商品名稱恢複原來的顏色實現分析： 1.HTML+CSS頁面結構如下：頁面結構設計中，需要註意的知識點： ①商品li設置邊框時候，只設置下邊框 ②三個列表之間的分割線，使用id為cen ...
狀態模式.

一、概念狀態模式：允許對象在內部狀態改變時改變它的行為，對象看起來好像修改了它的類。這個模式將狀態封裝成為獨立的類，並將動作委托到代表當前狀態的對象，我們知道行為會隨著內部狀態而改變。一個對象“看起來好像修改了它的類”是什麼意思呢？從客戶的視角來看：如果說你使用的對象能夠完全改變它的行為，那麼你 ...
老王說架構

分散式架構設計：1、橫向分層，將系統在橫向維度上切分成幾個部分，每個部分負責一部分相對比較單一的職責，例如：MVC經典模式。2、縱向分割，將系統功能模塊歸類切分成幾個部分，包裝成高內聚低耦合的模塊單元，不同功能模塊直接通過遠程調用協助工作。3、緩存技術，將是改善系統性能的第一手段，從上到下依次：瀏覽 ...
MyEclipse不自動編譯問題

沒圖，別找了。。。我在MyEclipse上從SVN中導項目，導下的項目跑不起來，發現tomcat的classes中是空文件夾。以下是在網上找的其他方法： 1.確保：Project->build automatically 已經被選上。(預設選上) 2.project->clean項目，一般會重新 ...