Scrapy爬取博客園精華區內容

来源:https://www.cnblogs.com/dblsha/archive/2018/11/30/10046683.html
-Advertisement-
Play Games

程式爬取目標 獲取博客園精華區文章的 標題、標題鏈接、作者、作者博客主頁鏈接、摘要、發佈時間、評論數、閱讀數和推薦數, 並存儲到 MongoDB 中。 程式環境 已安裝scrapy 已安裝MongoDB 創建工程 在命令提示符中執行上述命令後,會建立一個名為 的文件夾。 創建爬蟲文件 執行上述命令後 ...


程式爬取目標

獲取博客園精華區文章的標題、標題鏈接、作者、作者博客主頁鏈接、摘要、發佈時間、評論數、閱讀數和推薦數,並存儲到MongoDB中。

程式環境

  • 已安裝scrapy
  • 已安裝MongoDB

創建工程

scrapy startproject cnblogs

在命令提示符中執行上述命令後,會建立一個名為cnblogs的文件夾。

創建爬蟲文件

cd cnblogs
scrapy genspider cn cnblogs.com

執行上述命令後,會在cnblogs\spiders\下新建一個名為cn.py的爬蟲文件,cnblogs.com允許爬取的功能變數名稱

編寫items.py文件

定義需要爬取的內容。

import scrapy

class CnblogsItem(scrapy.Item):
    # define the fields for your item here like:
    post_author = scrapy.Field()    #發佈作者
    author_link = scrapy.Field()    #作者博客主頁鏈接
    post_date = scrapy.Field()      #發佈時間
    digg_num = scrapy.Field()       #推薦數
    title = scrapy.Field()          #標題
    title_link = scrapy.Field()     #標題鏈接
    item_summary = scrapy.Field()   #摘要
    comment_num = scrapy.Field()    #評論數
    view_num = scrapy.Field()       #閱讀數

編寫爬蟲文件cn.py

import scrapy
from cnblogs.items import CnblogsItem

class CnSpider(scrapy.Spider):
    name = 'cn'
    allowed_domains = ['cnblogs.com']
    start_urls = ['https://www.cnblogs.com/pick/']

    def parse(self, response):
        div_list = response.xpath("//div[@id='post_list']/div")
        for div in div_list:
            item = CnblogsItem()
            item["post_author"] = div.xpath(".//div[@class='post_item_foot']/a/text()").extract_first()
            item["author_link"] = div.xpath(".//div[@class='post_item_foot']/a/@href").extract_first()
            item["post_date"] = div.xpath(".//div[@class='post_item_foot']/text()").extract()
            item["comment_num"] = div.xpath(".//span[@class='article_comment']/a/text()").extract_first()
            item["view_num"] = div.xpath(".//span[@class='article_view']/a/text()").extract_first()
            item["title"] = div.xpath(".//h3/a/text()").extract_first()
            item["title_link"] = div.xpath(".//h3/a/@href").extract_first()
            item["item_summary"] = div.xpath(".//p[@class='post_item_summary']/text()").extract()
            item["digg_num"] = div.xpath(".//span[@class='diggnum']/text()").extract_first()
            yield item

        next_url = response.xpath(".//a[text()='Next >']/@href").extract_first()
        if next_url is not None:
            next_url = "https://www.cnblogs.com" + next_url
            yield scrapy.Request(
                next_url,
                callback=self.parse
            )

編寫pipelines.py文件

對抓取到的數據進行簡單處理,去除無效的字元串,並保存到MongoDB中。

from pymongo import MongoClient
import re

client = MongoClient()
collection = client["test"]["cnblogs"]

class CnblogsPipeline(object):
    def process_item(self, item, spider):
        item["post_date"] = self.process_string_list(item["post_date"])
        item["comment_num"] = self.process_string(item["comment_num"])
        item["item_summary"] = self.process_string_list(item["item_summary"])
        print(item)
        collection.insert(dict(item))
        return item

    def process_string(self,content_string):
        if content_string is not None:
            content_string = re.sub(" |\s","",content_string)
        return content_string

    def process_string_list(self,string_list):
        if string_list is not None:
            string_list = [re.sub(" |\s","",i) for i in string_list]
            string_list = [i for i in string_list if len(i) > 0][0]
        return string_list

修改settings.py文件

添加USER_AGENT

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36'

啟用pipelines

ITEM_PIPELINES = {
   'cnblogs.pipelines.CnblogsPipeline': 300,
}

運行程式

執行下麵的命令,開始運行程式。

scrapy crawl cn

程式運行結果

程式運行結束後,MongoDB中的數據如下圖所示,採用的可視化工具是Robo 3T


感謝大家的閱讀,如果文中有不正確的地方,希望大家指出,我會積極地學習、改正。
再次感謝您耐心的讀完本篇文章。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 【解題報告】洛谷 P2571 [SCOI2010]傳送帶今天無聊,很久沒有做過題目了,但是又不想做什麼太難的題目,所以就用洛谷隨機跳題,跳到了一道題目,感覺好像不是太難。 [CSDN鏈接](https://blog.csdn.net/Liang_Si_FFF/article/details/8457 ...
  • 準備: (1)Kali Linux系統(此實驗為VMware環境) (2)Go語言安裝包 具體過程: (1)到官網下載Go語言安裝包,如圖示操作(官網可能需要梯子,沒有的可以從國內相關網站下載) (2)下載好安裝包後,進行解壓操作,如圖所示 命令:tar zxvf gol.11.2.linux-am ...
  • 工具有: 樹莓派zero v1.3 CH340 USB轉串口工具 電腦端的串口調試助手 硬體接線如圖: 配置: 樹莓派的串口預設為串口終端調試使用,如要正常使用串口則需要修改樹莓派設置。關閉串口終端調試功能後則不能再通過串口登陸訪問樹莓派,需從新開啟後才能通過串口控制樹莓派。首先釋放串口,執行如下命 ...
  • 註意:以下代碼均針對python3.x ,python2.x 需要把括弧去掉 ,如:print ''This is the python 2. x format '' 1.print([object, ..., ]*, sep=' ', end='\n', file=sys.stdout,flush ...
  • 1.生鮮電商平臺的價值與定位。 生鮮電商平臺是一家致力於打造全國餐飲行業智能化、便利化、平臺化與透明化服務的創新型移動互聯網平臺,連接買家與賣家之間的一個平臺 看以下的圖標:(商業模式) 名稱解釋: 買家:所有的大中小型餐館,酒店等餐飲行業都屬於我們常說的買家。 生鮮電商APP: 買家通過在APP上 ...
  • APDL代碼實現link180單元的使用 由於不知道怎樣使用LINK180單元,故按照相關的教程和理解,整理了一下比較完整的APDL的代碼。其中包含的圖片的保存和背景顏色的改變。 標簽:'LINK180' ' APDL' [toc] APDL代碼 FINISH /CLEAR /PREP7 ET,1, ...
  • 目的:實現壓縮包的自動解壓及刪除。 思路:獲取壓縮包 > 解壓 > 刪除壓縮包 代碼實現:此處代碼實現前提為.py文件和壓縮包在同一文件夾 結果:.zip文件一旦出現,則立刻被解壓並刪除 ...
  • 1.什麼是字典 字典是以key:value的形式來保存數據,用{}表示. 存儲的是key:value 坑: 字典存儲數據的時候是用的hash值來存儲. 演算法不能變(python的) # 數據必須是不可變的(可哈希). 字典的key必須是可哈希的(不可變). dic = {"jay":"周傑倫", " ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...