爬蟲小試牛刀(爬取學校通知公告)

来源:https://www.cnblogs.com/hellciw/archive/2023/06/20/17492550.html
-Advertisement-
Play Games

初識Java 1.Java背景知識 java是美國sun公司(Stanford University Network)在1995年推出的一門電腦高級編程語言。 Java早期稱為Oak(橡樹),後期改名為Java。 Java之父:詹姆斯·高斯林(James Gosling)。 2009年sun公司被 ...


    • 完成抓取並解析DGUT通知公告12頁數據,並提交excel文件格式數據,數據需要包含日期標題,若能夠實現將詳情頁主體內容與發佈人信息數據也一併抓取更佳
    • 提交內容:Excel數據文件

爬蟲開始

首先看到頁面呈現規則的各個方框,這意味著它們之間的一定是一樣的

此處該有圖

pC32YiF.png

我們點開後臺可以看見屬於通知活動的代碼中很多這類

  • 標簽

    <li>
       <a href="../info/1042/48792.htm" target="_blank" title="關於開展2018屆畢業生中期發展評價的通知">
            <div class="box">
                <div class="time">
                <div class="ll">
                    <img src="../images/list_box_07_ico.png" alt="">2023.06.09
                </div>
                <div class="rr">
                    <img src="../images/list_box_24_ico.png" alt="">
                </div>
                </div>
                
                <h5 class="overfloat-dot-2">關於開展2018屆畢業生中期發展評價的通知</h5>
            </div>
            </
    

    那麼我們可以分別截取一下幾個標簽,分別是

    時間標簽:<div class="ll">
    標題標簽:<h5 class="overfloat-dot-2">
    

    前期工作准備結束了,讓我們打開pycharm,引入本次的包

    import requests #經典請求包
    from bs4 import BeautifulSoup
    import pandas as pd #生成xlsx文檔包
    

    為了我們的頁面的中文正常輸出,我們必須對獲取的內容進行一個轉碼

     url = 'example.com' + str(page) + '.htm'
        r = requests.get(url)
        r.encoding = 'utf-8'
    

    我觀察到頁面的順序並不是從1往後的,而是從第12頁為1.html,第11頁為2.html,以此類推,而第一頁則是index/tzgg.htm。

    所以我的迴圈體設置迴圈12次,最後一次如果返回的是404的話,則訪問的上面的網頁

        if r.status_code == 404:
            url = 'example.com/index/tzgg.htm'
            r = requests.get(url)
            r.encoding = 'utf-8'
    

    根據開頭的標簽,接下來就可以直接獲取該標簽上面的內容

    title = article.find('h5', {'class': 'overfloat-dot-2'}).text.strip()
    date = article.find('div', {'class': 'll'}).text.strip()
    

    此時你會發現我沒有解釋這個article怎麼來的,是因為我發現如果只是按照上面的方法直接獲取

  • 標簽的話,頁面中其他的該標簽也會算進來,到時候就分不開產生bug。

    所以為了區別開其他的同種標簽,頁面範圍內比

  • 大的標簽,可以排除掉其他同類型標簽的影響

    articles = soup.find('section', {'class': 'n_container'})
    articles = articles.find_all('li')
    

    到這裡,時間和標題我們就得到了。接下來我們需要到詳情頁去獲取發佈者名字

    同樣,詳情頁的url也在

  • 標簽中

    href = article.find('a', href=True)
    href = href['href']
    article_detail_url = 'example.com' + href
    

    然後通過再訪問這個鏈接進去以同樣的方式獲取發佈者名字,還得和上文一樣,分開是不是第一頁的子鏈接,如果是則需要更換第一頁的url才能防止返回404狀態。

    article_detail_url = 'example.com/index/tzgg/' + href
    
    # 獲取詳情頁信息
    detail_r = requests.get(article_detail_url)
    if detail_r.status_code == 404:
        url = 'example.com'+href
        detail_r=requests.get(url)
        detail_r.encoding = 'utf-8'
        detail_soup = BeautifulSoup(detail_r.text, 'html.parser')
        author = detail_soup.find('h6').find_all('span')[2].text
    

    我們需要的信息就完全抓取下來了。本次任務就結束了,接下來的導出excel文件

    # 將數據存儲成DataFrame,並導出為Excel文件
    df = pd.DataFrame(data_list, columns=['日期', '標題', '發佈者'])
    df.to_excel('通知公告.xlsx', index=False)
    

    總結

    這次做完通知公告爬蟲,感覺不是很難,因為網站沒有對請求頭進行限制,所以讓我直接request就行了。

    不過這次讓我對python在爬蟲之類的作用更加感興趣,希望下次能瞭解更多的這類知識,以後也能學會如何防爬蟲的知識。

  • 本文來自博客園,作者:hellciw,轉載請註明原文鏈接:https://www.cnblogs.com/hellciw/p/17492550.html


    您的分享是我們最大的動力!

    -Advertisement-
    Play Games
    更多相關文章
    • 問題: setRules時,uview提示:設置rules,model必須設置 原因: <u-form ref="form1" v-model="model1">眼瞎把v-model當成:model,可能全網只有我遇到。 解決: <u-form ref="form1" :model="model1" ...
    • stenciljs 可以方便的構建互動式組件 支持以下裝飾器 - component - state - prop - watch - method - element - event - listen ## Component 裝飾器 `@Component` 是一個裝飾器,它將 TypeScri ...
    • An arbitrary-precision Decimal type for JavaScript. ## 功能 - 整數和浮點數 - 簡單但功能齊全的 API - 複製 JavaScript 和對象的許多方法`Number.prototype` `Math` - 還處理十六進位、二進位和八進位值 ...
    • ## JavaScript 顯示數據 JavaScript 可以通過不同的方式來輸出數據: - 使用 **window.alert()** 彈出警告框。 - 使用 **document.write()** 方法將內容寫到 HTML 文檔中。 - 使用 **innerHTML** 寫入到 HTML 元 ...
    • ### 1、Tab組件 ![](https://img2023.cnblogs.com/blog/1103967/202306/1103967-20230608203245862-2093631029.gif) **功能** - 支持預設選中tab - 子元素可以是文本或者圖片 - 自定義tab的數 ...
    • Vue 的雙向數據綁定實現原理是什麼樣的,如果讓我們自己去實現一個這樣的雙向數據綁定要怎麼做呢,本文就與大家分享一下 Vue 的綁定原理及其簡單實現 ...
    • ## 1 安裝環境 ### Node.js js的運行環境,相當於 java 的 jvm 官網:https://nodejs.org/en,下載最新穩定版 `18.16.0 LTS`,雙擊安裝即可 自動安裝了npm,終端驗證: ```bash C:\Users\Administrator>node ...
    • 在微服務工程的技術選型中,會涉及到很多組件的集成,最常用包括:緩存、消息隊列、搜索、定時任務、存儲等幾個方面;隨著系統的服務數量上升,統一管理各種組件的複雜度也會提高; ...
    一周排行
      -Advertisement-
      Play Games
    • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
    • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
    • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
    • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
    • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
    • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
    • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
    • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
    • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
    • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...