爬取詩詞網站中的文章

来源:https://www.cnblogs.com/PinkPig-Sunflow/archive/2023/10/22/17778532.html
-Advertisement-
Play Games

實戰準備:要爬取的url:https://www.shicimingju.com/book/sanguoyanyi.html 實戰要求:爬取詩詞名句網站中的三國演義文章,將每章的標題和內容寫入自己的項目文件(sanguo.txt) (本次爬取使用bs4) 1 import requests 2 # ...


實戰準備:要爬取的url:https://www.shicimingju.com/book/sanguoyanyi.html

實戰要求:爬取詩詞名句網站中的三國演義文章,將每章的標題和內容寫入自己的項目文件(sanguo.txt)

(本次爬取使用bs4)

 1 import requests
 2 # 實例化BeautifulSoup對象
 3 from bs4 import BeautifulSoup
 4 if __name__ == "__main__":
 5     #設置User-Agent將爬蟲偽裝成用戶通過瀏覽器訪問
 6     header = {
 7         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.67 Safari/537.36 Edg/87.0.664.55'
 8     }
 9     #要訪問的網頁url地址
10     url = 'https://www.shicimingju.com/book/sanguoyanyi.html'
11     #發起請求
12     respond = requests.get(url=url,headers=header)
13     #通過實例化獲取網頁源碼
14     soup1 = BeautifulSoup(respond.content,'lxml')
15     #select返回列表,找到連接標簽
16     title = soup1.select('.book-mulu a')
17     #打開sanguo.txt文件,設置位元組碼格式避免亂碼
18     fp = open('./sanguo.txt','w',encoding='utf-8')
19     #迴圈title列表裡的鏈接
20     for i in title:
21         #通過.string獲取a鏈接下的直系文本作為標題
22         title = i.string
23         #補全a連接,獲取特定的href屬性
24         data_url = "https://www.shicimingju.com"+i['href']
25         #對a連接的url進行請求,進一步獲取鏈接里的文章
26         soup2 = BeautifulSoup(requests.get(url=data_url,headers=header).content,'lxml')
27         #找到文章所在的標簽
28         content = soup2.find('div',class_='chapter_content')
29         #將文章標題及其文章的內容獲取到寫入剛剛打開的文件
30         fp.write(title+":"+content.text+"\n")
31         print(title+"爬取成功")
32     print("Over")

*bas4知識梳理在博客中Python知識梳理中


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 正則表達式是一種用來匹配字元串的規則。每個字元在正則表達式中都有其特定的含義,下麵是一些常見的字元及其含義: 1. ^:匹配字元串的開頭位置。 2. $:匹配字元串的結尾位置。 3. .:匹配任意單個字元。 4. *:匹配0個或多個前面的字元。 5. +:匹配1個或多個前面的字元。 6. ?:匹配0 ...
  • 在我們開發的前端項目中,往往為了方便,都需對一些控制項進行自定義的處理,以便實現快速的數據綁定以及便捷的使用,本篇隨筆介紹通過抽取常見字典列表,實現通用的字典類型綁定;以及通過自定義控制項的屬性處理,實現系統字典內容的快捷綁定的操作。 ...
  • 安裝Ubuntu Linux元信息 兩台機器,每台機器兩台Ubuntu Ubuntu版本:ubuntu-22.04.3-desktop-amd64.iso 處理器數量2,每個處理器的核心數量2,總處理器核心數量4 單個虛擬機記憶體8192MB(8G),最大磁碟大小30G 參考鏈接 清華大學開源軟體鏡像 ...
  • 公司有一個新需求,在原來項目基礎上開發,項目中使用 Ant Design Vue,版本是 1.X ,在此記錄下遇到的問題;對於沒有使用過或者使用程度不深的同學來說,希望可以幫助你在開發中遇到問題時有個參考。對於已經熟練使用的同學,可能這些問題都遇到過,歡迎大家在評論區補充。 1、實現對下拉框顯示的所 ...
  • 這是我用於複習我一年前學習的JavaScript的筆記,由於一年過去了,我大概已經4~5個月沒有寫過什麼代碼,所以需要整理自己的知識體系,如果文章出錯,也希望大家評論給我改錯 JavaScript的類型 JS中的類型有以下幾種: Number(數字類型) BigInt (大數類型) String(字 ...
  • 接上一節:從零用VitePress搭建博客教程(4) – 如何自定義首頁佈局和主題樣式修改? 上一節其實我們也簡單說了自定義頁面模板,這一節更加詳細一點說明,開始之前我們要知道在vitePress中,.md的文件是可以直接編寫vue的代碼的。 比如我們現在來自定義一個前端網址導航頁面 八、自定義一些 ...
  • 2023年6月19日決定對rust做一個重新的梳理,整理今年4月份做完的rustlings,根據自己的理解來寫一份題解,記錄在此。 周折很久,因為中途經歷了推免的各種麻煩事,以及選擇資料庫作為未來研究方向後的一段適應過程,耽擱了很久。 2023年10月份秋冬季的開源操作系統訓練營又開始了,所以我回來 ...
  • 在⾯試過程中,應聘者可能想要從對公司環境的觀察以及對⾯試官的提問當中獲取公司相關的信息,以此來判斷這家公司靠不靠譜,⾃⼰值不值得去。但這種信息可能會帶有⼀定的⽚⾯性,畢竟 應聘者沒有在公司實際體驗過⼯作的內容,很難通過⼀兩次⾯試就能看出公司的實際情況。這些細節⼀般只能給予應聘者⼀點有效信息,雖然並不 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...