爬取詩詞網站中的文章_ZenDei技術網路在線

爬取詩詞網站中的文章

-Advertisement-

實戰準備：要爬取的url：https://www.shicimingju.com/book/sanguoyanyi.html 實戰要求：爬取詩詞名句網站中的三國演義文章，將每章的標題和內容寫入自己的項目文件（sanguo.txt）（本次爬取使用bs4） 1 import requests 2 # ...

實戰準備：要爬取的url：https://www.shicimingju.com/book/sanguoyanyi.html

實戰要求：爬取詩詞名句網站中的三國演義文章，將每章的標題和內容寫入自己的項目文件（sanguo.txt）

（本次爬取使用bs4）

 1 import requests
 2 # 實例化BeautifulSoup對象
 3 from bs4 import BeautifulSoup
 4 if __name__ == "__main__":
 5     #設置User-Agent將爬蟲偽裝成用戶通過瀏覽器訪問
 6     header = {
 7         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.67 Safari/537.36 Edg/87.0.664.55'
 8     }
 9     #要訪問的網頁url地址
10     url = 'https://www.shicimingju.com/book/sanguoyanyi.html'
11     #發起請求
12     respond = requests.get(url=url,headers=header)
13     #通過實例化獲取網頁源碼
14     soup1 = BeautifulSoup(respond.content,'lxml')
15     #select返回列表，找到連接標簽
16     title = soup1.select('.book-mulu a')
17     #打開sanguo.txt文件，設置位元組碼格式避免亂碼
18     fp = open('./sanguo.txt','w',encoding='utf-8')
19     #迴圈title列表裡的鏈接
20     for i in title:
21         #通過.string獲取a鏈接下的直系文本作為標題
22         title = i.string
23         #補全a連接，獲取特定的href屬性
24         data_url = "https://www.shicimingju.com"+i['href']
25         #對a連接的url進行請求，進一步獲取鏈接里的文章
26         soup2 = BeautifulSoup(requests.get(url=data_url,headers=header).content,'lxml')
27         #找到文章所在的標簽
28         content = soup2.find('div',class_='chapter_content')
29         #將文章標題及其文章的內容獲取到寫入剛剛打開的文件
30         fp.write(title+":"+content.text+"\n")
31         print(title+"爬取成功")
32     print("Over")

*bas4知識梳理在博客中Python知識梳理中

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

如何寫正則表達式

正則表達式是一種用來匹配字元串的規則。每個字元在正則表達式中都有其特定的含義，下麵是一些常見的字元及其含義： 1. ^：匹配字元串的開頭位置。 2. $：匹配字元串的結尾位置。 3. .：匹配任意單個字元。 4. *：匹配0個或多個前面的字元。 5. +：匹配1個或多個前面的字元。 6. ?：匹配0 ...
循序漸進介紹基於CommunityToolkit.Mvvm 和HandyControl的WPF應用端開發(11) -- 下拉列表的數據綁定以及自定義系統字典列表控制項

在我們開發的前端項目中，往往為了方便，都需對一些控制項進行自定義的處理，以便實現快速的數據綁定以及便捷的使用，本篇隨筆介紹通過抽取常見字典列表，實現通用的字典類型綁定；以及通過自定義控制項的屬性處理，實現系統字典內容的快捷綁定的操作。 ...
兩台實體機器4個虛擬機節點的Hadoop集群搭建（Ubuntu版）

安裝Ubuntu Linux元信息兩台機器，每台機器兩台Ubuntu Ubuntu版本：ubuntu-22.04.3-desktop-amd64.iso 處理器數量2，每個處理器的核心數量2，總處理器核心數量4 單個虛擬機記憶體8192MB（8G），最大磁碟大小30G 參考鏈接清華大學開源軟體鏡像 ...
使用 Ant Design Vue 你可能會遇到的14個問題

公司有一個新需求，在原來項目基礎上開發，項目中使用 Ant Design Vue，版本是 1.X ,在此記錄下遇到的問題；對於沒有使用過或者使用程度不深的同學來說，希望可以幫助你在開發中遇到問題時有個參考。對於已經熟練使用的同學，可能這些問題都遇到過，歡迎大家在評論區補充。 1、實現對下拉框顯示的所 ...
JavaScript複習——01

這是我用於複習我一年前學習的JavaScript的筆記，由於一年過去了，我大概已經4~5個月沒有寫過什麼代碼，所以需要整理自己的知識體系，如果文章出錯，也希望大家評論給我改錯 JavaScript的類型 JS中的類型有以下幾種： Number（數字類型） BigInt （大數類型） String（字 ...
從零用VitePress搭建博客教程(5) - 如何自定義頁面模板、給頁面添加獨有的className和使頁面標題變成側邊目錄？

接上一節：從零用VitePress搭建博客教程(4) – 如何自定義首頁佈局和主題樣式修改？上一節其實我們也簡單說了自定義頁面模板，這一節更加詳細一點說明，開始之前我們要知道在vitePress中，.md的文件是可以直接編寫vue的代碼的。比如我們現在來自定義一個前端網址導航頁面八、自定義一些 ...
Rustlings通關記錄與題解

2023年6月19日決定對rust做一個重新的梳理，整理今年4月份做完的rustlings，根據自己的理解來寫一份題解，記錄在此。周折很久，因為中途經歷了推免的各種麻煩事，以及選擇資料庫作為未來研究方向後的一段適應過程，耽擱了很久。 2023年10月份秋冬季的開源操作系統訓練營又開始了，所以我回來 ...
教你面試就看出公司是否靠譜！

在⾯試過程中，應聘者可能想要從對公司環境的觀察以及對⾯試官的提問當中獲取公司相關的信息，以此來判斷這家公司靠不靠譜，⾃⼰值不值得去。但這種信息可能會帶有⼀定的⽚⾯性，畢竟應聘者沒有在公司實際體驗過⼯作的內容，很難通過⼀兩次⾯試就能看出公司的實際情況。這些細節⼀般只能給予應聘者⼀點有效信息，雖然並不 ...