前言 今天給大家介紹的是Python爬取小說數據並保存txt文檔,在這裡給需要的小伙伴們代碼,並且給出一點小心得。 首先是爬取之前應該儘可能偽裝成瀏覽器而不被識別出來是爬蟲,基本的是加請求頭,但是這樣的純文本數據爬取的人會很多,所以我們需要考慮更換代理IP和隨機更換請求頭的方式來對小說數據進行爬取。 ...
前言
今天給大家介紹的是Python爬取小說數據並保存txt文檔,在這裡給需要的小伙伴們代碼,並且給出一點小心得。
首先是爬取之前應該儘可能偽裝成瀏覽器而不被識別出來是爬蟲,基本的是加請求頭,但是這樣的純文本數據爬取的人會很多,所以我們需要考慮更換代理IP和隨機更換請求頭的方式來對小說數據進行爬取。
在每次進行爬蟲代碼的編寫之前,我們的第一步也是最重要的一步就是分析我們的網頁。
通過分析我們發現在爬取過程中速度比較慢,所以我們還可以通過禁用谷歌瀏覽器圖片、JavaScript等方式提升爬蟲爬取速度。
開發工具
Python版本: 3.6
相關模塊:
requests模塊
parsel模塊
tqdm模塊
pandas模塊
環境搭建
安裝Python並添加到環境變數,pip安裝需要的相關模塊即可。
文中完整代碼及小說,評論留言獲取
思路分析
瀏覽器中打開我們要爬取的頁面
按F12進入開發者工具,查看我們想要的小說數據在哪裡
這裡我們需要頁面數據就可以了
Cookie獲取
代碼實現
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36',
#'Cookie': '你的Cookie'
}
def get_response(html_url):
"""發送請求"""
# headers 字典類型 鍵值對 :隔開
# headers 請求頭的作用: 把python代碼偽裝成瀏覽器對伺服器發送請求
response = requests.get(url=html_url, headers=headers)
time.sleep(6)
return response
def save(name, title, content):
with open(name + '.txt', mode='a', encoding='utf-8') as f:
f.write(title)
f.write('\n')
f.write(content)
f.write('\n')
def get_novel_content(html_url):
response = get_response(html_url)
# parsel 解析數據 是需要把獲取到的html字元串數據 轉換成 selector 對象
# selector 對象 調用封裝好的 css選擇器 xpath
# 解析數據 提取小說url章節地址 小說名字
selector = parsel.Selector(response.text)
# css選擇器 通過標簽屬性 提起數據
name = selector.css('#info h1::text').get()
href = selector.css('#list dd a::attr(href)').getall()
# get 獲取一個標簽內容[字元串] getall 是獲取所有標簽屬性內容[列表]
# 想要把列表裡面每一個元素都提取出來的話, 是需要通過遍歷
for index in href:
# https://www.biquges.com/10_10770/6896120.html
index_url = 'https://www.biquges.com' + index
response_1 = get_response(index_url)
selector_1 = parsel.Selector(response_1.text)
title = selector_1.css('.bookname h1::text').get()
print(title)
content_list = selector_1.css('#content::text').getall()
# 保存文本數據 是字元串的形式
# 把列表轉換成字元串 str() 強制轉換數據類型
content = ''.join(content_list)
save(name, title, content)
結果展示
最後
今天的分享到這裡就結束了 ,感興趣的朋友也可以去試試哈
對文章有問題的,或者有其他關於python的問題,可以在評論區留言或者私信我哦
覺得我分享的文章不錯的話,可以關註一下我,或者給文章點贊(/≧▽≦)/