20行Python代碼實現爬取起點小說

来源:https://www.cnblogs.com/hahaa/archive/2022/04/12/16136639.html
-Advertisement-
Play Games

相信在座各位應該沒有幾個不看小說的吧,嘿嘿~ 一般來說咱們書荒的時候怎麼辦?自然是去起某點排行榜先找到小說名字,然後再找度娘一搜,哎 ,筆趣閣就出來答案了,美滋滋~ 但是那多麻煩,咱們直接用python,直接全部下載下來慢慢看不就好了~ 小孩子才做選擇,成年人選擇都要… 好了,不啰嗦了,等下大家要罵 ...


相信在座各位應該沒有幾個不看小說的吧,嘿嘿~
在這裡插入圖片描述
一般來說咱們書荒的時候怎麼辦?自然是去起某點排行榜先找到小說名字,然後再找度娘一搜,哎 ,筆趣閣就出來答案了,美滋滋~

在這裡插入圖片描述
但是那多麻煩,咱們直接用python,直接全部下載下來慢慢看不就好了~
小孩子才做選擇,成年人選擇都要…


好了,不啰嗦了,等下大家要罵我了~

準備工作

環境模塊

咱們沒裝軟體的裝一下軟體,沒裝模塊的裝一下模塊,軟體我就不講了。

模塊咱們用到的是這兩個模塊,需要安裝一下。

requests   # 發送請求
re     # 正則表達式模塊

 # Python學習交流群  815624229

#  軟體和安裝教程等等各種資料都在這裡了

 

pip install 模塊名 安裝即可

目標地址

https://read.qidian.com/chapter/3i-t4PVRihdwe0zGvdPFgA2/djLVNZuVg7eaGfXRMrUjdw2/


大家可以自己換,我這裡以它為例。

爬蟲流程

爬蟲的流程基本都是這幾步,我這裡不詳細講解了,以前的文章有些講過。

1. 發送請求
2. 獲取數據
3. 解析數據
4. 保存數據

完整代碼

import requests     # 發送請求
import re

# 偽裝
headers = {
    'cookie': '_yep_uuid=b1421b7f-11da-b15f-a3ad-95316478f93c; e1=%7B%22pid%22%3A%22qd_P_read%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A3%7D; e2=%7B%22pid%22%3A%22qd_P_read%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A3%7D; newstatisticUUID=1648708045_1995757040; _csrfToken=mAWbsvESMNwir4NfKBy5fy8RedwvNBabTq3PLx6r; fu=721555856; _gid=GA1.2.1193345906.1648708045; e1=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A18%22%2C%22l1%22%3A3%7D; e2=; qdrs=0%7C3%7C0%7C0%7C1; showSectionCommentGuide=1; qdgd=1; rcr=1031788647%2C1031920667; bc=1031920667%2C1031788647; pageOps=1; lrbc=1031788647%7C686160165%7C0%2C1031920667%7C695153167%7C1; _ga_FZMMH98S83=GS1.1.1648708044.1.1.1648708759.0; _ga_PFYW0QLV3P=GS1.1.1648708044.1.1.1648708759.0; _ga=GA1.2.777546916.1648708045',
    'referer': 'https://book.qidian.com/',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.84 Safari/537.36',
}
url = 'https://book.大家自己改一下,看了準備工作就知道了.com/info/1031920667/#Catalog'
html_data = requests.get(url=url, headers=headers).text
info_list = re.findall('<h2 class="book_name"><a href="(.*?)" target="_blank" data-eid=".*?" data-cid=".*?" alt=".*?" title=".*?">(.*?)</a></h2>', html_data)
for link, title in info_list:
    link = 'https:' + link
    # print(link, title)
    # 1. 發送請求
    response = requests.get(url=link, headers=headers)
    # 2. 獲取數據
    link_data = response.text
    # print(html_data)
    # 3. 解析數據
    # 網頁標簽 <p></p> <a></a> <div></div> <img />
    # <div class="read-content j_readContent" id=".*?">(.*?)</div>
    text = re.findall('<div class="read-content j_readContent" id=".*?">(.*?)</div>', link_data, re.S)[0]
    text = text.replace('<p>', '\n')
    text = title + '\n\n' + text
    print(text)
    # 4. 保存數據
    with open('網戀女友竟是九天神凰.txt', mode='a', encoding='utf-8') as f:
        f.write(text)

 

兄弟們快去試試吧


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 模板方法模式是什麼 模版方法模式是設計模式中的行為型的一種模式,它在基類中定義了一個演算法的框架,允許子類在不修改結構的情況下重寫演算法的特定步驟。 為什麼要用模板方法模式 模板方法將整個演算法轉換為一系列獨立的步驟,以便子類能對其進行擴展,同時還可讓超類中所定義的結構保持完整。或者當多個類的演算法步驟一致 ...
  • 一、約定編程 Spring AOP是一種約定流程的編程,咱們可以先通過動態代理模式的實現來理解Spring AOP的概念。 代理的邏輯很簡單,例如,當你需要採訪一名兒童時,首先需要經過他父母的同意,在一些問題上父母也許會替他回答,而對於另一些問題,也許父母覺得不太適合這個小孩會拒絕掉,顯然這時父母就 ...
  • 解釋器模式(Interpreter Design Pattern)指給定一個“語言”,定義它的文法的一種表示,並定義一個解釋器,這個解釋器使用該表示來解釋語言中的句子。這裡所指的“語言”是指使用規定格式和語法的代碼。 比如說在計算器中,我們輸入一個加法/減法表達式(中綴表達式)“1+6-5”字元串, ...
  • 《零基礎學Java》 線程的同步 在單線程程式中,每次只能做一件事情,後面的事情需要等待第一件事情完成後才可以進行。為此,Java提供了線程同步機制來防止多線程編程中搶占資源的問題。 線程安全 在編寫多線程程式時,應該考慮到線程安全問題。 模擬未考慮到線程安全問題的售票系統: public clas ...
  • 一、什麼是字典 字典是Python中最強大的數據類型之一,也是Python語言中唯一的映射類型。映射類型對象里哈希值(鍵,key)和指向的對象(值,value)是一對多的的關係,通常被認為是可變的哈希表,字典對象是可變的,它是一個容器類型,能存儲任意個數的Python對象,其中也可包括其他容器類型。 ...
  • package scanner;import java.util.Scanner;public class Demo4 { public static void main(String[] args){ Scanner s4=new Scanner(System.in); //從鍵盤接收數據 int ...
  • 今天是充實的一天 晨讀 你敢相信從早上6點40就起床了,跑去晨讀賺了0.1學分。 一早上的軟體測試 早八的正確打開方式就是進入了超星課堂,開啟了軟體測試的課堂,學習了等價類邊界值綜合(用戶登錄的測試),由於對新知識的熟悉度不好,整個早上做了四個版本,直到最後才完成,還錯過了提交時間,一整個要炸掉了。 ...
  • fastposter v2.7.1 緊急發佈 電商海報編輯器 fastposter海報生成器,電商海報編輯器,電商海報設計器,fast快速生成海報 海報製作 海報開發。二維碼海報,圖片海報,分享海報,二維碼推廣海報,支持Java Python PHP Go JS 小程式。基於Vue 和Pillow ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...