Python爬取全書網小說,免費看小說

来源:https://www.cnblogs.com/pythonfm/archive/2018/05/19/9061923.html
-Advertisement-
Play Games

什麼是網路爬蟲 網路爬蟲(又被稱為網頁蜘蛛,網路機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取萬維網信息的程式或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或者蠕蟲。 環境:Python3.6+Windows 開發工具:你喜歡用哪個就用哪個,你開 ...


 

Python爬取網路小說,看書就用Python下載免費的就好了

什麼是網路爬蟲

網路爬蟲(又被稱為網頁蜘蛛,網路機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取萬維網信息的程式或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或者蠕蟲。

環境:Python3.6+Windows

開發工具:你喜歡用哪個就用哪個,你開心就好!

模塊:

1 import urllib.request
2 
3 import re

主要思路:

  • 1 獲取主頁源代碼

  • 2 獲取章節超鏈接

  • 3 獲取章節超鏈接源碼

  • 4 獲取小說內容

  • 5 下載,文件操作

Python爬取網路小說,看書就用Python下載免費的就好了

Python代碼瞭解一下

 1 import urllib.request
 2 import re
 3 # 1 獲取主頁源代碼
 4 # 2 獲取章節超鏈接
 5 # 3 獲取章節超鏈接源碼
 6 # 4 獲取小說內容
 7 # 5 下載,文件操作
 8 
 9 # 駝峰命名法
10 # 獲取小說內容
11 def getNovertContent():
12     # <http.client.HTTPResponse object at 0x000001DFD017F400>
13     html = urllib.request.urlopen("http://www.quanshuwang.com/book/0/269").read()
14     html = html.decode("gbk")
15     # 不加括弧  不匹配
16     # 正則表達式  .*?  匹配所有
17     reg = r'<li><a href="(.*?)" title=".*?">(.*?)</a></li>'
18     # 增加效率的
19     reg = re.compile(reg)
20     urls = re.findall(reg,html)
21     # print(urls)
22     # 列表
23     # [(http://www.quanshuwang.com/book/0/269/78850.html,第一章 山邊小村),
24     # (http://www.quanshuwang.com/book/0/269/78854.html,第二章 青牛鎮)]
25     for url in urls:
26         # 章節的URL地址
27         novel_url = url[0]
28         # 章節標題
29         novel_title = url[1]
30 
31         chapt = urllib.request.urlopen(novel_url).read()
32         chapt_html = chapt.decode("gbk")
33         # r 表示原生字元串   \ \\d  r"\d"
34         reg = r'</script>&nbsp;&nbsp;&nbsp;&nbsp;(.*?)<script type="text/javascript">'
35         # S 代表多行匹配
36         reg = re.compile(reg,re.S)
37         chapt_content = re.findall(reg,chapt_html)
38         # print(chapt_content)
39         # 列表["&nbsp;&nbsp;&nbsp;&nbsp二愣子睜大著雙眼,直直望著茅草和爛泥糊成的<br />"]
40 
41         # 第一個參數   要替換的字元串   替換後的字元串
42         chapt_content = chapt_content[0].replace("&nbsp;&nbsp;&nbsp;&nbsp;","")
43         # print(chapt_content)    字元串  二愣子睜大著雙眼,直直望著茅草和爛泥糊成的<br />
44         chapt_content = chapt_content.replace("<br />","")
45 
46         print("正在保存 %s"%novel_title)
47         # w 讀寫模式  wb
48         # f = open("{}.txt".format(novel_title),'w')
49         # f.write(chapt_content)
50 
51         with open("{}.txt".format(novel_title),'w') as f:
52             f.write(chapt_content)
53 
54         # f.close()
55 
56 getNovertContent()

 

運行結果:

Python爬取網路小說,看書就用Python下載免費的就好了

Python爬取網路小說,看書就用Python下載免費的就好了


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • AOP
    AOP(Aspect-Oriented Programming),面向切麵編程。 一些系統層面的服務(例如安全、日誌、事務),這些與業務邏輯無關的服務如果直接寫在業務流程中,這樣會使得業務流程到處都是這些服務代碼,繁瑣難維護,混淆業務本身的職責,還不容易剔除。 AOP的編程思想,是與業務邏輯無關的動 ...
  • 虛擬代理模式-Virtual Proxy 虛擬代理模式(Virtual PRoxy)會推遲真正所需對象實例化時間. 在需要真正的對象工作之前, 如果代理對象能夠處理, 那麼暫時不需要真正對象來出手. 優點: 這種方法的優點是,在應用程式啟動時,由於不需要創建和裝載所有的對象,因此加速了應用程式的啟動 ...
  • Cookie在工作中的使用,最近項目寫到了用戶瀏覽商品模塊,用到了cookie對象,把我對cookie的認識分享給大家。cookie簡稱小餅干,大家應該知道吧,cookie屬於存儲在客戶端,也就是瀏覽器端,它儲存的大小是有限制的,根據各個瀏覽器不同大小也不同。下麵是商城的瀏覽記錄模塊的技術實現。 首 ...
  • 使用google-gson類庫解析json文件 使用JsonParser解析器來解析字元串和輸入流,變成json對象 代碼如下: ...
  • 引言: 都說,滴水穿石非一日之功。然而有些人即使奮鬥一輩子也比不上別人一年,別人學習一年比不得你學習一個月。其中緣由,有些人看了大半輩子還沒看明白。 即使Python這麼火,為何你學習一年的Python還找不到工作? 我認為有以下四點非常關鍵: 1,功利心強: 急需賺錢之人,所以才會著重強調“賺錢” ...
  • 糾結於爬取百度圖片,竟然花費了一天的時間才讓程式順利跑起來。其中踩坑無數。而且還發現公司電腦實在是比較差勁。。。 ...
  • 在此之前,我花了兩個晚上去找思路 感想 1.其實程式開發都是一樣,每一個大程式都是成百上千的模塊組成,一個大功能你寫不出來,那麼一個登陸驗證就很輕鬆的寫出來 2.你只是因為沒有接觸過是如何實現這種功能的,所以你就不知道如何下筆 3.不會寫不要氣餒,多在網上搜相關的代碼看看別人是怎麼寫的 4.寫功能的 ...
  • :) 標題是開玩笑的,千萬別認真。 隨著AI的飛速發展,有志於此行的碼農也是急劇的增加,帶來的就是大家對演算法、數學的興趣也格外升高。 本文的來歷是這樣,今天某老同事在朋友圈發了一張屏拍,求公式。 看了一下還是難度不大,上半部分基本是兩個半圓,下半部分是兩個旋轉了的反餘弦函數。 不過我的數學也比較渣, ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...