Python爬取全書網小說，免費看小說

-Advertisement-

什麼是網路爬蟲網路爬蟲（又被稱為網頁蜘蛛，網路機器人，在FOAF社區中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動地抓取萬維網信息的程式或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或者蠕蟲。環境：Python3.6+Windows 開發工具：你喜歡用哪個就用哪個，你開 ...

Python爬取網路小說，看書就用Python下載免費的就好了

什麼是網路爬蟲

網路爬蟲（又被稱為網頁蜘蛛，網路機器人，在FOAF社區中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動地抓取萬維網信息的程式或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或者蠕蟲。

環境：Python3.6+Windows

開發工具：你喜歡用哪個就用哪個，你開心就好！

模塊：

1 import urllib.request
2 
3 import re

主要思路：

1 獲取主頁源代碼
2 獲取章節超鏈接
3 獲取章節超鏈接源碼
4 獲取小說內容
5 下載,文件操作

Python爬取網路小說，看書就用Python下載免費的就好了

Python代碼瞭解一下

 1 import urllib.request
 2 import re
 3 # 1 獲取主頁源代碼
 4 # 2 獲取章節超鏈接
 5 # 3 獲取章節超鏈接源碼
 6 # 4 獲取小說內容
 7 # 5 下載,文件操作
 8 
 9 # 駝峰命名法
10 # 獲取小說內容
11 def getNovertContent():
12     # <http.client.HTTPResponse object at 0x000001DFD017F400>
13     html = urllib.request.urlopen("http://www.quanshuwang.com/book/0/269").read()
14     html = html.decode("gbk")
15     # 不加括弧  不匹配
16     # 正則表達式  .*?  匹配所有
17     reg = r'<li><a href="(.*?)" title=".*?">(.*?)</a></li>'
18     # 增加效率的
19     reg = re.compile(reg)
20     urls = re.findall(reg,html)
21     # print(urls)
22     # 列表
23     # [(http://www.quanshuwang.com/book/0/269/78850.html,第一章 山邊小村),
24     # (http://www.quanshuwang.com/book/0/269/78854.html,第二章 青牛鎮)]
25     for url in urls:
26         # 章節的URL地址
27         novel_url = url[0]
28         # 章節標題
29         novel_title = url[1]
30 
31         chapt = urllib.request.urlopen(novel_url).read()
32         chapt_html = chapt.decode("gbk")
33         # r 表示原生字元串   \ \\d  r"\d"
34         reg = r'</script>&nbsp;&nbsp;&nbsp;&nbsp;(.*?)<script type="text/javascript">'
35         # S 代表多行匹配
36         reg = re.compile(reg,re.S)
37         chapt_content = re.findall(reg,chapt_html)
38         # print(chapt_content)
39         # 列表["&nbsp;&nbsp;&nbsp;&nbsp二愣子睜大著雙眼，直直望著茅草和爛泥糊成的<br />"]
40 
41         # 第一個參數   要替換的字元串   替換後的字元串
42         chapt_content = chapt_content[0].replace("&nbsp;&nbsp;&nbsp;&nbsp;","")
43         # print(chapt_content)    字元串  二愣子睜大著雙眼，直直望著茅草和爛泥糊成的<br />
44         chapt_content = chapt_content.replace("<br />","")
45 
46         print("正在保存 %s"%novel_title)
47         # w 讀寫模式  wb
48         # f = open("{}.txt".format(novel_title),'w')
49         # f.write(chapt_content)
50 
51         with open("{}.txt".format(novel_title),'w') as f:
52             f.write(chapt_content)
53 
54         # f.close()
55 
56 getNovertContent()

運行結果：

Python爬取網路小說，看書就用Python下載免費的就好了

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

AOP

AOP（Aspect-Oriented Programming），面向切麵編程。一些系統層面的服務（例如安全、日誌、事務），這些與業務邏輯無關的服務如果直接寫在業務流程中，這樣會使得業務流程到處都是這些服務代碼，繁瑣難維護，混淆業務本身的職責，還不容易剔除。 AOP的編程思想，是與業務邏輯無關的動 ...
虛擬代理模式-Virtual Proxy(Java實現)

虛擬代理模式-Virtual Proxy 虛擬代理模式(Virtual PRoxy)會推遲真正所需對象實例化時間. 在需要真正的對象工作之前, 如果代理對象能夠處理, 那麼暫時不需要真正對象來出手. 優點: 這種方法的優點是,在應用程式啟動時,由於不需要創建和裝載所有的對象,因此加速了應用程式的啟動 ...
Cookie在商品瀏覽記錄中的使用

Cookie在工作中的使用,最近項目寫到了用戶瀏覽商品模塊，用到了cookie對象，把我對cookie的認識分享給大家。cookie簡稱小餅干，大家應該知道吧，cookie屬於存儲在客戶端，也就是瀏覽器端,它儲存的大小是有限制的，根據各個瀏覽器不同大小也不同。下麵是商城的瀏覽記錄模塊的技術實現。首 ...
使用google-gson類庫解析json文件

使用google-gson類庫解析json文件使用JsonParser解析器來解析字元串和輸入流，變成json對象代碼如下： ...
他學習一年Python找不到工作，大佬都說你別再學Python了！

引言：都說，滴水穿石非一日之功。然而有些人即使奮鬥一輩子也比不上別人一年，別人學習一年比不得你學習一個月。其中緣由，有些人看了大半輩子還沒看明白。即使Python這麼火，為何你學習一年的Python還找不到工作？我認為有以下四點非常關鍵： 1，功利心強：急需賺錢之人，所以才會著重強調“賺錢” ...
Python爬蟲案例：爬取百度圖片

糾結於爬取百度圖片，竟然花費了一天的時間才讓程式順利跑起來。其中踩坑無數。而且還發現公司電腦實在是比較差勁。。。 ...
關於寫了6小時代碼的感想

在此之前，我花了兩個晚上去找思路感想 1.其實程式開發都是一樣，每一個大程式都是成百上千的模塊組成，一個大功能你寫不出來，那麼一個登陸驗證就很輕鬆的寫出來 2.你只是因為沒有接觸過是如何實現這種功能的，所以你就不知道如何下筆 3.不會寫不要氣餒，多在網上搜相關的代碼看看別人是怎麼寫的 4.寫功能的 ...
就算會用python畫顆心，可你依然還是只單身狗

:) 標題是開玩笑的，千萬別認真。隨著AI的飛速發展，有志於此行的碼農也是急劇的增加，帶來的就是大家對演算法、數學的興趣也格外升高。本文的來歷是這樣，今天某老同事在朋友圈發了一張屏拍，求公式。看了一下還是難度不大，上半部分基本是兩個半圓，下半部分是兩個旋轉了的反餘弦函數。不過我的數學也比較渣， ...