看完python這段爬蟲代碼，java流淚了c#沉默了

-Advertisement-

哈哈，其實很簡單，寥寥幾行代碼網頁爬一部小說，不賣關子，立刻開始。首先安裝所需的包，requests，BeautifulSoup4 控制台執行 pip install requests pip install BeautifulSoup4 如果不能正確安裝，請檢查你的環境變數，至於環境變數配置，在 ...

哈哈，其實很簡單，寥寥幾行代碼網頁爬一部小說，不賣關子，立刻開始。

首先安裝所需的包，requests，BeautifulSoup4

控制台執行

pip install requests

pip install BeautifulSoup4

如果不能正確安裝，請檢查你的環境變數，至於環境變數配置，在這裡不再贅述，相關文章有很多。

兩個包的安裝命令都結束後，輸入pip list

可以看到，兩個包都成功安裝了。

好的，我們立刻開始編寫代碼。

我們的目標是抓取這個鏈接下所有小說的章節 https://book.qidian.com/info/1013646681#Catalog

我們訪問頁面，用chrome調試工具查看元素，查看各章節的html屬性。我們發現所有章節父元素是<ul class="cf">這個元素，章節的鏈接以及標題，在子<li>下的<a>標簽內。

那我們第一步要做的事，就是要提取所有章節的鏈接。

'用於進行網路請求'
import requests


chapter = requests.get("https://book.qidian.com/info/1013646681#Catalog")
print(chapter.text)

頁面順利的請求到了，接下來我們從頁面中抓取相應的元素

'用於進行網路請求'
import requests
'用於解析html'
from bs4 import BeautifulSoup


chapter = requests.get("https://book.qidian.com/info/1013646681#Catalog")

ul_bs = BeautifulSoup(chapter.text)
'提取class為cf的ul標簽'
ul = ul_bs.find_all("ul",class_="cf")
print(ul)

ul也順利抓取到了，接下來我們遍歷<ul>下的<a>標簽取得所有章節的章節名與鏈接

'用於進行網路請求'
import requests
'用於解析html'
from bs4 import BeautifulSoup


chapter = requests.get("https://book.qidian.com/info/1013646681#Catalog")

ul_bs = BeautifulSoup(chapter.text)
'提取class為cf的ul標簽'
ul = ul_bs.find_all("ul",class_="cf")
ul_bs = BeautifulSoup(str(ul[0]))
'找到<ul>下的<a>標簽'
a_bs = ul_bs.find_all("a")
'遍歷<a>的href屬性跟text'
for a in a_bs:
    href = a.get("href")
    text = a.get_text()
    print(href)
    print(text)

ok，所有的章節鏈接搞定，我們去看想想章節詳情頁面長什麼樣，然後我們具體制定詳情頁面的爬取計劃。

打開一個章節，用chrome調試工具審查一下。文章標題保存在<h3 class="j_chapterName">中，正文保存在<div class="read-content j_readContent">中。

我們需要從這兩個標簽中提取內容。

'用於進行網路請求'
import requests
'用於解析html'
from bs4 import BeautifulSoup


chapter = requests.get("https://book.qidian.com/info/1013646681#Catalog")

ul_bs = BeautifulSoup(chapter.text)
'提取class為cf的ul標簽'
ul = ul_bs.find_all("ul",class_="cf")
ul_bs = BeautifulSoup(str(ul[0]))
'找到<ul>下的<a>標簽'
a_bs = ul_bs.find_all("a")

detail = requests.get("https:"+a_bs[0].get("href"))
text_bs = BeautifulSoup(detail.text)
text = text_bs.find_all("div",class_ = "read-content j_readContent")
print(text)

正文頁很順利就爬取到了，以上代碼僅是用第一篇文章做示範，通過調試文章已經可以爬取成功，所有下一步我們只要把所有鏈接遍歷逐個提取就好了

'用於進行網路請求'
import requests
'用於解析html'
from bs4 import BeautifulSoup


chapter = requests.get("https://book.qidian.com/info/1013646681#Catalog")

ul_bs = BeautifulSoup(chapter.text)
'提取class為cf的ul標簽'
ul = ul_bs.find_all("ul",class_="cf")
ul_bs = BeautifulSoup(str(ul[0]))
'找到<ul>下的<a>標簽'
a_bs = ul_bs.find_all("a")

'遍歷所有<href>進行提取'

for a in a_bs:
    detail = requests.get("https:"+a.get("href"))
    d_bs = BeautifulSoup(detail.text)
    '正文'
    content = d_bs.find_all("div",class_ = "read-content j_readContent")
    '標題'
    name = d_bs.find_all("h3",class_="j_chapterName")[0].get_text()

在上圖中我們看到正文中的每一個<p>標簽為一個段落，提取的文章包含很多<p>標簽這也是我們不希望的，接下來去除p標簽。

但是去除<p>標簽後文章就沒有段落格式了呀，這樣的閱讀體驗很不爽的，我們只要在每個段落的結尾加一個換行符就好了

'用於進行網路請求'
import requests
'用於解析html'
from bs4 import BeautifulSoup


chapter = requests.get("https://book.qidian.com/info/1013646681#Catalog")

ul_bs = BeautifulSoup(chapter.text)
'提取class為cf的ul標簽'
ul = ul_bs.find_all("ul",class_="cf")
ul_bs = BeautifulSoup(str(ul[0]))
'找到<ul>下的<a>標簽'
a_bs = ul_bs.find_all("a")

'遍歷所有<href>進行提取'

for a in a_bs:
    detail = requests.get("https:"+a.get("href"))
    d_bs = BeautifulSoup(detail.text)
    '正文'
    content = d_bs.find_all("div",class_ = "read-content j_readContent")
    '標題'
    name = d_bs.find_all("h3",class_="j_chapterName")[0].get_text()
    
    txt = ""
    p_bs = BeautifulSoup(str(content))
    '提取每個<p>標簽的內容'
    for p in p_bs.find_all("p"):
        txt = txt + p.get_text()+"\r\n"

去掉<p>標簽了，所有的工作都做完了，我們只要把文章保存成一個txt就可以了，txt的文件名以章節來命名。

'用於進行網路請求'
import requests
'用於解析html'
from bs4 import BeautifulSoup

def create_txt(path,txt):
    fd = None 
    try:
        fd = open(path,'w+',encoding='utf-8')
        fd.write(txt)
    except:
        print("error")
    finally:
        if (fd !=None):
            fd.close()


chapter = requests.get("https://book.qidian.com/info/1013646681#Catalog")

ul_bs = BeautifulSoup(chapter.text)
'提取class為cf的ul標簽'
ul = ul_bs.find_all("ul",class_="cf")
ul_bs = BeautifulSoup(str(ul[0]))
'找到<ul>下的<a>標簽'
a_bs = ul_bs.find_all("a")

'遍歷所有<href>進行提取'

for a in a_bs:
    detail = requests.get("https:"+a.get("href"))
    d_bs = BeautifulSoup(detail.text)
    '正文'
    content = d_bs.find_all("div",class_ = "read-content j_readContent")
    '標題'
    name = d_bs.find_all("h3",class_="j_chapterName")[0].get_text()

    path = 'F:\\test\\'
    path = path + name+".txt"
    
    txt = ""
    p_bs = BeautifulSoup(str(content))
    '提取每個<p>標簽的內容'
    for p in p_bs.find_all("p"):
        txt = txt + p.get_text()+"\r\n"

    create_txt(path,txt)
    print(path+"保存成功")

文章成功爬取，文件成功保存，搞定。就這麼簡單的幾行代碼搞定。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

AppBoxFuture(四). 隨需而變-Online Schema Change

需求變更是信息化過程中的家常便飯，而在變更過程中如何儘可能小的影響線上業務是比較頭疼的事情。舉個車聯網監控的例子：原終端設備上傳車輛的經緯度數據，新的終端設備支持同時上傳速度數據，而舊的車輛狀態表數據量超過億級，此時如果Alter table add column將會造成數據 ...
Windows下Tomcat記憶體占用過高問題跟蹤(ProcessExplorer+jstack)

一、問題描述 Tomcat下麵部署很多個java項目的war包，tomcat啟動一段時間後，發現cpu占用過高，整個界面卡死！二、通過process explorer查看java進程下的線程 process explorer是Windows系統和應用程式監視工具。 process explorer ...
Java String：重要到別人只能當老二的字元串類

字元串，是Java中最重要的類。這句肯定的推斷不是Java之父詹姆斯·高斯林說的，而是沉默王二說的，因此你不必懷疑它的準確性。關於字元串，有很多的面試題，但我總覺得理論知識繞來繞去沒多大意思。你比如說：String cmower = new String("沉默王二");定義了幾個對象? 我總覺得 ...
解決eclipse導入web項目不能顯示Run on serve 的問題

首先嘗試網友們的方法按照網上大部分的教程仍無法解決自己的問題，不管是更改.project文件還是使用其他修改配置的方法，始終不能解決問題。嘗試自己解決問題想到了可能是eclipse版本的問題，我之前使用的是eclipse mars版本。我隨即去官網下載了最新版本的eclipse。下載後導入項目 ...
併發concurrent---1

背景：併發知識是一個程式員段位升級的體現，同樣也是進入BAT的必經之路，有必要把併發知識重新梳理一遍。說到併發concurrent，肯定首先想到了線程，創建線程有兩種方法：1、從Java.lang.Thread類派生一個新的線程類，重載它的run()方法；2、實現Runnalbe介面，重載Runn ...
python編程規範系列--建議01～07

本系列來自《編寫高質量代碼改善python程式的91個建議》的讀書筆記整理。 ...
shell編程總結

Shell是一個命令解釋器。它不僅是操作系統內核與用戶之間的絕緣層，同時也是一種功能相當強大的編程語言。一個Shell程式，通常稱為腳本，它是一個由系統調用，命令工具，軟體包和已編譯的二進位包"粘合" 起來的極易使用的工具。事實上，整個UNIX系統命令，軟體包和工具都能由一個shell腳本調用。如果 ...
python_文件操作

一、文件處理基本形式二、打開文件的模式三、操作文件的方法 ...