20行代碼簡單python爬蟲，爬蟲實例

-Advertisement-

函數介紹函數功能簡單介紹庫函數介紹 import requests#請求網頁 from lxml import etree#對網頁進行解析函數功能介紹函數1 def getdata(url): html=requests.get(url).text # print(html) doc=etr ...

函數介紹

函數功能簡單介紹

庫函數介紹

import requests#請求網頁
from lxml import etree#對網頁進行解析

函數功能介紹

函數1

def getdata(url):
    html=requests.get(url).text
    # print(html)
    doc=etree.HTML(html)#構造xpath的解析對象
    contents=doc.xpath('//*[@class="cf"]/li')
    # print(contents)
    for content in contents:
        links=content.xpath('h2/a/@href')
        for link in links:
            hurl="https:"+link#小說某一章的網址
            html=requests.get(hurl).text#獲取到源代碼
            doc=etree.HTML(html)#構造xpath解析對象
            title=doc.xpath('//*[@class="text-wrap"]/div/div[1]/h3/span[1]/text()')
            content=doc.xpath('//*[@class="read-content j_readContent"]/p/text()')
            with open('novel/%s.txt'%title[0],mode='w',encoding='utf-8') as f:
                for abd in content:
                    f.write(abd)

函數功能比較簡單，所以就沒有對其中的保存小說的函數進行封裝，有興趣的可以自己嘗試一下。

完整代碼

 
#獲取起點小說的爬蟲程式
#倒推法
import requests
from lxml import etree
url="https://book.qidian.com/info/1979049/#Catalog"#小說的網址
def getdata(url):
    html=requests.get(url).text
    # print(html)
    doc=etree.HTML(html)#構造xpath的解析對象
    contents=doc.xpath('//*[@class="cf"]/li')
    # print(contents)
    for content in contents:
        links=content.xpath('h2/a/@href')
        for link in links:
            hurl="https:"+link#小說某一章的網址
            html=requests.get(hurl).text#獲取到源代碼
            doc=etree.HTML(html)#構造xpath解析對象
            title=doc.xpath('//*[@class="text-wrap"]/div/div[1]/h3/span[1]/text()')
            content=doc.xpath('//*[@class="read-content j_readContent"]/p/text()')
            with open('novel/%s.txt'%title[0],mode='w',encoding='utf-8') as f:
                for abd in content:
                    f.write(abd)
a=getdata(url)

函數功能介紹

學習了entree對網頁源碼進行解析，requests庫對網頁進行解析獲得源碼，同時代碼中還用到了獲取標簽xpath的方法，xpath的解析將在下一篇文章進行解析。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

限流 - 限流註解組件開發

限流概述系統存在服務上限，流量超過服務上限會導致系統卡死、崩潰。限流：為了在高併發時系統穩定可用，犧牲或延遲部分請求流量以保證系統整體服務可用。限流演算法固定視窗計數將時間劃分為多個視窗；在每個視窗內每有一次請求就將計數器加一；如果計數器超過了限制數量，則本視窗內所有的請求都被丟棄當時間 ...
C++對象模型：g++的實現（五）

前後端分離開發，後端需要編寫接⼝說明⽂檔，會耗費⽐較多的時間。 swagger 是⼀個⽤於⽣成伺服器接⼝的規範性⽂檔，並且能夠對接⼝進⾏測試的⼯具。作用⽣成接⼝說明⽂檔對接⼝進⾏測試使用步驟添加依賴  <dependency> <groupId>io.sprin ...
C++構造函數初始化列表註意的坑

原文鏈接：https://www.zhoubotong.site/post/87.html 之所以寫這篇文章，是覺得裡面有些細節如果不註意，很容易出錯或踩坑，網上有很多教程對這塊的描述部分存在錯誤。希望下麵的介紹能給大家帶來幫助。大家知道當我們需要初始化類中的成員變數時，除了可以直接在構造函數裡面 ...
【python】pycharm打開時一直載入中怎麼辦？

前言大家早好、午好、晚好吖~ 問題描述相信很多剛開始使用pycharm不太熟練的小伙伴，每天一開機打開pycharm總是卡半天，不知道的還以為是電腦卡了或者啥問題的。莫慌，其實並不是… 今天我們就來解決一下這個問題解決方法大致總結了以下這幾種方法 1、exclude不必要文件依次打開 ...
Logstash 入門實戰(5)--output plugin 介紹

本文主要介紹 Logstash 的一些常用輸出插件；相關的環境及軟體信息如下：CentOS 7.9、Logstash 8.2.2。 1、Stdout 輸出插件 Stdout 插件把結果數據輸出到標準輸出。 input { stdin { } } output { stdout { } } 2、Fil ...
學習筆記——元數據、blob類型的元素

2022-11-04 一、元數據 1、元數據的說明：元數據就是指描述數據的數據，例如：數據有多少列、數據的列名稱等。 2、使用的代碼： 1 ResultSetMetaData metaData = rs.getMetaData(); 2 int columnCount = metaData.get ...
重溫Python基礎——字元串

哈嘍，兄弟們，本文帶大家複習一下Python基礎中的字元串，不知道大家還記得多少內容呢？字元串 1、字元串就是一系列字元在python中，用引號括起的都是字元串，其中引號可以是單的，也可以是雙的。例如： “i am not happy” ‘i am not happy’ 這種靈活性能在字元串中 ...
Statement對象與PreparedStatement對象

一、Statement對象 Jdbc中的statement對象用於向資料庫發送SQL語句，想完成對資料庫的增刪改查，只需要通過這個對象向資料庫發送增刪改查語句即可。 Statement對象的executeUpdate方法，用於向資料庫發送增、刪、改的sql語句，executeUpdate執行完後 ...