Python爬蟲之簡單的爬取百度貼吧數據

来源:https://www.cnblogs.com/gongdada/archive/2019/10/03/11620613.html
-Advertisement-
Play Games

首先要使用的第類庫有 urllib下的request 以及urllib下的parse 以及 time包 random包 之後我們定義一個名叫BaiduSpider類用來爬取信息 屬性有 url:用來爬取的網址 headers:請求頭 之後我們定義三個方法 不涉及清洗數據 獲取頁面 保存數據 主函數 ...


首先要使用的第類庫有 urllib下的request  以及urllib下的parse  以及 time包  random包

之後我們定義一個名叫BaiduSpider類用來爬取信息

 

屬性有 url:用來爬取的網址             headers:請求頭

class BaiduSpider(object):
    def __init__(self):
        self.url = 'http://tieba.baidu.com/f?kw={}&pn={}'
        self.headers = {'User-Agent':'Win7:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1'}

 

之後我們定義三個方法   不涉及清洗數據

獲取頁面

1 #獲取頁面
2     def get_page(self,url):
3         #定義請求對象
4         req = request.Request(url=url,headers=self.headers)
5         #發起請求
6         res = request.urlopen(req)
7         #獲取相應對象
8         html = res.read().decode('utf-8', 'ignore')
9         return html

保存數據

#保存數據
    def write_page(self,filename,html):
        #將數據保存到本地
        with open(filename,'w',encoding='utf-8') as f:
            f.write(html)

主函數

#主函數
    def main(self):
        name = input('請輸入貼吧名:>>>>')
        start = int(input('請輸入起始頁'))
        end = int(input('請輸入終止頁'))
        for page in range(start,end+1):
            #拼接URL地址 'http://tieba.baidu.com/f?kw{}&pn={}'
            #進行編碼 將中文字元編碼為url地址編碼
            kw = parse.quote(name)
            #獲取當前頁數
            pn = (page-1)*50
            #進行url地址的拼接
            url = self.url.format(kw,pn)
            #獲取相應
            html = self.get_page(url)
            filename = '{}-第{}頁.html'.format(name,page)
            self.write_page(filename,html)
            #提示
            print('第{}頁爬取成功'.format(page))
            #控制爬取速度
            time.sleep(random.randint(1,3))

 

最後 所有的代碼展示如下

#導入模塊
from urllib import request,parse
import time
import random

class BaiduSpider(object):
    def __init__(self):
        self.url = 'http://tieba.baidu.com/f?kw={}&pn={}'
        self.headers = {'User-Agent':'Win7:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1'}

    #獲取頁面
    def get_page(self,url):
        #定義請求對象
        req = request.Request(url=url,headers=self.headers)
        #發起請求
        res = request.urlopen(req)
        #獲取相應對象
        html = res.read().decode('utf-8', 'ignore')
        return html


    #解析數據
    def parse_page(self):
        pass

    #保存數據
    def write_page(self,filename,html):
        #將數據保存到本地
        with open(filename,'w',encoding='utf-8') as f:
            f.write(html)

    #主函數
    def main(self):
        name = input('請輸入貼吧名:>>>>')
        start = int(input('請輸入起始頁'))
        end = int(input('請輸入終止頁'))
        for page in range(start,end+1):
            #拼接URL地址 'http://tieba.baidu.com/f?kw{}&pn={}'
            #進行編碼 將中文字元編碼為url地址編碼
            kw = parse.quote(name)
            #獲取當前頁數
            pn = (page-1)*50
            #進行url地址的拼接
            url = self.url.format(kw,pn)
            #獲取相應
            html = self.get_page(url)
            filename = '{}-第{}頁.html'.format(name,page)
            self.write_page(filename,html)
            #提示
            print('第{}頁爬取成功'.format(page))
            #控制爬取速度
            time.sleep(random.randint(1,3))

if __name__ == '__main__':
    spider = BaiduSpider()
    spider.main()

一個非常非常簡單的爬蟲就完成了 讓我們看一下運行效果截圖:

 

 

 

 html文件打開後 與我們正常打開的網頁並沒有太大的差別

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 面向對象三大特性:封裝、繼承、多態 繼承的概念: 在定義類時,可以從已有類當中提取想要的內容 被繼承的類稱為父類、基類、超類,新定義的類稱為子類、派生類 註意:如果派生類中的屬性與基類屬性重名,那麼派生類的屬性會覆蓋掉基類的屬性。包括初始化函數。 派生類在初始化函數中需要繼承和修改初始化過程,使用’ ...
  • T1 動態逆序對 題目 【題目描述】 給出一個長度為n的排列a(1~n這n個數在數列中各出現1次)。每次交換兩個數,求逆序對數%2的結果。 逆序對:對於兩個數a[i],a[j](i<j),若a[i]>a[j],則(a[i],a[j])為1個逆序對。 【輸入格式】 第一行一個正整數n。 接下來一行n個 ...
  • 正則表達式是一個特殊的字元序列,它能幫助你方便的檢查一個字元串是否與某種模式匹配。 一、元字元 1) . --匹配任意字元(不包括換行符) 2) ^ --匹配開始位置,多行模式下匹配每一行的開始 3) $ --匹配結束位置,多行模式下匹配每一行的結束 4) * --匹配前一個元字元0到多次 5) + ...
  • 目錄 php常用自定義函數類下載 php 設置字元編碼為utf-8 GB2312和utf8相互轉換 路徑格式化(替換雙斜線為單斜線) 獲取當前文件的目錄 列印輸出 api返回信息 字元串截取 方法一: 方法二: 字元串make_by_id轉成makeById 數組 字元串 對象 json格式的字元串 ...
  • 據網上資料,RSA加密演算法是一種非對稱加密演算法。在公開密鑰加密和電子商務中RSA被廣泛使用。RSA是1977年由羅納德·李維斯特(RON RIVEST)、阿迪·薩莫爾(ADI SHAMIR)和倫納德·阿德曼(LEONARD ADLEMAN)一起提出的。當時他們三人都在麻省理工學院工作。RSA就是他們 ...
  • Django請求執行流程圖: 中間件 中間件的概念 中間件顧名思義,是介於request與response處理之間的一道處理過程,相對比較輕量級,並且在全局上改變django的輸入與輸出。因為改變的是全局,所以需要謹慎使用,用不好會影響到性能。 Django的中間件官方定義: 如果你想修改請求,例如 ...
  • https://blog.csdn.net/libbyandhelen/article/details/78808959 https://www.cnblogs.com/nineep/p/9475297.html https://www.jianshu.com/p/7426bad2f688 ...
  • 工程pom中公共依賴 1、Eureka Server工程 啟動4個實例,配置兩個zone,即zone1、zone2,每個zone都要2個eureka server實例,這個2個zone配置在同一個region上,即region-east。 1.1、eureka-server工程pom文件: 1.2、 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...