Python爬蟲之簡單的爬取百度貼吧數據

-Advertisement-

首先要使用的第類庫有 urllib下的request 以及urllib下的parse 以及 time包 random包之後我們定義一個名叫BaiduSpider類用來爬取信息屬性有 url:用來爬取的網址 headers:請求頭之後我們定義三個方法不涉及清洗數據獲取頁面保存數據主函數 ...

首先要使用的第類庫有 urllib下的request 以及urllib下的parse 以及 time包 random包

之後我們定義一個名叫BaiduSpider類用來爬取信息

屬性有 url:用來爬取的網址 headers:請求頭

class BaiduSpider(object):
    def __init__(self):
        self.url = 'http://tieba.baidu.com/f?kw={}&pn={}'
        self.headers = {'User-Agent':'Win7:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1'}

之後我們定義三個方法不涉及清洗數據

獲取頁面

1 #獲取頁面
2     def get_page(self,url):
3         #定義請求對象
4         req = request.Request(url=url,headers=self.headers)
5         #發起請求
6         res = request.urlopen(req)
7         #獲取相應對象
8         html = res.read().decode('utf-8', 'ignore')
9         return html

保存數據

#保存數據
    def write_page(self,filename,html):
        #將數據保存到本地
        with open(filename,'w',encoding='utf-8') as f:
            f.write(html)

主函數

#主函數
    def main(self):
        name = input('請輸入貼吧名:>>>>')
        start = int(input('請輸入起始頁'))
        end = int(input('請輸入終止頁'))
        for page in range(start,end+1):
            #拼接URL地址 'http://tieba.baidu.com/f?kw{}&pn={}'
            #進行編碼 將中文字元編碼為url地址編碼
            kw = parse.quote(name)
            #獲取當前頁數
            pn = (page-1)*50
            #進行url地址的拼接
            url = self.url.format(kw,pn)
            #獲取相應
            html = self.get_page(url)
            filename = '{}-第{}頁.html'.format(name,page)
            self.write_page(filename,html)
            #提示
            print('第{}頁爬取成功'.format(page))
            #控制爬取速度
            time.sleep(random.randint(1,3))

最後所有的代碼展示如下

#導入模塊
from urllib import request,parse
import time
import random

class BaiduSpider(object):
    def __init__(self):
        self.url = 'http://tieba.baidu.com/f?kw={}&pn={}'
        self.headers = {'User-Agent':'Win7:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1'}

    #獲取頁面
    def get_page(self,url):
        #定義請求對象
        req = request.Request(url=url,headers=self.headers)
        #發起請求
        res = request.urlopen(req)
        #獲取相應對象
        html = res.read().decode('utf-8', 'ignore')
        return html


    #解析數據
    def parse_page(self):
        pass

    #保存數據
    def write_page(self,filename,html):
        #將數據保存到本地
        with open(filename,'w',encoding='utf-8') as f:
            f.write(html)

    #主函數
    def main(self):
        name = input('請輸入貼吧名:>>>>')
        start = int(input('請輸入起始頁'))
        end = int(input('請輸入終止頁'))
        for page in range(start,end+1):
            #拼接URL地址 'http://tieba.baidu.com/f?kw{}&pn={}'
            #進行編碼 將中文字元編碼為url地址編碼
            kw = parse.quote(name)
            #獲取當前頁數
            pn = (page-1)*50
            #進行url地址的拼接
            url = self.url.format(kw,pn)
            #獲取相應
            html = self.get_page(url)
            filename = '{}-第{}頁.html'.format(name,page)
            self.write_page(filename,html)
            #提示
            print('第{}頁爬取成功'.format(page))
            #控制爬取速度
            time.sleep(random.randint(1,3))

if __name__ == '__main__':
    spider = BaiduSpider()
    spider.main()

一個非常非常簡單的爬蟲就完成了讓我們看一下運行效果截圖:

html文件打開後與我們正常打開的網頁並沒有太大的差別

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

19.面向對象(繼承)

面向對象三大特性：封裝、繼承、多態繼承的概念：在定義類時，可以從已有類當中提取想要的內容被繼承的類稱為父類、基類、超類，新定義的類稱為子類、派生類註意:如果派生類中的屬性與基類屬性重名，那麼派生類的屬性會覆蓋掉基類的屬性。包括初始化函數。派生類在初始化函數中需要繼承和修改初始化過程，使用’ ...
長樂國慶集訓Day3

T1 動態逆序對題目【題目描述】給出一個長度為n的排列a（1~n這n個數在數列中各出現1次）。每次交換兩個數，求逆序對數%2的結果。逆序對：對於兩個數a[i],a[j](i<j)，若a[i]>a[j]，則(a[i],a[j])為1個逆序對。【輸入格式】第一行一個正整數n。接下來一行n個 ...
day012--python-正則表達式

正則表達式是一個特殊的字元序列，它能幫助你方便的檢查一個字元串是否與某種模式匹配。一、元字元 1) . --匹配任意字元（不包括換行符） 2) ^ --匹配開始位置，多行模式下匹配每一行的開始 3) $ --匹配結束位置，多行模式下匹配每一行的結束 4) * --匹配前一個元字元0到多次 5) + ...
PHP常用的自定義函數

目錄 php常用自定義函數類下載 php 設置字元編碼為utf-8 GB2312和utf8相互轉換路徑格式化(替換雙斜線為單斜線) 獲取當前文件的目錄列印輸出 api返回信息字元串截取方法一: 方法二: 字元串make_by_id轉成makeById 數組字元串對象 json格式的字元串 ...
非對稱加密openssl協議在php7實踐

據網上資料，RSA加密演算法是一種非對稱加密演算法。在公開密鑰加密和電子商務中RSA被廣泛使用。RSA是1977年由羅納德·李維斯特（RON RIVEST）、阿迪·薩莫爾（ADI SHAMIR）和倫納德·阿德曼（LEONARD ADLEMAN）一起提出的。當時他們三人都在麻省理工學院工作。RSA就是他們 ...
Django組件-中間件

Django請求執行流程圖：中間件中間件的概念中間件顧名思義，是介於request與response處理之間的一道處理過程，相對比較輕量級，並且在全局上改變django的輸入與輸出。因為改變的是全局，所以需要謹慎使用，用不好會影響到性能。 Django的中間件官方定義：如果你想修改請求，例如 ...
Python—包管理工具與上傳工具

https://blog.csdn.net/libbyandhelen/article/details/78808959 https://www.cnblogs.com/nineep/p/9475297.html https://www.jianshu.com/p/7426bad2f688 ...
Eureka實戰-2【構建Multi Zone Eureka Server】

工程pom中公共依賴 1、Eureka Server工程啟動4個實例，配置兩個zone，即zone1、zone2，每個zone都要2個eureka server實例，這個2個zone配置在同一個region上，即region-east。 1.1、eureka-server工程pom文件： 1.2、 ...

Python爬蟲之簡單的爬取百度貼吧數據

首先要使用的第類庫有 urllib下的request 以及urllib下的parse 以及 time包 random包

之後我們定義三個方法 不涉及清洗數據

獲取頁面

保存數據

主函數

最後 所有的代碼展示如下

一個非常非常簡單的爬蟲就完成了 讓我們看一下運行效果截圖:

之後我們定義三個方法不涉及清洗數據

最後所有的代碼展示如下

一個非常非常簡單的爬蟲就完成了讓我們看一下運行效果截圖: