Python多線程豆瓣影評API介面爬蟲

-Advertisement-

爬蟲庫使用簡單的requests庫，這是一個阻塞的庫，速度比較慢。解析使用XPATH表達式總體採用類的形式多線程使用concurrent.future併發模塊，建立線程池，把future對象扔進去執行即可實現併發爬取效果數據存儲使用Python ORM sqlalchemy保存到資料庫 ...

爬蟲庫

使用簡單的requests庫，這是一個阻塞的庫，速度比較慢。
解析使用XPATH表達式
總體採用類的形式

多線程

使用concurrent.future併發模塊，建立線程池，把future對象扔進去執行即可實現併發爬取效果

數據存儲

使用Python ORM sqlalchemy保存到資料庫，也可以使用自帶的csv模塊存在CSV中。

API介面

因為API介面存在數據保護情況，一個電影的每一個分類只能抓取前25頁，全部評論、好評、中評、差評所有分類能爬100頁，每頁有20個數據，即最多為兩千條數據。

因為時效性原因，不保證代碼能爬到數據，只是給大家一個參考思路，上代碼：

from datetime import datetime
import random
import csv
from concurrent.futures import ThreadPoolExecutor, as_completed

from lxml import etree
import pymysql
import requests

from models import create_session, Comments

#隨機UA
USERAGENT = [
    'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1',
    'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36',
    'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0',
    'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50',
    'Opera/9.80 (Windows NT 6.1; U; zh-cn) Presto/2.9.168 Version/11.50',
    'Mozilla/5.0 (Windows; U; Windows NT 6.1; ) AppleWebKit/534.12 (KHTML, like Gecko) Maxthon/3.0 Safari/534.12'
]


class CommentFetcher:
    headers = {'User-Agent': ''}
    cookie = ''
    cookies = {'cookie': cookie}
    # cookie為登錄後的cookie，需要自行複製
    base_node = '//div[@class="comment-item"]'


    def __init__(self, movie_id, start, type=''):
        '''
        :type: 全部評論：''， 好評：h 中評：m 差評：l
        :movie_id: 影片的ID號
        :start: 開始的記錄數，0-480
        '''
        self.movie_id = movie_id
        self.start = start
        self.type = type
        self.url = 'https://movie.douban.com/subject/{id}/comments?start={start}&limit=20&sort=new_score\&status=P&percent_type={type}&comments_only=1'.format(
            id=str(self.movie_id),
            start=str(self.start),
            type=self.type
        )
        #創建資料庫連接
        self.session = create_session()

    #隨機useragent
    def _random_UA(self):
        self.headers['User-Agent'] = random.choice(USERAGENT)


    #獲取api介面，使用get方法，返回的數據為json數據，需要提取裡面的HTML
    def _get(self):
        self._random_UA()
        res = ''
        try:
            res = requests.get(self.url, cookies=self.cookies, headers=self.headers)
            res = res.json()['html']
        except Exception as e:
            print('IP被封，請使用代理IP')
        print('正在獲取{} 開始的記錄'.format(self.start))
        return res

    def _parse(self):
        res = self._get()
        dom = etree.HTML(res)

        #id號
        self.id = dom.xpath(self.base_node + '/@data-cid')
        #用戶名
        self.username = dom.xpath(self.base_node + '/div[@class="avatar"]/a/@title')
        #用戶連接
        self.user_center = dom.xpath(self.base_node + '/div[@class="avatar"]/a/@href')
        #點贊數
        self.vote = dom.xpath(self.base_node + '//span[@class="votes"]/text()')
        #星級
        self.star = dom.xpath(self.base_node + '//span[contains(@class,"rating")]/@title')
        #發表時間
        self.time = dom.xpath(self.base_node + '//span[@class="comment-time "]/@title')
        #評論內容 所有span標簽class名為short的節點文本
        self.content = dom.xpath(self.base_node + '//span[@class="short"]/text()')

    #保存到資料庫
    def save_to_database(self):
        self._parse()
        for i in range(len(self.id)):
            try:
                comment = Comments(
                    id=int(self.id[i]),
                    username=self.username[i],
                    user_center=self.user_center[i],
                    vote=int(self.vote[i]),
                    star=self.star[i],
                    time=datetime.strptime(self.time[i], '%Y-%m-%d %H:%M:%S'),
                    content=self.content[i]
                )

                self.session.add(comment)
                self.session.commit()
                return 'finish'


            except pymysql.err.IntegrityError as e:
                print('數據重覆，不做任何處理')

            except Exception as e:
                #數據添加錯誤，回滾
                self.session.rollback()

            finally:
                #關閉資料庫連接
                self.session.close()

    #保存到csv
    def save_to_csv(self):
        self._parse()
        f = open('comment.csv', 'w', encoding='utf-8')
        csv_in = csv.writer(f, dialect='excel')
        for i in range(len(self.id)):
            csv_in.writerow([
                int(self.id[i]),
                self.username[i],
                self.user_center[i],
                int(self.vote[i]),
                self.time[i],
                self.content[i]
            ])
        f.close()


if __name__ == '__main__':
    with ThreadPoolExecutor(max_workers=4) as executor:
        futures = []
        for i in ['', 'h', 'm', 'l']:
            for j in range(25):
                fetcher = CommentFetcher(movie_id=26266893, start=j * 20, type=i)
                futures.append(executor.submit(fetcher.save_to_csv))

        for f in as_completed(futures):
            try:
                res = f.done()
                if res:
                    ret_data = f.result()
                    if ret_data == 'finish':
                        print('{} 成功保存數據'.format(str(f)))
            except Exception as e:
                f.cancel()

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

消息隊列和發佈訂閱

編程語言集成了發佈訂閱很多編程語言框架里都提供了發佈訂閱的組件，或者叫事件處理機制，而spring框架對這個功能也有支持，主要使用實現訂閱，使用使用發佈。這種系統集成的我們先叫它“集成組件” 與語言無關的消息隊列事實上，發佈訂閱真的與開發語言沒有什麼關係，所以出現了另一種產品，消息中間件，或 ...
設計模式學習方法

首先會看懂UML UML類圖與類的關係詳解虛線箭頭指向依賴；實線箭頭指向關聯；虛線三角指向介面；實線三角指向父類；空心菱形能分離而獨立存在，是聚合；實心菱形精密關聯不可分，是組合；上面是UML的語法。在畫類圖的時候，理清類和類之間的關係是重點。類的關係有泛化(Generalization)、實現 ...
「玩轉樹莓派」搭建智能家居遠程監控系統

前言前幾天，在食堂吃飯，本來每天中午的新聞三十分換成了視頻監控。我們已經習慣了，前十分鐘看著領導都很忙，中間十分鐘中國人民都很幸福，後十分鐘別的國家都生活在水深火熱里，順便跟同事談談國家大事。突然主角換成了我們自己，便毫無抬頭的欲望。恰巧最近也有在接觸大屏監控的解決方案，於是乎，就索性拿樹莓派實 ...
python書籍推薦：Python數據科學手冊

所屬網站分類: 資源下載 > python電子書作者：today 鏈接：http://www.pythonheidong.com/blog/article/448/ 來源：python黑洞網內容簡介本書是對以數據深度需求為中心的科學、研究以及針對計算和統計方法的參考書。本書共五章，每章介紹一到 ...
C語言----輸入輸出語句（基礎篇二）

今天整理一下自己的基礎篇輸入和輸出的理解，自己沒有研究系統輸入和輸出函數，以後有時間在去深究，之前在別人的博客裡面看到這麼一句話分享給大家，“學習就是一個不斷抄襲，模仿，練習和創新的一個過程”。使用VC2015 1.創建項目，【文件】》【新建】》【項目】 2.項目類型為【Win32控制台應用程式】 ...
python基礎數據類型補充以及編碼進階

01 內容大綱 1. 基礎數據類型的補充 2. 數據類型之間的轉換 3. 編碼的進階 02 具體內容：數據類型的補充： str 元組列表字典數據類型的轉換 int bool str 三者轉換 str list 兩者轉換 list set 兩者轉換 str bytes 兩者轉換所有數據都可以 ...
快速排序c++實現快排C++代碼實現

快速排序c++實現快排C++ 第一、演算法描述快速排序由C. A. R. Hoare在1962年提出，該演算法是目前實踐中使用最頻繁，實用高效的最好排序演算法，快速排序演算法是採用分治思想的演算法，演算法分三個步驟 ...
雜談論實例化類的第六種方式

你知道幾種實例化一個類的方式？ new？反射？還有呢？美麗的分割線筆者總結了一下大概有以下六種方式：（1）通過構造方法實例化一個類；（2）通過Class實例化一個類；（3）通過反射實例化一個類；（4）通過克隆實例化一個類；（5）通過反序列化實例化一個類；（6）通過Unsafe實例化一 ...