爬取豆瓣Top250圖書數據

-Advertisement-

#爬取豆瓣Top250圖書數據項目的實現步驟 1.項目結構 2.獲取網頁數據 3.提取網頁中的關鍵信息 4.保存數據 **1.項目結構** ![image](https://img2023.cnblogs.com/blog/3047082/202306/3047082-20230613170853 ...

爬取豆瓣Top250圖書數據

項目的實現步驟
1.項目結構
2.獲取網頁數據
3.提取網頁中的關鍵信息
4.保存數據
1.項目結構

2.獲取網頁數據
對應的網址為https://book.douban.com/top250

import requests
from bs4 import BeautifulSoup
"""
獲取網頁數據，解析數據，將相應的數據傳出
"""
def get_page(url):
    headers = {
        'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) '
                     'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 '
                     'Mobile Safari/537.36 Edg/114.0.1823.43'
    }
    resp=requests.get(url,headers=headers)
    soup=BeautifulSoup(resp.text,'html.parser')
    return soup

3.提取網頁中的關鍵信息
獲取傳出的解析後的數據，獲取對應的圖片，書名，作者，價格，評價，簡介

from geturlcocument.get_document import get_page
import re
# 初始數據
pictures=[]
names=[]
authors=[]
prices=[]
scores=[]
sums=[]
def get_single():
    # 網址地址
    urls = [f"https://book.douban.com/top250?start={num}" for num in range(0,250,25)]
    for url in urls:
        # 獲取對應的網頁文本
        text = get_page.get_page(url)
        # 所有數據的集合
        all_tr = text.find_all(name="tr", attrs={"class": "item"})
        # 查找每個單項
        for tr in all_tr:
            # 數據類型：圖片，書名，作者，價格，評分，簡介
            # 圖片
            picture = tr.find(name="img")
            picture = picture.get('src')
            # print(picture)
            # 書名
            div = tr.find(name='div', attrs={'class': 'pl2'})
            name = div.find('a').text
            name = re.sub(r'\s+', '', name)
            # 作者
            author = tr.find(name='p', attrs={'class': 'pl'}).text
            author = author.split('/')[0]
            # 價格
            price = author.split('/')[-1]
            price = re.sub(r'元', '', price)
            # 評分
            score = tr.find(name='span', attrs={'class': 'rating_nums'}).text
            try:
                sum = tr.find(name='span', attrs={'class': 'inq'}).text
            except AttributeError:
                sum = ''
            pictures.append(picture)
            names.append(name)
            authors.append(author)
            prices.append(price)
            scores.append(score)
            sums.append(sum)
    data = {
        "picture": pictures,
        "name": names,
        "author": authors,
        "price": prices,
        "score": scores,
        "sum": sums
    }
    return data

將獲取的數據存入到字典中，將數據傳出，使用re庫對相應的數據進行處理，運用異常檢錯
4.保存數據
獲取傳出的字典類型的數據，將數據存入到pandas的DataFrame類型中

from geturlcocument.get_single_docuemnt import get_single
import pandas as pd
# 獲取字典類型的數據
data=get_single.get_single()
# 用pandas的DataFrame類型存儲數據
df=pd.DataFrame(data)
df.to_csv('./books.csv',encoding='utf-8')
print('ending of data')

該項目完成！！！

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

OpenFoam——自定義求解器

## 1、求解器 ### 1.1 複製源碼本案例以icoFoam為例，複製【openFOAM/OpenFOAM-9/applications/solvers/incompressible/icoFoam】文件夾至run文件夾下（我的是【openFOAM/mtl-9/run/solvers/inco ...
C++面試八股文：什麼是RAII？

某日二師兄參加XXX科技公司的C++工程師開發崗位第13面： > 面試官：什麼是`RAII`？ > > 二師兄：`RAII`是`Resource Acquisition Is Initialization`的縮寫。翻譯成中文是資源獲取即初始化。 > > 面試官：`RAII`有什麼特點和優勢？ > > ...
SpringBoot啟動類@SpringBootApplication註解

在springBoot的啟動類中，提供了一個mai函數的程式入口，來啟動載入SpringBoot程式，那麼註解@SpringBootApplication，通過源碼可以看到，它相當於@ComponentScan + @EnableAutoConfiguration + @SpringBootConf ...
現代C++學習指南-方向篇

C++是一門有著四十年曆史的語言，先後經歷過四次版本大升級（誕生、98、11、17（20），14算小升級）。每次升級都是很多問題和解決方案的取捨。瞭解這些歷史，能更好地幫助我們理清語言的發展脈絡。所以接下來我將借它的發展歷程，談一談我對它的理解，最後給出我認為比較合理的學習路線指南。 ### C++ ...
celery筆記三之task和task的調用

> 本文首發於公眾號：Hunter後端 > 原文鏈接：[celery筆記三之task和task的調用](https://mp.weixin.qq.com/s/AIobDZVDWV3r_XauvmkVKA) 這一篇筆記介紹 task 和 task 的調用。以下是本篇筆記目錄： 1. 基礎的 task ...
現代C++學習指南-類型系統

> 在前一篇，我們提供了一個方向性的指南，但是學什麼，怎麼學卻沒有詳細展開。本篇將在前文的基礎上，著重介紹下怎樣學習C++的類型系統。 ### 寫在前面在進入類型系統之前，我們應該先達成一項共識——儘可能使用C++的現代語法。眾所周知，出於相容性的考慮，C++中很多語法都是合法的。但是隨著新版本的 ...
【解決一個小問題】golang 的 `-race`選項導致 unsafe代碼 panic

**作者:張富春(ahfuzhang)，轉載時請註明作者和引用鏈接，謝謝！** * [cnblogs博客](https://www.cnblogs.com/ahfuzhang/) * [zhihu](https://www.zhihu.com/people/ahfuzhang/posts) * [G ...
Java流程式控制制——the next day

如何在混沌演練的場景中降低應用的MTTR，必須需要根據監控定位，然後人工進行反饋進行處理嗎？是否可以自動化，是否有方案可以降低混沌演練過程中的影響？以此達到快速止血，進一步提高系統的穩定性。本篇文章將根據一些思考和實踐來解答以上問題。 ...