01爬取噹噹網500本五星好評書籍

-Advertisement-

# import requests,re,json# # 定義一個函數用來請求噹噹網的網頁信息# def request_dangdang(url):# try:# # 使用get請求# response = requests.get(url)# # 判斷返回的狀態碼是否為200# if respo ...

# import requests,re,json
# # 定義一個函數用來請求噹噹網的網頁信息
# def request_dangdang(url):
#     try:
#         # 使用get請求
#         response = requests.get(url)
#         # 判斷返回的狀態碼是否為200
#         if response.status_code == 200:
#             # 返回接受的文本
#             return response.text
#     # 若訪問出現錯誤，就返回空
#     except requests.RequestException:
#         return None
# # 定義函數用來解析訪問噹噹網收到的文本文件
# def parse_text(html):
#     # 將正則表達式匹配符封裝，以便多次使用
#     pattern = re.compile(
#         # 用正則表達式解析出網頁上我們需要的書本名稱信息
#         '<li>.*?list_num.*?(\d+).</div>.*?<img src="(.*?)".*?class="name".*?title="(.*?)">.*?class="star">.*?class="tuijian">(.*?)</span>.*?class="publisher_info">.*?target="_blank">(.*?)</a>.*?class="biaosheng">.*?<span>(.*?)</span></div>.*?<p><span\sclass="price_n">¥(.*?)</span>.*?</li>',
#         re.S
#     )
#     # 找出所有的書本信息
#     results = re.findall(pattern,html)
#     for result in results:
#         # 用生成器的方式生成數據
#         yield{
#             "range":results[0],
#             "image":results[1],
#             "title":results[2],
#             "recommend":results[3],
#             "author":results[4],
#             "times":results[5],
#             "price":results[6]
#         }
# # 將解析到的數據寫入文件中
# def write_to_file(result):
#     print("準備開始，寫入數據  ====>" + str(result))
#     with open("book.txt",'a',encoding = "utf-8") as f:
#         f.write(json.dumps(result,ensure_ascii=False) + '\n')
# # 主函數
# def main(page):
#     url = 'http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-recent30-0-0-1-' + str(page)
#     # 獲取噹噹網的頁面
#     html = request_dangdang(url)
#     print("獲取網頁成功")
#     # 解析出我們想要的信息
#     results = parse_text(html)
#     print("解析信息成功")
#     # 然後將信息依次寫入
#     for result in results:
#         write_to_file(result)
#     print("寫入信息成功")
#
# if __name__ == "__main__":
#     for index in range(1,26):
#         print(index)
#         main(index)
import requests
import re
import json


def request_dandan(url):
    try:
        response = requests.get(url)
        if response.status_code == 200:
            return response.text
    except requests.RequestException:
        return None


def parse_result(html):
    print("正則表達式")
    pattern = re.compile(
        # '<li>.*?list_num.*?(\d+).</div>.*?<img src="(.*?)".*?class="name".*?title="(.*?)">.*?class="star">.*?class="tuijian">(.*?)</span>.*?class="publisher_info">.*?target="_blank">(.*?)</a>.*?class="biaosheng">.*?<span>(.*?)</span></div>.*?<p><span>\sclass="price_n">¥(.*?)</span>.*?</li>',
        '<li>.*?list_num.*?(\d+).</div>.*?<img src="(.*?)".*?class="name".*?title="(.*?)">.*?class="star">.*?class="tuijian">(.*?)</span>.*?class="publisher_info">.*?target="_blank">(.*?)</a>.*?class="biaosheng">.*?<span>(.*?)</span></div>.*?<p><span class="price_n">.yen;(.*?)</span>.*?</li>',
        re.S)
    items = re.findall(pattern, html)
    for item in items:
        yield {
            'range': item[0],
            'iamge': item[1],
            'title': item[2],
            'recommend': item[3],
            'author': item[4],
            'times': item[5],
            'price': item[6]
        }


def write_item_to_file(item):
    print('開始寫入數據 ====> ' + str(item))
    with open('book.txt', 'a', encoding='UTF-8') as f:
        f.write(json.dumps(item, ensure_ascii=False) + '\n')


def main(page):
    url = 'http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-recent30-0-0-1-' + str(page)
    html = request_dandan(url)
    # print(html)
    # print("請求網頁成功")
    items = parse_result(html)  # 解析過濾我們想要的信息
    # print("解析網頁成功")
    for item in items:
        # print("開始寫入數據")
        write_item_to_file(item)


if __name__ == "__main__":
    # 迴圈爬取26頁
    for i in range(1,26):
        main(i)

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Flutter vs React Native vs Native：深度性能比較

老孟導讀：這是老孟翻譯的付費文章，文章所有權歸原作者所有。歡迎加入老孟Flutter交流群，每周翻譯2-3篇付費文章，精彩不容錯過。原文地址：https://medium.com/swlh/flutter-vs-react-native-vs-native-deep-performance-co ...
HotSpot項目結構

之前已經介紹了在Ubuntu 16.04上編譯OpenJDK8的源代碼和調試HotSpot源代碼。這一章將介紹HotSpot項目的目錄結構。 HotSpot目錄下主要由agent、make、src和test這4個子目錄構成。其中agent目錄下包含了Serviceability Agent的客戶端實 ...
Python-使用tkinter canvas繪製的電子時鐘

1 #!/usr/bin/env python 2 # -*- coding: utf-8 -*- 3 4 from tkinter import * 5 import math 6 import threading 7 import time 8 9 10 root = Tk() 11 cv = ...
獲取標題和內容

>>> from docx import Document >>> word=Document(r'F:\word練習\qq.docx') >>> for 段落 in word.paragraphs: print(段落.text) 標題一我是二級標題今天下午下雨，但是我還是覺得好熱我是一級標題 ...
C/C++編程筆記：C語言NULL值和數字 0 值區別及NULL詳解

在學習C語言的時候，我們常常會碰到C語言NULL值和數字 0 ，很多小伙伴搞不清楚他們之間的一個區別，今天我們就瞭解一下他們之間的區別，一起來看看吧！先看下麵一段代碼輸出什麼：輸出<null> ,單步調試可以看出執行int *p=NULL,p的值為0x00000000,可以看出，NULL在實際底 ...
springboot-01-自動裝配

springboot 1：自動配置原理出發： @SpringBootApplication註解：是springboot的核心註解進入可以得到可以看到：其具有以下兩個註解 @SpringBootConfiguration //表示這是springboot的一個參數 @EnableAutoConf ...
vue+elementUI項目實戰1

可視化新建項目打開可視化面板 vue ui 創建項目可以保存為預設,下次使用此預設時就不需要再次配置了創建完成後我們可以看到他的文件結構 vue3初體驗入口文件在public中,不在根目錄配置全局變數根目錄新建vue.config.js // Vue.config.js 配置選項 mod ...
win命令行輸入vue ui沒反應

命令行輸入vue ui沒反應輸入vue -h 查看幫助文檔,看是否有 ui這個使用說明,發現沒有,那就應該是版本太低了升級腳手架 cnpm i -g @vue/cli 接下來再測試 vue -h 接下來再使用vue ui 看是否能成功打開 vue ui ok 成功打開本文由博客一文多發平臺 O ...