01爬取噹噹網500本五星好評書籍

来源:https://www.cnblogs.com/cong12586/archive/2020/07/01/13221481.html
-Advertisement-
Play Games

# import requests,re,json# # 定義一個函數用來請求噹噹網的網頁信息# def request_dangdang(url):# try:# # 使用get請求# response = requests.get(url)# # 判斷返回的狀態碼是否為200# if respo ...


# import requests,re,json
# # 定義一個函數用來請求噹噹網的網頁信息
# def request_dangdang(url):
# try:
# # 使用get請求
# response = requests.get(url)
# # 判斷返回的狀態碼是否為200
# if response.status_code == 200:
# # 返回接受的文本
# return response.text
# # 若訪問出現錯誤,就返回空
# except requests.RequestException:
# return None
# # 定義函數用來解析訪問噹噹網收到的文本文件
# def parse_text(html):
# # 將正則表達式匹配符封裝,以便多次使用
# pattern = re.compile(
# # 用正則表達式解析出網頁上我們需要的書本名稱信息
# '<li>.*?list_num.*?(\d+).</div>.*?<img src="(.*?)".*?class="name".*?title="(.*?)">.*?class="star">.*?class="tuijian">(.*?)</span>.*?class="publisher_info">.*?target="_blank">(.*?)</a>.*?class="biaosheng">.*?<span>(.*?)</span></div>.*?<p><span\sclass="price_n">¥(.*?)</span>.*?</li>',
# re.S
# )
# # 找出所有的書本信息
# results = re.findall(pattern,html)
# for result in results:
# # 用生成器的方式生成數據
# yield{
# "range":results[0],
# "image":results[1],
# "title":results[2],
# "recommend":results[3],
# "author":results[4],
# "times":results[5],
# "price":results[6]
# }
# # 將解析到的數據寫入文件中
# def write_to_file(result):
# print("準備開始,寫入數據 ====>" + str(result))
# with open("book.txt",'a',encoding = "utf-8") as f:
# f.write(json.dumps(result,ensure_ascii=False) + '\n')
# # 主函數
# def main(page):
# url = 'http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-recent30-0-0-1-' + str(page)
# # 獲取噹噹網的頁面
# html = request_dangdang(url)
# print("獲取網頁成功")
# # 解析出我們想要的信息
# results = parse_text(html)
# print("解析信息成功")
# # 然後將信息依次寫入
# for result in results:
# write_to_file(result)
# print("寫入信息成功")
#
# if __name__ == "__main__":
# for index in range(1,26):
# print(index)
# main(index)
import requests
import re
import json


def request_dandan(url):
try:
response = requests.get(url)
if response.status_code == 200:
return response.text
except requests.RequestException:
return None


def parse_result(html):
print("正則表達式")
pattern = re.compile(
# '<li>.*?list_num.*?(\d+).</div>.*?<img src="(.*?)".*?class="name".*?title="(.*?)">.*?class="star">.*?class="tuijian">(.*?)</span>.*?class="publisher_info">.*?target="_blank">(.*?)</a>.*?class="biaosheng">.*?<span>(.*?)</span></div>.*?<p><span>\sclass="price_n">¥(.*?)</span>.*?</li>',
'<li>.*?list_num.*?(\d+).</div>.*?<img src="(.*?)".*?class="name".*?title="(.*?)">.*?class="star">.*?class="tuijian">(.*?)</span>.*?class="publisher_info">.*?target="_blank">(.*?)</a>.*?class="biaosheng">.*?<span>(.*?)</span></div>.*?<p><span class="price_n">.yen;(.*?)</span>.*?</li>',
re.S)
items = re.findall(pattern, html)
for item in items:
yield {
'range': item[0],
'iamge': item[1],
'title': item[2],
'recommend': item[3],
'author': item[4],
'times': item[5],
'price': item[6]
}


def write_item_to_file(item):
print('開始寫入數據 ====> ' + str(item))
with open('book.txt', 'a', encoding='UTF-8') as f:
f.write(json.dumps(item, ensure_ascii=False) + '\n')


def main(page):
url = 'http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-recent30-0-0-1-' + str(page)
html = request_dandan(url)
# print(html)
# print("請求網頁成功")
items = parse_result(html) # 解析過濾我們想要的信息
# print("解析網頁成功")
for item in items:
# print("開始寫入數據")
write_item_to_file(item)


if __name__ == "__main__":
# 迴圈爬取26頁
for i in range(1,26):
main(i)

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 老孟導讀:這是老孟翻譯的付費文章,文章所有權歸原作者所有。 歡迎加入老孟Flutter交流群,每周翻譯2-3篇付費文章,精彩不容錯過。 原文地址:https://medium.com/swlh/flutter-vs-react-native-vs-native-deep-performance-co ...
  • 之前已經介紹了在Ubuntu 16.04上編譯OpenJDK8的源代碼和調試HotSpot源代碼。這一章將介紹HotSpot項目的目錄結構。 HotSpot目錄下主要由agent、make、src和test這4個子目錄構成。其中agent目錄下包含了Serviceability Agent的客戶端實 ...
  • 1 #!/usr/bin/env python 2 # -*- coding: utf-8 -*- 3 4 from tkinter import * 5 import math 6 import threading 7 import time 8 9 10 root = Tk() 11 cv = ...
  • >>> from docx import Document >>> word=Document(r'F:\word練習\qq.docx') >>> for 段落 in word.paragraphs: print(段落.text) 標題一 我是二級標題 今天下午下雨,但是我還是覺得好熱 我是一級標題 ...
  • 在學習C語言的時候,我們常常會碰到C語言NULL值和數字 0 ,很多小伙伴搞不清楚他們之間的一個區別,今天我們就瞭解一下他們之間的區別,一起來看看吧! 先看下麵一段代碼輸出什麼: 輸出<null> ,單步調試可以看出執行int *p=NULL,p的值為0x00000000,可以看出,NULL在實際底 ...
  • springboot 1:自動配置原理 出發: @SpringBootApplication註解:是springboot的核心註解 進入可以得到 可以看到:其具有以下兩個註解 @SpringBootConfiguration //表示這是springboot的一個參數 @EnableAutoConf ...
  • 可視化新建項目 打開可視化面板 vue ui 創建項目 可以保存為預設,下次使用此預設時就不需要再次配置了 創建完成後我們可以看到他的文件結構 vue3初體驗 入口文件在public中,不在根目錄 配置全局變數 根目錄新建vue.config.js // Vue.config.js 配置選項 mod ...
  • 命令行輸入vue ui沒反應 輸入vue -h 查看幫助文檔,看是否有 ui這個使用說明,發現沒有,那就應該是版本太低了 升級腳手架 cnpm i -g @vue/cli 接下來再測試 vue -h 接下來再使用vue ui 看是否能成功打開 vue ui ok 成功打開 本文由博客一文多發平臺 O ...
一周排行
    -Advertisement-
    Play Games
  • 前言 在我們開發過程中基本上不可或缺的用到一些敏感機密數據,比如SQL伺服器的連接串或者是OAuth2的Secret等,這些敏感數據在代碼中是不太安全的,我們不應該在源代碼中存儲密碼和其他的敏感數據,一種推薦的方式是通過Asp.Net Core的機密管理器。 機密管理器 在 ASP.NET Core ...
  • 新改進提供的Taurus Rpc 功能,可以簡化微服務間的調用,同時可以不用再手動輸出模塊名稱,或調用路徑,包括負載均衡,這一切,由框架實現並提供了。新的Taurus Rpc 功能,將使得服務間的調用,更加輕鬆、簡約、高效。 ...
  • 順序棧的介面程式 目錄順序棧的介面程式頭文件創建順序棧入棧出棧利用棧將10進位轉16進位數驗證 頭文件 #include <stdio.h> #include <stdbool.h> #include <stdlib.h> 創建順序棧 // 指的是順序棧中的元素的數據類型,用戶可以根據需要進行修改 ...
  • 前言 整理這個官方翻譯的系列,原因是網上大部分的 tomcat 版本比較舊,此版本為 v11 最新的版本。 開源項目 從零手寫實現 tomcat minicat 別稱【嗅虎】心有猛虎,輕嗅薔薇。 系列文章 web server apache tomcat11-01-官方文檔入門介紹 web serv ...
  • C總結與剖析:關鍵字篇 -- <<C語言深度解剖>> 目錄C總結與剖析:關鍵字篇 -- <<C語言深度解剖>>程式的本質:二進位文件變數1.變數:記憶體上的某個位置開闢的空間2.變數的初始化3.為什麼要有變數4.局部變數與全局變數5.變數的大小由類型決定6.任何一個變數,記憶體賦值都是從低地址開始往高地 ...
  • 如果讓你來做一個有狀態流式應用的故障恢復,你會如何來做呢? 單機和多機會遇到什麼不同的問題? Flink Checkpoint 是做什麼用的?原理是什麼? ...
  • C++ 多級繼承 多級繼承是一種面向對象編程(OOP)特性,允許一個類從多個基類繼承屬性和方法。它使代碼更易於組織和維護,並促進代碼重用。 多級繼承的語法 在 C++ 中,使用 : 符號來指定繼承關係。多級繼承的語法如下: class DerivedClass : public BaseClass1 ...
  • 前言 什麼是SpringCloud? Spring Cloud 是一系列框架的有序集合,它利用 Spring Boot 的開發便利性簡化了分散式系統的開發,比如服務註冊、服務發現、網關、路由、鏈路追蹤等。Spring Cloud 並不是重覆造輪子,而是將市面上開發得比較好的模塊集成進去,進行封裝,從 ...
  • class_template 類模板和函數模板的定義和使用類似,我們已經進行了介紹。有時,有兩個或多個類,其功能是相同的,僅僅是數據類型不同。類模板用於實現類所需數據的類型參數化 template<class NameType, class AgeType> class Person { publi ...
  • 目錄system v IPC簡介共用記憶體需要用到的函數介面shmget函數--獲取對象IDshmat函數--獲得映射空間shmctl函數--釋放資源共用記憶體實現思路註意 system v IPC簡介 消息隊列、共用記憶體和信號量統稱為system v IPC(進程間通信機制),V是羅馬數字5,是UNI ...