01爬取噹噹網500本五星好評書籍

来源:https://www.cnblogs.com/cong12586/archive/2020/07/01/13221481.html
-Advertisement-
Play Games

# import requests,re,json# # 定義一個函數用來請求噹噹網的網頁信息# def request_dangdang(url):# try:# # 使用get請求# response = requests.get(url)# # 判斷返回的狀態碼是否為200# if respo ...


# import requests,re,json
# # 定義一個函數用來請求噹噹網的網頁信息
# def request_dangdang(url):
# try:
# # 使用get請求
# response = requests.get(url)
# # 判斷返回的狀態碼是否為200
# if response.status_code == 200:
# # 返回接受的文本
# return response.text
# # 若訪問出現錯誤,就返回空
# except requests.RequestException:
# return None
# # 定義函數用來解析訪問噹噹網收到的文本文件
# def parse_text(html):
# # 將正則表達式匹配符封裝,以便多次使用
# pattern = re.compile(
# # 用正則表達式解析出網頁上我們需要的書本名稱信息
# '<li>.*?list_num.*?(\d+).</div>.*?<img src="(.*?)".*?class="name".*?title="(.*?)">.*?class="star">.*?class="tuijian">(.*?)</span>.*?class="publisher_info">.*?target="_blank">(.*?)</a>.*?class="biaosheng">.*?<span>(.*?)</span></div>.*?<p><span\sclass="price_n">¥(.*?)</span>.*?</li>',
# re.S
# )
# # 找出所有的書本信息
# results = re.findall(pattern,html)
# for result in results:
# # 用生成器的方式生成數據
# yield{
# "range":results[0],
# "image":results[1],
# "title":results[2],
# "recommend":results[3],
# "author":results[4],
# "times":results[5],
# "price":results[6]
# }
# # 將解析到的數據寫入文件中
# def write_to_file(result):
# print("準備開始,寫入數據 ====>" + str(result))
# with open("book.txt",'a',encoding = "utf-8") as f:
# f.write(json.dumps(result,ensure_ascii=False) + '\n')
# # 主函數
# def main(page):
# url = 'http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-recent30-0-0-1-' + str(page)
# # 獲取噹噹網的頁面
# html = request_dangdang(url)
# print("獲取網頁成功")
# # 解析出我們想要的信息
# results = parse_text(html)
# print("解析信息成功")
# # 然後將信息依次寫入
# for result in results:
# write_to_file(result)
# print("寫入信息成功")
#
# if __name__ == "__main__":
# for index in range(1,26):
# print(index)
# main(index)
import requests
import re
import json


def request_dandan(url):
try:
response = requests.get(url)
if response.status_code == 200:
return response.text
except requests.RequestException:
return None


def parse_result(html):
print("正則表達式")
pattern = re.compile(
# '<li>.*?list_num.*?(\d+).</div>.*?<img src="(.*?)".*?class="name".*?title="(.*?)">.*?class="star">.*?class="tuijian">(.*?)</span>.*?class="publisher_info">.*?target="_blank">(.*?)</a>.*?class="biaosheng">.*?<span>(.*?)</span></div>.*?<p><span>\sclass="price_n">¥(.*?)</span>.*?</li>',
'<li>.*?list_num.*?(\d+).</div>.*?<img src="(.*?)".*?class="name".*?title="(.*?)">.*?class="star">.*?class="tuijian">(.*?)</span>.*?class="publisher_info">.*?target="_blank">(.*?)</a>.*?class="biaosheng">.*?<span>(.*?)</span></div>.*?<p><span class="price_n">.yen;(.*?)</span>.*?</li>',
re.S)
items = re.findall(pattern, html)
for item in items:
yield {
'range': item[0],
'iamge': item[1],
'title': item[2],
'recommend': item[3],
'author': item[4],
'times': item[5],
'price': item[6]
}


def write_item_to_file(item):
print('開始寫入數據 ====> ' + str(item))
with open('book.txt', 'a', encoding='UTF-8') as f:
f.write(json.dumps(item, ensure_ascii=False) + '\n')


def main(page):
url = 'http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-recent30-0-0-1-' + str(page)
html = request_dandan(url)
# print(html)
# print("請求網頁成功")
items = parse_result(html) # 解析過濾我們想要的信息
# print("解析網頁成功")
for item in items:
# print("開始寫入數據")
write_item_to_file(item)


if __name__ == "__main__":
# 迴圈爬取26頁
for i in range(1,26):
main(i)

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 老孟導讀:這是老孟翻譯的付費文章,文章所有權歸原作者所有。 歡迎加入老孟Flutter交流群,每周翻譯2-3篇付費文章,精彩不容錯過。 原文地址:https://medium.com/swlh/flutter-vs-react-native-vs-native-deep-performance-co ...
  • 之前已經介紹了在Ubuntu 16.04上編譯OpenJDK8的源代碼和調試HotSpot源代碼。這一章將介紹HotSpot項目的目錄結構。 HotSpot目錄下主要由agent、make、src和test這4個子目錄構成。其中agent目錄下包含了Serviceability Agent的客戶端實 ...
  • 1 #!/usr/bin/env python 2 # -*- coding: utf-8 -*- 3 4 from tkinter import * 5 import math 6 import threading 7 import time 8 9 10 root = Tk() 11 cv = ...
  • >>> from docx import Document >>> word=Document(r'F:\word練習\qq.docx') >>> for 段落 in word.paragraphs: print(段落.text) 標題一 我是二級標題 今天下午下雨,但是我還是覺得好熱 我是一級標題 ...
  • 在學習C語言的時候,我們常常會碰到C語言NULL值和數字 0 ,很多小伙伴搞不清楚他們之間的一個區別,今天我們就瞭解一下他們之間的區別,一起來看看吧! 先看下麵一段代碼輸出什麼: 輸出<null> ,單步調試可以看出執行int *p=NULL,p的值為0x00000000,可以看出,NULL在實際底 ...
  • springboot 1:自動配置原理 出發: @SpringBootApplication註解:是springboot的核心註解 進入可以得到 可以看到:其具有以下兩個註解 @SpringBootConfiguration //表示這是springboot的一個參數 @EnableAutoConf ...
  • 可視化新建項目 打開可視化面板 vue ui 創建項目 可以保存為預設,下次使用此預設時就不需要再次配置了 創建完成後我們可以看到他的文件結構 vue3初體驗 入口文件在public中,不在根目錄 配置全局變數 根目錄新建vue.config.js // Vue.config.js 配置選項 mod ...
  • 命令行輸入vue ui沒反應 輸入vue -h 查看幫助文檔,看是否有 ui這個使用說明,發現沒有,那就應該是版本太低了 升級腳手架 cnpm i -g @vue/cli 接下來再測試 vue -h 接下來再使用vue ui 看是否能成功打開 vue ui ok 成功打開 本文由博客一文多發平臺 O ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...