python爬蟲爬取博客園_ZenDei技術網路在線

python爬蟲爬取博客園

-Advertisement-

python 爬取博客園接螞蟻學pythonP5生產者消費者爬蟲數據重覆問題先看訪問地址訪問地址是https://www.cnblogs.com/#p2 但是實際訪問地址是https://www.cnblogs.com 說明其中存在貓膩；像這種我們給定指定頁碼，按理應該是 post 請求才 ...

python 爬取博客園接螞蟻學pythonP5生產者消費者爬蟲數據重覆問題

先看訪問地址
- 訪問地址是https://www.cnblogs.com/#p2 但是實際訪問地址是https://www.cnblogs.com 說明其中存在貓膩；像這種我們給定指定頁碼，按理應該是 post 請求才對；於是乎往下看了幾個連接
- 然後再看一下payload 發現這個post 請求才是我們想要的鏈接其中PageIndex 就是我們要設置的頁數

代碼擼起來

# Author: Lovyya
# File : blog_spider
import requests
import json
from bs4 import BeautifulSoup
import re
# 這個是為和老師的urls一致性 匹配urls裡面的數字
rule = re.compile("\d+")

urls = [f'https://www.cnblogs.com/#p{page}' for page in range(1, 31)]

# pos請求網址
url = "https://www.cnblogs.com/AggSite/AggSitePostList"
headers = {
	"content-type": "application/json",
	"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36 Edg/95.0.1020.30"
}

def craw(urls):
	#idx 是'xxx.xxxx.xxx/#p{num}' 裡面的num 這樣寫可以不用改 後面生產者消費者的代碼 
	idx = rule.findall(urls)[0]
	# payload參數 只需要更改 idx 就行
	payload = {
		"CategoryType": "SiteHome", 
		"ParentCategoryId": 0, 
		"CategoryId": 808, 
		"PageIndex": idx,
		"TotalPostCount": 4000, 
		"ItemListActionName": "AggSitePostList"
	}
	r = requests.post(url, data=json.dumps(payload), headers=headers)
	return r.text

def parse(html):
	# post-item-title
	soup = BeautifulSoup(html, "html.parser")
	links = soup.find_all("a", class_="post-item-title")
	return [(link["href"], link.get_text()) for link in links]

if __name__ == '__main__':
	for res in parse(craw(urls[2])):
		print(res)

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Vue計算屬性和監聽器

計算屬性（computed） date屬性和computed屬性定義的值都可以直接綁定在表達式中，如果某些值需要通過計算才能得到，那使用計算屬性就再合適不過了如果頁面中需要顯示的值是兩個表達式計算才能得到，並且還有一些比較複雜的邏輯關係，我們寫在頁面上就不太合適了如果我們直接在頁面上是這樣的： ...
SASS 插值語句 #{ }的使用

在之前我們已經使用用 / 來進行計算，但如下情況不一樣例如 p{ font: 16px/30px Arial, Helvetica, sans-serif; } 如果需要使用變數，同時又要確保 / 不做除法運算，而是完整地編譯到 CSS 文件中，這種情況怎麼辦？？？可以使用 #{} 插值語句將變數 ...
ElementUI table無縫迴圈滾動

ElementUI table無縫迴圈滾動恰好實習的時候遇到了這個需求，而且網上的代碼有點僵硬，所以我改了改，順手水一篇博客出來。部分思路來源：https://blog.csdn.net/qq_38543537/article/details/122842943 但是來源的代碼，在滾動到底部時會 ...
Vue組件傳值(父組件使用屬性傳遞給子組件、子組件通過自定義事件傳遞給父組件、同級組件通過共用狀態)

我們在開發中，會自定義大量的組件，我們應該如何在兩個組件之間進行“值”的傳遞呢？父子組件傳值我們使用上一文中App.vue和HelloComp.vue組件來舉例首先我們還是需要在APP.vue中引入HelloComp.vue <template> <div id="app"> <hello-c ...
vue+xlsx實現表格的導入導出

前言前端在開發過程中若是管理系統之類的業務系統，則大多都會涉及到表格的處理，其中最為常見的就是表格的導入導出。有很多辦法都可以實現，其中最簡單的還是使用插件xlsx。實現目標 1、對錶格數據進行增加、刪除。 2、表格數據的導出、導入。具體邏輯增加、刪除功能比較簡單，直接利用vue數據的響應式 ...
使用 CSS 構建強大且酷炫的粒子動畫

粒子動畫，顧名思義，就是頁面上存在大量的粒子構建而成的動畫。傳統的粒子動畫主要由 Canvas、WebGL 實現。當然，不使用 HTML + CSS 的主要原因在於，粒子動畫通常需要較多的粒子，而如果使用 HTML + CSS 的話勢必需要過多的 DOM 元素，這也就導致了使用 HTML + CS ...
基於介面而非實現編程

“基於介面而非實現編程”是一條比較抽象、泛化的設計思想，其的另一個表述是“基於抽象而非實現編程”。從這條設計思想中衍生的理解就是，越抽象、越頂層、越脫離具體某一實現的設計，越能提高代碼的靈活性，越能應對未來的需求變化。 ...
5步詳解如何運用設計思維

一、設計思維的概念和發展背景設計思維是一種以用戶為中心，為產品或服務的目標用戶解決定義不明確或未知問題的思維方式。自從認知科學家和諾貝爾獎獲得者 Herbert A. Simon 在他1969年的著作《人工科學》中首次提到設計思維的概念之後，世界在不斷發展的過程中為其原理貢獻了許多想法——史蒂 ...

python爬蟲爬取博客園

python 爬取 博客園 接 螞蟻學pythonP5生產者消費者爬蟲數據重覆問題

python 爬取博客園接螞蟻學pythonP5生產者消費者爬蟲數據重覆問題