python爬蟲爬取博客園

来源:https://www.cnblogs.com/lovy-ivy/archive/2022/08/09/16551416.html
-Advertisement-
Play Games

python 爬取 博客園 接 螞蟻學pythonP5生產者消費者爬蟲數據重覆問題 先看訪問地址 訪問地址是https://www.cnblogs.com/#p2 但是實際訪問地址是https://www.cnblogs.com 說明其中存在貓膩;像這種我們給定指定頁碼,按理應該是 post 請求才 ...


python 爬取 博客園 接 螞蟻學pythonP5生產者消費者爬蟲數據重覆問題

  • 先看訪問地址
    image

    • 訪問地址是https://www.cnblogs.com/#p2 但是實際訪問地址是https://www.cnblogs.com 說明其中存在貓膩;像這種我們給定指定頁碼,按理應該是 post 請求才對;於是乎 往下看了幾個連接
      image

    • 然後再看一下payload 發現這個post 請求 才是我們想要的鏈接 其中PageIndex 就是我們要設置的頁數
      image

  • 代碼擼起來

    # Author: Lovyya
    # File : blog_spider
    import requests
    import json
    from bs4 import BeautifulSoup
    import re
    # 這個是為和老師的urls一致性 匹配urls裡面的數字
    rule = re.compile("\d+")
    
    urls = [f'https://www.cnblogs.com/#p{page}' for page in range(1, 31)]
    
    # pos請求網址
    url = "https://www.cnblogs.com/AggSite/AggSitePostList"
    headers = {
    	"content-type": "application/json",
    	"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36 Edg/95.0.1020.30"
    }
    
    def craw(urls):
    	#idx 是'xxx.xxxx.xxx/#p{num}' 裡面的num 這樣寫可以不用改 後面生產者消費者的代碼 
    	idx = rule.findall(urls)[0]
    	# payload參數 只需要更改 idx 就行
    	payload = {
    		"CategoryType": "SiteHome", 
    		"ParentCategoryId": 0, 
    		"CategoryId": 808, 
    		"PageIndex": idx,
    		"TotalPostCount": 4000, 
    		"ItemListActionName": "AggSitePostList"
    	}
    	r = requests.post(url, data=json.dumps(payload), headers=headers)
    	return r.text
    
    def parse(html):
    	# post-item-title
    	soup = BeautifulSoup(html, "html.parser")
    	links = soup.find_all("a", class_="post-item-title")
    	return [(link["href"], link.get_text()) for link in links]
    
    if __name__ == '__main__':
    	for res in parse(craw(urls[2])):
    		print(res)

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 計算屬性(computed) date屬性和computed屬性定義的值都可以直接綁定在表達式中,如果某些值需要通過計算才能得到,那使用計算屬性就再合適不過了 如果頁面中需要顯示的值是兩個表達式計算才能得到,並且還有一些比較複雜的邏輯關係,我們寫在頁面上就不太合適了 如果我們直接在頁面上是這樣的: ...
  • 在之前我們已經使用用 / 來進行計算,但如下情況不一樣 例如 p{ font: 16px/30px Arial, Helvetica, sans-serif; } 如果需要使用變數,同時又要確保 / 不做除法運算,而是完整地編譯到 CSS 文件中,這種情況怎麼辦???可以使用 #{} 插值語句將變數 ...
  • ElementUI table無縫迴圈滾動 恰好實習的時候遇到了這個需求,而且網上的代碼有點僵硬,所以我改了改,順手水一篇博客出來。 部分思路來源:https://blog.csdn.net/qq_38543537/article/details/122842943 但是來源的代碼,在滾動到底部時會 ...
  • 我們在開發中,會自定義大量的組件,我們應該如何在兩個組件之間進行“值”的傳遞呢? 父子組件傳值 我們使用上一文中App.vue和HelloComp.vue組件來舉例 首先我們還是需要在APP.vue中引入HelloComp.vue <template> <div id="app"> <hello-c ...
  • 前言 前端在開發過程中若是管理系統之類的業務系統,則大多都會涉及到表格的處理,其中最為常見的就是表格的導入導出。有很多辦法都可以實現,其中最簡單的還是使用插件xlsx。 實現目標 1、對錶格數據進行增加、刪除。 2、表格數據的導出、導入。 具體邏輯 增加、刪除功能比較簡單,直接利用vue數據的響應式 ...
  • 粒子動畫,顧名思義,就是頁面上存在大量的粒子構建而成的動畫。傳統的粒子動畫主要由 Canvas、WebGL 實現。 當然,不使用 HTML + CSS 的主要原因在於,粒子動畫通常需要較多的粒子,而如果使用 HTML + CSS 的話勢必需要過多的 DOM 元素,這也就導致了使用 HTML + CS ...
  • “基於介面而非實現編程”是一條比較抽象、泛化的設計思想,其的另一個表述是“基於抽象而非實現編程”。從這條設計思想中衍生的理解就是,越抽象、越頂層、越脫離具體某一實現的設計,越能提高代碼的靈活性,越能應對未來的需求變化。 ...
  • 一、 設計思維 的概念和發展背景 設計思維是一種以用戶為中心,為產品或服務的目標用戶解決定義不明確或未知問題的思維方式。自從認知科學家和諾貝爾獎獲得者 Herbert A. Simon 在他1969年的著作《人工科學》中首次提到設計思維的概念之後,世界在不斷發展的過程中為其原理貢獻了許多想法——史蒂 ...
一周排行
    -Advertisement-
    Play Games
  • GoF之工廠模式 @目錄GoF之工廠模式每博一文案1. 簡單說明“23種設計模式”1.2 介紹工廠模式的三種形態1.3 簡單工廠模式(靜態工廠模式)1.3.1 簡單工廠模式的優缺點:1.4 工廠方法模式1.4.1 工廠方法模式的優缺點:1.5 抽象工廠模式1.6 抽象工廠模式的優缺點:2. 總結:3 ...
  • 新改進提供的Taurus Rpc 功能,可以簡化微服務間的調用,同時可以不用再手動輸出模塊名稱,或調用路徑,包括負載均衡,這一切,由框架實現並提供了。新的Taurus Rpc 功能,將使得服務間的調用,更加輕鬆、簡約、高效。 ...
  • 本章將和大家分享ES的數據同步方案和ES集群相關知識。廢話不多說,下麵我們直接進入主題。 一、ES數據同步 1、數據同步問題 Elasticsearch中的酒店數據來自於mysql資料庫,因此mysql數據發生改變時,Elasticsearch也必須跟著改變,這個就是Elasticsearch與my ...
  • 引言 在我們之前的文章中介紹過使用Bogus生成模擬測試數據,今天來講解一下功能更加強大自動生成測試數據的工具的庫"AutoFixture"。 什麼是AutoFixture? AutoFixture 是一個針對 .NET 的開源庫,旨在最大程度地減少單元測試中的“安排(Arrange)”階段,以提高 ...
  • 經過前面幾個部分學習,相信學過的同學已經能夠掌握 .NET Emit 這種中間語言,並能使得它來編寫一些應用,以提高程式的性能。隨著 IL 指令篇的結束,本系列也已經接近尾聲,在這接近結束的最後,會提供幾個可供直接使用的示例,以供大伙分析或使用在項目中。 ...
  • 當從不同來源導入Excel數據時,可能存在重覆的記錄。為了確保數據的準確性,通常需要刪除這些重覆的行。手動查找並刪除可能會非常耗費時間,而通過編程腳本則可以實現在短時間內處理大量數據。本文將提供一個使用C# 快速查找並刪除Excel重覆項的免費解決方案。 以下是實現步驟: 1. 首先安裝免費.NET ...
  • C++ 異常處理 C++ 異常處理機制允許程式在運行時處理錯誤或意外情況。它提供了捕獲和處理錯誤的一種結構化方式,使程式更加健壯和可靠。 異常處理的基本概念: 異常: 程式在運行時發生的錯誤或意外情況。 拋出異常: 使用 throw 關鍵字將異常傳遞給調用堆棧。 捕獲異常: 使用 try-catch ...
  • 優秀且經驗豐富的Java開發人員的特征之一是對API的廣泛瞭解,包括JDK和第三方庫。 我花了很多時間來學習API,尤其是在閱讀了Effective Java 3rd Edition之後 ,Joshua Bloch建議在Java 3rd Edition中使用現有的API進行開發,而不是為常見的東西編 ...
  • 框架 · 使用laravel框架,原因:tp的框架路由和orm沒有laravel好用 · 使用強制路由,方便介面多時,分多版本,分文件夾等操作 介面 · 介面開發註意欄位類型,欄位是int,查詢成功失敗都要返回int(對接java等強類型語言方便) · 查詢介面用GET、其他用POST 代碼 · 所 ...
  • 正文 下午找企業的人去鎮上做貸後。 車上聽同事跟那個司機對罵,火星子都快出來了。司機跟那同事更熟一些,連我在內一共就三個人,同事那一手指桑罵槐給我都聽愣了。司機也是老社會人了,馬上聽出來了,為那個無辜的企業經辦人辯護,實際上是為自己辯護。 “這個事情你不能怪企業。”“但他們總不能讓銀行的人全權負責, ...