視頻下載器你知道吧?那你聽說過文章下載器嗎?Python來實現!

来源:https://www.cnblogs.com/PY08523/archive/2018/09/15/9652153.html
-Advertisement-
Play Games

進群:548377875 即可獲取數十套PDF哦! 工具需求: 輸入:給定公眾號ID,和用戶需要獲取的公眾號文章目錄頁碼數(小於已發佈最大收錄頁數) ( 輸出Ⅰ:每個公眾號歷史文章信息csv文件(鏈接+標題) 輸出Ⅱ: wkhtmltopdf和pdfkit將html轉換成PDF文件或者圖片文件(初稿 ...


視頻下載器你知道吧?那你聽說過文章下載器嗎?Python來實現!

 

進群:548377875  即可獲取數十套PDF哦!

工具需求:

輸入:給定公眾號ID,和用戶需要獲取的公眾號文章目錄頁碼數(小於已發佈最大收錄頁數)

( 輸出Ⅰ:每個公眾號歷史文章信息csv文件(鏈接+標題)

輸出Ⅱ: wkhtmltopdf和pdfkit將html轉換成PDF文件或者圖片文件(初稿)

現有方案

之前在網上也搜索了些爬取微信公眾號的資料,大概有如下幾種

selenium爬取流程

  1. 安裝python selenium自動模塊,通過selenium中的webdriver驅動瀏覽器獲取Cookie登錄微信公眾號後臺;
  2. 使用webdriver功能需要安裝對應瀏覽器的驅動插件
  3. 註意:谷歌瀏覽器版本和chromedriver需要對應,否則會導致啟動時報錯。
  4. 微信公眾號登陸地址:https://mp.weixin.qq.com/
  5. 微信公眾號文章介面地址可以在微信公眾號後臺中新建圖文消息,超鏈接功能中獲取:
  6. 搜索公眾號名稱
  7. 獲取要爬取的公眾號的fakeid
  8. 選定要爬取的公眾號,獲取文章介面地址
  9. 文章列表翻頁及內容獲取

AnyProxy代理批量採集

視頻下載器你知道吧?那你聽說過文章下載器嗎?Python來實現!

 

Fiddler設置代理和抓包

通過對多個賬號進行抓包分析,可以確定:

  • _biz:這個14位的字元串是每個公眾號的“id”,搜狗的微信平臺可以獲得
  • uin:與訪問者有關,微信號id
  • key:和所訪問的公眾號有關

步驟:

1,寫按鍵精靈腳本,在手機上自動點擊公號文章列表頁,也就是“查看歷史消息”;

2,使用fiddler代理劫持手機端的訪問,將網址轉發到本地用php寫的網頁;

3,在php網頁上將接收到的網址備份到資料庫;

4,用python從資料庫取出網址,然後進行正常的爬取。

可能存在的問題:

如果只是想爬取文章內容,似乎並沒有訪問頻率限制,但如果想抓取閱讀數、點贊數,超過一定頻率後,返回就會變為空值。

付費平臺

例如清博 新榜,如果只是想看數據的話,直接看每天的榜單就可以了,還不用花錢,如果需要接入自己的系統的話,他們也提供api介面

3項目步驟

3.1基本原理

目標爬取網站收錄了微信平臺大部分的優質微信公眾號文章,會定期更新,經測試發現對爬蟲較為友好。

1、網站頁面佈局排版規律,不同公眾號通過http://chuansong.me/account/almosthuman2014鏈接中的account區分

2、一個公眾號合集下的文章翻頁也有規律:id號每翻一頁+12

所以流程思路就是

  • 獲取預查詢微信公眾號ID(不是直接顯示的名稱,而是信息名片里的ID號,一般由數字字母組成)
  • 請求html頁面,判斷是否已經收錄改公眾號
  • 如果沒有收錄,則頁面顯示結果為:404該頁面不存在,所以直接使用正則表達式來匹配該提示信息即可
  • 正則匹配,找到目標公眾號最大收錄文章頁數
  • 解析請求頁面,提取文章鏈接和標題文字
  • 保存信息提取的結果
  • 調用pdfkit和wkhtmltopdf轉換網頁
視頻下載器你知道吧?那你聽說過文章下載器嗎?Python來實現!

 

視頻下載器你知道吧?那你聽說過文章下載器嗎?Python來實現!

 

3.5自動跳轉頁面

以下代碼通過迴圈遞增賦值,改變url中的頁碼參數

視頻下載器你知道吧?那你聽說過文章下載器嗎?Python來實現!

 

3.8生成的PDF結果

視頻下載器你知道吧?那你聽說過文章下載器嗎?Python來實現!

 

4結果展示

 

視頻下載器你知道吧?那你聽說過文章下載器嗎?Python來實現!

 

 

視頻下載器你知道吧?那你聽說過文章下載器嗎?Python來實現!

 

 

視頻下載器你知道吧?那你聽說過文章下載器嗎?Python來實現!

 

 

5 完整代碼

由於考慮到轉pdf的穩定性,我在發佈版的代碼中沒有加轉PDF的函數。預留了一個粗糙的py源文件,如果感興趣,讀者可以在此基礎上自行調整修改。

源碼就單獨私信,我一個個給你們發!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Django框架簡介 MVC框架和MTV框架 MVC,全名是Model View Controller,是軟體工程中的一種軟體架構模式,把軟體系統分為三個基本部分:模型(Model)、視圖(View)和控制器(Controller),具有耦合性低、重用性高、生命周期成本低等優點。 Django框架的 ...
  • Spring中三大核心思想之一AOP(面向切麵編程): 在軟體業,AOP為Aspect Oriented Programming的縮寫,意為:面向切麵編程,通過預編譯方式和運行期動態代理實現程式功能的統一維護的一種技術。AOP是OOP的延續,是軟體開發中的一個熱點,也是Spring框架中的一個重要內 ...
  • 總結了一下網上現有的資源,得到了一些東西。隨手做個備忘。 導入 在PyCharm中使用 繪圖 三維繪圖 最終圖像: ...
  • 關於Object類中的方法,根據其所涉及的知識點,分為如下4個部分: 基礎 clone : protected Object clone() throws CloneNotSupportedException equals : public boolean equals​(Object obj) h ...
  • 如果python中的一個類定義了 __call__ 方法,那麼這個類它的實例就可以作為函數調用,也就是實現了 () 運算符,即可調用對象協議 下麵是一個簡單的例子: 在本文中不討論裝飾部分的內容,借用裝飾器來講解一個__call__方法的使用,如果需要將一個類作為裝飾器,那需要為這個類實現__cal ...
  • 把一個數組最開始的若幹個元素搬到數組的末尾,我們稱之為數組的旋轉。 輸入一個非減排序的數組的一個旋轉,輸出旋轉數組的最小元素。 例如數組{3,4,5,1,2}為{1,2,3,4,5}的一個旋轉,該數組的最小值為1。 NOTE:給出的所有元素都大於0,若數組大小為0,請返回0。 1.利用二分法尋找數組... ...
  • redux-framework的相關鏈接 Redux的官方網站:https://reduxframework.com/ Redux文檔查詢:https://docs.reduxframework.com/core/ Github:https://github.com/ReduxFramework/r ...
  • 輸出 C:\Python3.7.0\python3.exe F:/PycharmProjects/python_s3/day13/jichuceshi.py1 植物2 動物>>>11 草本植物2 木本植物3 水生植物>>>>b1 植物2 動物>>>21 兩棲動物2 禽類3 哺乳類動物>>>>2雛雞原 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...