視頻下載器你知道吧?那你聽說過文章下載器嗎?Python來實現!

来源:https://www.cnblogs.com/PY08523/archive/2018/09/15/9652153.html
-Advertisement-
Play Games

進群:548377875 即可獲取數十套PDF哦! 工具需求: 輸入:給定公眾號ID,和用戶需要獲取的公眾號文章目錄頁碼數(小於已發佈最大收錄頁數) ( 輸出Ⅰ:每個公眾號歷史文章信息csv文件(鏈接+標題) 輸出Ⅱ: wkhtmltopdf和pdfkit將html轉換成PDF文件或者圖片文件(初稿 ...


視頻下載器你知道吧?那你聽說過文章下載器嗎?Python來實現!

 

進群:548377875  即可獲取數十套PDF哦!

工具需求:

輸入:給定公眾號ID,和用戶需要獲取的公眾號文章目錄頁碼數(小於已發佈最大收錄頁數)

( 輸出Ⅰ:每個公眾號歷史文章信息csv文件(鏈接+標題)

輸出Ⅱ: wkhtmltopdf和pdfkit將html轉換成PDF文件或者圖片文件(初稿)

現有方案

之前在網上也搜索了些爬取微信公眾號的資料,大概有如下幾種

selenium爬取流程

  1. 安裝python selenium自動模塊,通過selenium中的webdriver驅動瀏覽器獲取Cookie登錄微信公眾號後臺;
  2. 使用webdriver功能需要安裝對應瀏覽器的驅動插件
  3. 註意:谷歌瀏覽器版本和chromedriver需要對應,否則會導致啟動時報錯。
  4. 微信公眾號登陸地址:https://mp.weixin.qq.com/
  5. 微信公眾號文章介面地址可以在微信公眾號後臺中新建圖文消息,超鏈接功能中獲取:
  6. 搜索公眾號名稱
  7. 獲取要爬取的公眾號的fakeid
  8. 選定要爬取的公眾號,獲取文章介面地址
  9. 文章列表翻頁及內容獲取

AnyProxy代理批量採集

視頻下載器你知道吧?那你聽說過文章下載器嗎?Python來實現!

 

Fiddler設置代理和抓包

通過對多個賬號進行抓包分析,可以確定:

  • _biz:這個14位的字元串是每個公眾號的“id”,搜狗的微信平臺可以獲得
  • uin:與訪問者有關,微信號id
  • key:和所訪問的公眾號有關

步驟:

1,寫按鍵精靈腳本,在手機上自動點擊公號文章列表頁,也就是“查看歷史消息”;

2,使用fiddler代理劫持手機端的訪問,將網址轉發到本地用php寫的網頁;

3,在php網頁上將接收到的網址備份到資料庫;

4,用python從資料庫取出網址,然後進行正常的爬取。

可能存在的問題:

如果只是想爬取文章內容,似乎並沒有訪問頻率限制,但如果想抓取閱讀數、點贊數,超過一定頻率後,返回就會變為空值。

付費平臺

例如清博 新榜,如果只是想看數據的話,直接看每天的榜單就可以了,還不用花錢,如果需要接入自己的系統的話,他們也提供api介面

3項目步驟

3.1基本原理

目標爬取網站收錄了微信平臺大部分的優質微信公眾號文章,會定期更新,經測試發現對爬蟲較為友好。

1、網站頁面佈局排版規律,不同公眾號通過http://chuansong.me/account/almosthuman2014鏈接中的account區分

2、一個公眾號合集下的文章翻頁也有規律:id號每翻一頁+12

所以流程思路就是

  • 獲取預查詢微信公眾號ID(不是直接顯示的名稱,而是信息名片里的ID號,一般由數字字母組成)
  • 請求html頁面,判斷是否已經收錄改公眾號
  • 如果沒有收錄,則頁面顯示結果為:404該頁面不存在,所以直接使用正則表達式來匹配該提示信息即可
  • 正則匹配,找到目標公眾號最大收錄文章頁數
  • 解析請求頁面,提取文章鏈接和標題文字
  • 保存信息提取的結果
  • 調用pdfkit和wkhtmltopdf轉換網頁
視頻下載器你知道吧?那你聽說過文章下載器嗎?Python來實現!

 

視頻下載器你知道吧?那你聽說過文章下載器嗎?Python來實現!

 

3.5自動跳轉頁面

以下代碼通過迴圈遞增賦值,改變url中的頁碼參數

視頻下載器你知道吧?那你聽說過文章下載器嗎?Python來實現!

 

3.8生成的PDF結果

視頻下載器你知道吧?那你聽說過文章下載器嗎?Python來實現!

 

4結果展示

 

視頻下載器你知道吧?那你聽說過文章下載器嗎?Python來實現!

 

 

視頻下載器你知道吧?那你聽說過文章下載器嗎?Python來實現!

 

 

視頻下載器你知道吧?那你聽說過文章下載器嗎?Python來實現!

 

 

5 完整代碼

由於考慮到轉pdf的穩定性,我在發佈版的代碼中沒有加轉PDF的函數。預留了一個粗糙的py源文件,如果感興趣,讀者可以在此基礎上自行調整修改。

源碼就單獨私信,我一個個給你們發!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • Django框架簡介 MVC框架和MTV框架 MVC,全名是Model View Controller,是軟體工程中的一種軟體架構模式,把軟體系統分為三個基本部分:模型(Model)、視圖(View)和控制器(Controller),具有耦合性低、重用性高、生命周期成本低等優點。 Django框架的 ...
  • Spring中三大核心思想之一AOP(面向切麵編程): 在軟體業,AOP為Aspect Oriented Programming的縮寫,意為:面向切麵編程,通過預編譯方式和運行期動態代理實現程式功能的統一維護的一種技術。AOP是OOP的延續,是軟體開發中的一個熱點,也是Spring框架中的一個重要內 ...
  • 總結了一下網上現有的資源,得到了一些東西。隨手做個備忘。 導入 在PyCharm中使用 繪圖 三維繪圖 最終圖像: ...
  • 關於Object類中的方法,根據其所涉及的知識點,分為如下4個部分: 基礎 clone : protected Object clone() throws CloneNotSupportedException equals : public boolean equals​(Object obj) h ...
  • 如果python中的一個類定義了 __call__ 方法,那麼這個類它的實例就可以作為函數調用,也就是實現了 () 運算符,即可調用對象協議 下麵是一個簡單的例子: 在本文中不討論裝飾部分的內容,借用裝飾器來講解一個__call__方法的使用,如果需要將一個類作為裝飾器,那需要為這個類實現__cal ...
  • 把一個數組最開始的若幹個元素搬到數組的末尾,我們稱之為數組的旋轉。 輸入一個非減排序的數組的一個旋轉,輸出旋轉數組的最小元素。 例如數組{3,4,5,1,2}為{1,2,3,4,5}的一個旋轉,該數組的最小值為1。 NOTE:給出的所有元素都大於0,若數組大小為0,請返回0。 1.利用二分法尋找數組... ...
  • redux-framework的相關鏈接 Redux的官方網站:https://reduxframework.com/ Redux文檔查詢:https://docs.reduxframework.com/core/ Github:https://github.com/ReduxFramework/r ...
  • 輸出 C:\Python3.7.0\python3.exe F:/PycharmProjects/python_s3/day13/jichuceshi.py1 植物2 動物>>>11 草本植物2 木本植物3 水生植物>>>>b1 植物2 動物>>>21 兩棲動物2 禽類3 哺乳類動物>>>>2雛雞原 ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...