視頻下載器你知道吧？那你聽說過文章下載器嗎？Python來實現！

-Advertisement-

進群：548377875 即可獲取數十套PDF哦！工具需求：輸入：給定公眾號ID，和用戶需要獲取的公眾號文章目錄頁碼數（小於已發佈最大收錄頁數） ( 輸出Ⅰ：每個公眾號歷史文章信息csv文件（鏈接+標題）輸出Ⅱ: wkhtmltopdf和pdfkit將html轉換成PDF文件或者圖片文件（初稿 ...

進群：548377875 即可獲取數十套PDF哦！

工具需求：

輸入：給定公眾號ID，和用戶需要獲取的公眾號文章目錄頁碼數（小於已發佈最大收錄頁數）

( 輸出Ⅰ：每個公眾號歷史文章信息csv文件（鏈接+標題）

輸出Ⅱ: wkhtmltopdf和pdfkit將html轉換成PDF文件或者圖片文件（初稿）

現有方案

之前在網上也搜索了些爬取微信公眾號的資料，大概有如下幾種

selenium爬取流程

安裝python selenium自動模塊，通過selenium中的webdriver驅動瀏覽器獲取Cookie登錄微信公眾號後臺；
使用webdriver功能需要安裝對應瀏覽器的驅動插件
註意：谷歌瀏覽器版本和chromedriver需要對應，否則會導致啟動時報錯。
微信公眾號登陸地址：https://mp.weixin.qq.com/
微信公眾號文章介面地址可以在微信公眾號後臺中新建圖文消息，超鏈接功能中獲取：
搜索公眾號名稱
獲取要爬取的公眾號的fakeid
選定要爬取的公眾號，獲取文章介面地址
文章列表翻頁及內容獲取

AnyProxy代理批量採集

Fiddler設置代理和抓包

通過對多個賬號進行抓包分析，可以確定:

_biz:這個14位的字元串是每個公眾號的“id”，搜狗的微信平臺可以獲得
uin:與訪問者有關，微信號id
key:和所訪問的公眾號有關

步驟：

1，寫按鍵精靈腳本，在手機上自動點擊公號文章列表頁，也就是“查看歷史消息”；

2，使用fiddler代理劫持手機端的訪問，將網址轉發到本地用php寫的網頁；

3，在php網頁上將接收到的網址備份到資料庫；

4，用python從資料庫取出網址，然後進行正常的爬取。

可能存在的問題：

如果只是想爬取文章內容，似乎並沒有訪問頻率限制，但如果想抓取閱讀數、點贊數，超過一定頻率後，返回就會變為空值。

付費平臺

例如清博新榜，如果只是想看數據的話，直接看每天的榜單就可以了，還不用花錢，如果需要接入自己的系統的話，他們也提供api介面

3項目步驟

3.1基本原理

目標爬取網站收錄了微信平臺大部分的優質微信公眾號文章，會定期更新，經測試發現對爬蟲較為友好。

1、網站頁面佈局排版規律，不同公眾號通過http://chuansong.me/account/almosthuman2014鏈接中的account區分

2、一個公眾號合集下的文章翻頁也有規律：id號每翻一頁+12

所以流程思路就是

獲取預查詢微信公眾號ID（不是直接顯示的名稱，而是信息名片里的ID號，一般由數字字母組成）
請求html頁面，判斷是否已經收錄改公眾號
如果沒有收錄，則頁面顯示結果為：404該頁面不存在，所以直接使用正則表達式來匹配該提示信息即可
正則匹配，找到目標公眾號最大收錄文章頁數
解析請求頁面，提取文章鏈接和標題文字
保存信息提取的結果
調用pdfkit和wkhtmltopdf轉換網頁

3.5自動跳轉頁面

以下代碼通過迴圈遞增賦值，改變url中的頁碼參數

3.8生成的PDF結果

4結果展示

5 完整代碼

由於考慮到轉pdf的穩定性，我在發佈版的代碼中沒有加轉PDF的函數。預留了一個粗糙的py源文件，如果感興趣，讀者可以在此基礎上自行調整修改。

源碼就單獨私信，我一個個給你們發！

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Django框架

Django框架簡介 MVC框架和MTV框架 MVC，全名是Model View Controller，是軟體工程中的一種軟體架構模式，把軟體系統分為三個基本部分：模型(Model)、視圖(View)和控制器(Controller)，具有耦合性低、重用性高、生命周期成本低等優點。 Django框架的 ...
SpringAOP面向切麵編程

Spring中三大核心思想之一AOP（面向切麵編程）：在軟體業，AOP為Aspect Oriented Programming的縮寫，意為：面向切麵編程，通過預編譯方式和運行期動態代理實現程式功能的統一維護的一種技術。AOP是OOP的延續，是軟體開發中的一個熱點，也是Spring框架中的一個重要內 ...
「Python」matplotlib備忘錄

總結了一下網上現有的資源，得到了一些東西。隨手做個備忘。導入在PyCharm中使用繪圖三維繪圖最終圖像： ...
Java - Obejct 類（待續）

關於Object類中的方法，根據其所涉及的知識點，分為如下4個部分：基礎 clone : protected Object clone() throws CloneNotSupportedException equals : public boolean equals(Object obj) h ...
python 中的__call__

如果python中的一個類定義了 __call__ 方法，那麼這個類它的實例就可以作為函數調用,也就是實現了 () 運算符，即可調用對象協議下麵是一個簡單的例子: 在本文中不討論裝飾部分的內容，借用裝飾器來講解一個__call__方法的使用，如果需要將一個類作為裝飾器，那需要為這個類實現__cal ...
[PHP] 演算法-有序數組旋轉後尋找最小值的PHP實現

把一個數組最開始的若幹個元素搬到數組的末尾，我們稱之為數組的旋轉。輸入一個非減排序的數組的一個旋轉，輸出旋轉數組的最小元素。例如數組{3,4,5,1,2}為{1,2,3,4,5}的一個旋轉，該數組的最小值為1。 NOTE：給出的所有元素都大於0，若數組大小為0，請返回0。 1.利用二分法尋找數組... ...
史上最強大的wordpress後臺框架redux-framework安裝及使用

redux-framework的相關鏈接 Redux的官方網站：https://reduxframework.com/ Redux文檔查詢：https://docs.reduxframework.com/core/ Github：https://github.com/ReduxFramework/r ...
Python全棧Day 13部分知識點

輸出 C:\Python3.7.0\python3.exe F:/PycharmProjects/python_s3/day13/jichuceshi.py1 植物2 動物>>>11 草本植物2 木本植物3 水生植物>>>>b1 植物2 動物>>>21 兩棲動物2 禽類3 哺乳類動物>>>>2雛雞原 ...