作為程式員,要時刻保持一顆好奇心和想要學習的姿態。 練習怎樣利用搜狗微信爬取某指定微信公眾號的歷史文章。爬取微信公眾號本身難度非常大,感謝搜狗提供了一個可以爬取數據的平臺。 代碼部分參考於: https://github.com/Chyroc/WechatSogou/tree/master/wec ...
作為程式員,要時刻保持一顆好奇心和想要學習的姿態。
練習怎樣利用搜狗微信爬取某指定微信公眾號的歷史文章。爬取微信公眾號本身難度非常大,感謝搜狗提供了一個可以爬取數據的平臺。
代碼部分參考於: https://github.com/Chyroc/WechatSogou/tree/master/wechatsogou
目標:
1. 從http://weixin.sogou.com/搜狗微信搜索中獲取指定公眾號名稱的搜索頁面
2. 抓取指定公眾號的歷史文章列表
待解決難題:
如何從輸入驗證碼頁面自動跳轉到我們想要的頁面
整體思路:
使用python強大的庫。
要獲取搜索頁面,需要拼接地址。需使用python requests模塊。
要解析爬下來的html數據,需要用到xpath,lxml, 可以使用chrome的擴展插件xpath helper。