現在這個社會是信息爆炸的社會,各個網站、app上鋪天蓋地的都是各種新聞和信息。 為了獲取信息,我們每天都要進行各種麻煩的操作,打開各種網站或者手機app,操作顯得低效,後來發現了一個神器,那就是RSS。 什麼是RSS RSS中文名是簡易信息聚合,就是讓網站一個按照一定周期更新網站的文章概要內容(有些 ...
現在這個社會是信息爆炸的社會,各個網站、app上鋪天蓋地的都是各種新聞和信息。 為了獲取信息,我們每天都要進行各種麻煩的操作,打開各種網站或者手機app,操作顯得低效,後來發現了一個神器,那就是RSS。
什麼是RSS
RSS中文名是簡易信息聚合,就是讓網站一個按照一定周期更新網站的文章概要內容(有些是全文)到一個xml中。RSS訂閱工具一定時間抓取這個RSS訂閱源生成數據供訂閱者讀取網站內容。
有了RSS,你只要去訂閱工具上就可以瀏覽你自己訂閱的新的更新內容,非常簡單高效。這裡推薦一個RSS訂閱神器inoreader,支持中文。這個我認為是目前最好的RSS訂閱器。 知乎專欄是一個知乎開給個人寫的博客,有些專欄上面具有有價值的信息,但是很遺憾知乎專欄不提供RSS訂閱,當然作為開發者來說,我們可以自己動手做一個知乎專欄RSS抓取程式。
製作爬蟲
很多網站提供了RSS,但是更多網站其實沒有提供RSS訂閱源。我們可以使用爬蟲抓取網站更新內容製作個人的RSS訂閱源。我作為一個前端er可以使用nodejs來進行RSS的製作。
什麼是nodejs
Node.js是一個基於Chrome JavaScript運行時建立的平臺, 用於方便地搭建響應速度快、易於擴展的網路應用。Node.js 使用事件驅動, 非阻塞I/O 模型而得以輕量和高效,非常適合在分散式設備上運行數據密集型的實時應用。
簡單的說 Node.js 就是運行在服務端的 JavaScript。使用nodejs的可以讓你一個只會用JavaScript也能寫後端服務代碼。當然也能用它進行爬蟲抓取的工作。
先安裝爬蟲所需依賴
進行爬取工作的話先要安裝所要用到的依賴。 superagent是最常用的一個依賴庫,利用它可以輕鬆發送各種請求。 cheerio就是一個nodejs版本的jquery,利用它可以獲取網頁中的各種dom結構。 data2xml就是一個json轉化成xml的一個庫。 其他還有node-schedule和fs就是進行定時操作和文件操作。
新建一個文件夾rssmaker,並且執行npm init創建package.json。
用npm install node_modules_name --save來進行安裝各種依賴。
分析知乎專欄結構獲取要爬取的入口
我這次舉例爬取一個專欄前端學習指南。像這種適配手機端的網頁,一般都有採用發送API請求來獲得數據進行前端渲染頁面,我們可以用chrome的network的查看可疑的請求。打開chrome的開發者工具。我們很快就發現了一個目標。一個可疑請求https://zhuanlan.zhihu.com/api/columns/study-fe/posts?limit=20
我們得到了一個json,我們現在使用一個json的查看工具chrome的插件JSON Editor可視化這個json數據方便我們進行分析。
我們可視化後數據如下:
前面我們發現的請求發送裡面有一個參數是limit,它的值是20,從上圖我們知道了我們得到了20組數據,這個參數其實就是限制獲取的數據條目數。我們現在分析20組裡面的一條數據。
{ "isTitleImageFullScreen": false, "rating": "none", "sourceUrl": "", "publishedTime": "2016-12-28T15:01:44+08:00", "links": { "comments": "/api/posts/24606606/comments" }, "author": { "profileUrl": "https://www.zhihu.com/people/jirengu-ruo-yu", "bio": "飢人谷的挑山工 jirengu.com", "hash": "3dd61d987210ce6b0ba24746803e04bb", "uid": 33284922802176, "isOrg": false, "description": "飢人谷的挑山工 jirengu.com ", "isOrgWhiteList": false, "slug": "jirengu-ruo-yu", "avatar": { "id": "31a3446681c9040f3643472db505a6ef", "template": "https://pic4.zhimg.com/{id}_{size}.jpg" }, "name": "若愚" }, "url": "/p/24606606", "title": "前端筆試面試題庫", "titleImage": "", "summary": "", "content": "<h2>做了什麼?</h2><p>我們在建了 GitHub 前端筆試面試題庫 <a href=\"https://github.com/jirengu/frontend-interview/issues\" data-editable=\"true\" data-title=\"前端筆試面試題庫\" class=\"\">前端筆試面試題庫</a>, 歡迎走訪</p><br><br><h2>為什麼建前端筆試面試題庫?</h2><p><a href=\"https://zhuanlan.zhihu.com/study-fe\" data-editable=\"true\" data-title=\"前端學習指南專欄\" class=\"\">前端學習指南專欄</a> 專欄創建3個月有很多前端愛好者特別是入門者關註,很多小伙伴一直期待我們能做一份筆試面試題集錦分享給大家,我和方方也一直想把這個事情做好。但兩個人的力量太微弱,於是想到在 github 上建立公共項目,彙集更多前端愛好者的力量一起收集前端常見筆試面試題,作為送給前端入門的小伙伴、需要找工作的小伙伴一份新年禮物