教你nodejs爬蟲製作知乎專欄RSS抓取程式

来源:https://www.cnblogs.com/coderhf/archive/2020/05/23/12942787.html
-Advertisement-
Play Games

現在這個社會是信息爆炸的社會,各個網站、app上鋪天蓋地的都是各種新聞和信息。 為了獲取信息,我們每天都要進行各種麻煩的操作,打開各種網站或者手機app,操作顯得低效,後來發現了一個神器,那就是RSS。 什麼是RSS RSS中文名是簡易信息聚合,就是讓網站一個按照一定周期更新網站的文章概要內容(有些 ...


現在這個社會是信息爆炸的社會,各個網站、app上鋪天蓋地的都是各種新聞和信息。 為了獲取信息,我們每天都要進行各種麻煩的操作,打開各種網站或者手機app,操作顯得低效,後來發現了一個神器,那就是RSS。

什麼是RSS

RSS中文名是簡易信息聚合,就是讓網站一個按照一定周期更新網站的文章概要內容(有些是全文)到一個xml中。RSS訂閱工具一定時間抓取這個RSS訂閱源生成數據供訂閱者讀取網站內容。 

有了RSS,你只要去訂閱工具上就可以瀏覽你自己訂閱的新的更新內容,非常簡單高效。這裡推薦一個RSS訂閱神器inoreader,支持中文。這個我認為是目前最好的RSS訂閱器。 知乎專欄是一個知乎開給個人寫的博客,有些專欄上面具有有價值的信息,但是很遺憾知乎專欄不提供RSS訂閱,當然作為開發者來說,我們可以自己動手做一個知乎專欄RSS抓取程式。

 

製作爬蟲

很多網站提供了RSS,但是更多網站其實沒有提供RSS訂閱源。我們可以使用爬蟲抓取網站更新內容製作個人的RSS訂閱源。我作為一個前端er可以使用nodejs來進行RSS的製作。

什麼是nodejs

Node.js是一個基於Chrome JavaScript運行時建立的平臺, 用於方便地搭建響應速度快、易於擴展的網路應用。Node.js 使用事件驅動, 非阻塞I/O 模型而得以輕量和高效,非常適合在分散式設備上運行數據密集型的實時應用。

簡單的說 Node.js 就是運行在服務端的 JavaScript。使用nodejs的可以讓你一個只會用JavaScript也能寫後端服務代碼。當然也能用它進行爬蟲抓取的工作。

先安裝爬蟲所需依賴

進行爬取工作的話先要安裝所要用到的依賴。 superagent是最常用的一個依賴庫,利用它可以輕鬆發送各種請求。 cheerio就是一個nodejs版本的jquery,利用它可以獲取網頁中的各種dom結構。 data2xml就是一個json轉化成xml的一個庫。 其他還有node-schedulefs就是進行定時操作和文件操作。

新建一個文件夾rssmaker,並且執行npm init創建package.json。

 

用npm install node_modules_name --save來進行安裝各種依賴。

分析知乎專欄結構獲取要爬取的入口

我這次舉例爬取一個專欄前端學習指南。像這種適配手機端的網頁,一般都有採用發送API請求來獲得數據進行前端渲染頁面,我們可以用chromenetwork的查看可疑的請求。打開chrome的開發者工具。我們很快就發現了一個目標。一個可疑請求https://zhuanlan.zhihu.com/api/columns/study-fe/posts?limit=20

 

 

4

我們得到了一個json,我們現在使用一個json的查看工具chrome的插件JSON Editor可視化這個json數據方便我們進行分析。

 

5

我們可視化後數據如下:

 

6

前面我們發現的請求發送裡面有一個參數是limit,它的值是20,從上圖我們知道了我們得到了20組數據,這個參數其實就是限制獲取的數據條目數。我們現在分析20組裡面的一條數據。

 

{    "isTitleImageFullScreen": false,    "rating": "none",    "sourceUrl": "",    "publishedTime": "2016-12-28T15:01:44+08:00",    "links": {      "comments": "/api/posts/24606606/comments"
    },    "author": {      "profileUrl": "https://www.zhihu.com/people/jirengu-ruo-yu",      "bio": "飢人谷的挑山工    jirengu.com",      "hash": "3dd61d987210ce6b0ba24746803e04bb",      "uid": 33284922802176,      "isOrg": false,      "description": "飢人谷的挑山工    jirengu.com     ",      "isOrgWhiteList": false,      "slug": "jirengu-ruo-yu",      "avatar": {        "id": "31a3446681c9040f3643472db505a6ef",        "template": "https://pic4.zhimg.com/{id}_{size}.jpg"
      },      "name": "若愚"
    },    "url": "/p/24606606",    "title": "前端筆試面試題庫",    "titleImage": "",    "summary": "",    "content": "<h2>做了什麼?</h2><p>我們在建了 GitHub 前端筆試面試題庫 <a href=\"https://github.com/jirengu/frontend-interview/issues\" data-editable=\"true\" data-title=\"前端筆試面試題庫\" class=\"\">前端筆試面試題庫</a>, 歡迎走訪</p><br><br><h2>為什麼建前端筆試面試題庫?</h2><p><a href=\"https://zhuanlan.zhihu.com/study-fe\" data-editable=\"true\" data-title=\"前端學習指南專欄\" class=\"\">前端學習指南專欄</a> 專欄創建3個月有很多前端愛好者特別是入門者關註,很多小伙伴一直期待我們能做一份筆試面試題集錦分享給大家,我和方方也一直想把這個事情做好。但兩個人的力量太微弱,於是想到在 github 上建立公共項目,彙集更多前端愛好者的力量一起收集前端常見筆試面試題,作為送給前端入門的小伙伴、需要找工作的小伙伴一份新年禮物

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 背景: 最近在做一個關於android的續航時間測試apk,從開始測試記錄時間到低電自動關機時這整個的時間,當前採用監聽關機廣播的來實際統計續航時間,但遇到的問題是同樣的測試apk在android8及以下系統均能正常監聽到關機廣播,但從android 9開始就監聽不到關機廣播了。 下麵是我的監聽廣播 ...
  • 今天新蘋果機安裝cocoapods,安裝完以後發現怎麼pod search 都沒有用 命令行提示: swhcxp@iosdevmac ~ % pod search Almofire Setup completed [!] Unable to find a pod with name, author, ...
  • 使用React簡短代碼動態生成柵格佈局 作為 TerminalMACS 的一個子進程模塊 React Web管理端,使用Ant Design Pro作為框架。 本文應用到的知識 1.樣式文件less中方法的使用 2.for迴圈創建按鈕和柵格佈局(flex佈局) 1. 最終效果及源碼鏈接 作為前端新手 ...
  • 移動端適配我們需要做哪些事情? 一個最佳實踐除了設置 和 基準值,隨著iPhone手機的不斷升級,我們不得不正視以下2個問題: 安全區域適配 識別劉海屏 關於viewpoint fit 在切入正題之前,我們先展開介紹一下 ,它的作用是用於設置可視區域的尺寸,屬性如下: PropName | Desc ...
  • 一、if和switch的使用場景比較 1.分支比較多且無法窮盡的時候,最好使用if,其他情況可以視情況而定 2.如果數據不是很大,並且數據都是固定的可以使用switch 3.理論上Switch的效率更高 4.switch的弊端在於如果是無窮的可能性,那麼就不適合使用switch 二、迴圈 1.whi ...
  • 在前後端數據交互的過程中,為了能夠減少ajax請求次數,減輕帶寬壓力,後端往往會將當前介面所需的參數以對象的形式集體返回。這樣就導致一個問題:對象內欄位屬性過多,而有些小組件功能又壓根不需要這麼一個大對象參數(主要是對象屬性過多,難得理,也懶得找),這時就需要對這個大對象做再加工處理。 比如:將小組 ...
  • h5+ 開發微信、QQ分享功能 此處只做微信網頁分享示例代碼 方式一、JS+HTML+h5Plus 1.html代碼 <div class="button" onclick="shareWeb()">分享網頁</div> 2.JS代碼 // H5 plus事件處理function plusReady ...
  • 今天終於把樸靈老師寫的《深入淺出Node.js》給學習完了, 這本書不是一本簡單的Node入門書籍,它沒有停留在Node介紹或者框架、庫的使用層面上,而是從不同的視角來揭示Node自己內在的特點和結構。建議有一定Node基礎或者做過Node方面的小項目的同學閱讀,看完以後你的思維會有很奇特的碰撞,我 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...