[js高手之路]Node.js實現簡易的爬蟲-抓取博客所有文章列表信息

来源:http://www.cnblogs.com/ghostwu/archive/2017/09/15/7526974.html
-Advertisement-
Play Games

抓取目標:就是我自己的博客:http://www.cnblogs.com/ghostwu/ 需要實現的功能: 抓取博客所有的文章標題,超鏈接,文章摘要,發佈時間 需要用到的庫: node.js自帶的http庫 第三方庫:cheerio,這個庫就是用來處理dom節點的,他的用法幾乎跟jquery用法一 ...


抓取目標:就是我自己的博客:http://www.cnblogs.com/ghostwu/

需要實現的功能:

抓取博客所有的文章標題,超鏈接,文章摘要,發佈時間

需要用到的庫:

node.js自帶的http庫

第三方庫:cheerio,這個庫就是用來處理dom節點的,他的用法幾乎跟jquery用法一模一樣,所以有了這個利器,寫一個爬蟲就非常簡單

準備工作:

1,npm init --yes 初始化package.json

2,安裝cheerio:npm install cheerio --save-dev

實現的目標,是要把每篇文章需要抓取的部分( 抓取文章標題,超鏈接,文章摘要,發佈時間 )整理成一個對象, 放在數組中,如:

[ { title: '[置頂][js高手之路]從零開始打造一個javascript開源框架gdom與插件開發免費視頻教程
連載中',
    url: 'http://www.cnblogs.com/ghostwu/p/7470038.html',
    entry: '摘要: 百度網盤下載地址:https://pan.baidu.com/s/1kULNXOF 優酷土豆觀看地址:htt
p://v.youku.com/v_show/id_XMzAwNTY2MTE0MA==.html?spm=a2h0j.8191423.playlist_content.5!3~5~
5~A&&f',
    listTime: '2017-09-05 17:08' },
  { title: '[js高手之路]Vue2.0基於vue-cli+webpack Vuex用法詳解',
    url: 'http://www.cnblogs.com/ghostwu/p/7521097.html',
    entry: '摘要: 在這之前,我已經分享過組件與組件的通信機制以及父子組件之間的通信機制,而
我們的vuex就是為瞭解決組件通信問題的 vuex是什麼東東呢? 組件通信的本質其實就是在組件之間傳
遞數據或組件的狀態(這裡將數據和狀態統稱為狀態),但可以看到如果我們通過最基本的方式來進行
通信,一旦需要管理的狀態多了,代碼就會',
    listTime: '2017-09-14 15:51' },
  { title: '[js高手之路]Vue2.0基於vue-cli+webpack同級組件之間的通信教程',
    url: 'http://www.cnblogs.com/ghostwu/p/7518158.html',
    entry: '摘要: 我們接著上文繼續,本文我們講解兄弟組件的通信,項目結構還是跟上文一樣. 在
src/assets目錄下建立文件EventHandler.js,該文件的作用在於給同級組件之間傳遞事件 EventHandl
er.js代碼: 2,在Components目錄下新建一個組件Brother1.vue 。通過Eve',
    listTime: '2017-09-13 22:49' },
   ]

 思路講解:

1,獲取目標地址:http://www.cnblogs.com/ghostwu/ 所有的html內容

2,提取所有的文章html內容

3,提取每篇文章下麵對應的( 文章標題,超鏈接,文章摘要,發佈時間 )

 1 var http = require('http');
 2 var cheerio = require('cheerio');
 3 
 4 var url = 'http://www.cnblogs.com/ghostwu/';
 5 
 6 function filterHtml(html) {
 7     var $ = cheerio.load(html);
 8     var arcList = [];
 9     var aPost = $("#content").find(".post-list-item");
10     aPost.each(function () {
11         var ele = $(this);
12         var title = ele.find("h2 a").text();
13         var url = ele.find("h2 a").attr("href");
14         ele.find(".c_b_p_desc a").remove();
15         var entry = ele.find(".c_b_p_desc").text();
16         ele.find("small a").remove();
17         var listTime = ele.find("small").text();
18         var re = /\d{4}-\d{2}-\d{2}\s*\d{2}[:]\d{2}/;
19         listTime = listTime.match( re )[0];
20         arcList.push({
21             title: title,
22             url: url,
23             entry: entry,
24             listTime: listTime
25         });
26     });
27     return arcList;
28 }
29 
30 http.get(url, function (res) {
31     var html = '';
32     var arcList = [];
33     // var arcInfo = {};
34     res.on('data', function (chunk) {
35         html += chunk;
36     });
37     res.on('end', function () {
38         arcList = filterHtml( html ); 
39         console.log( arcList );
40     });
41 });

有幾個關鍵的地方要講解下:

1,res.on( 'data', function(){} ) 

http模塊發送get請求之後,就會源源不斷的抓取目標網頁的源代碼內容, 所以,我在on中監聽data事件, chunk就是傳輸的數據,把這些數據累加到html這個變數, 當數據傳輸完之後就會觸發end事件,你可以在end事件中列印一下console.log( html ) 就能發現,他就是目標地址的所有html源代碼,這樣就解決了我們的第一個問題:獲取目標地址:http://www.cnblogs.com/ghostwu/ 所有的html內容

2,有了完整的html內容之後,接下來我封裝了一個函數filterHTML用來過濾我所需要的結果( 每篇文章的信息 )

3,var $ = cheerio.load(html); 把html內容通過cheerio的load方法載入進來,就可以用cheerio的節點操作了,為了親和jquery的操作,我用美元符號$保存了這個文檔對象

4,var aPost = $("#content").find(".post-list-item"); 這個是所有的文章節點信息,拿到之後,通過each方法 挨個遍歷並抓取需要的信息,整理成對象,然後放在一個數組中

1  arcList.push({
2 21             title: title,
3 22             url: url,
4 23             entry: entry,
5 24             listTime: listTime
6 25         });

這樣就處理完了,結果已經在上面展示了,如果博客樣式跟我的博客樣式一樣,應該都能抓取了,

接著完善分頁抓取,這樣就能把整個博客爬下來了

 1 var http = require('http');
 2 var cheerio = require('cheerio');
 3 
 4 var url = 'http://www.cnblogs.com/ghostwu/';
 5 
 6 function filterHtml(html) {
 7     var $ = cheerio.load(html);
 8     var arcList = [];
 9     var aPost = $("#content").find(".post-list-item");
10     aPost.each(function () {
11         var ele = $(this);
12         var title = ele.find("h2 a").text();
13         var url = ele.find("h2 a").attr("href");
14         ele.find(".c_b_p_desc a").remove();
15         var entry = ele.find(".c_b_p_desc").text();
16         ele.find("small a").remove();
17         var listTime = ele.find("small").text();
18         var re = /\d{4}-\d{2}-\d{2}\s*\d{2}[:]\d{2}/;
19         listTime = listTime.match(re)[0];
20         arcList.push({
21             title: title,
22             url: url,
23             entry: entry,
24             listTime: listTime
25         });
26     });
27     return arcList;
28 }
29 
30 function nextPage( html ){
31     var $ = cheerio.load(html);
32     var nextUrl = $("#pager a:last-child").attr('href');
33     if ( !nextUrl ) return ;
34     var curPage = $("#pager .current").text();
35     if( !curPage ) curPage = 1;
36     var nextPage = nextUrl.substring( nextUrl.indexOf( '=' ) + 1 );
37     if ( curPage < nextPage ) crawler( nextUrl );
38 }
39 
40 function crawler(url) {
41     http.get(url, function (res) {
42         var html = '';
43         var arcList = [];
44         res.on('data', function (chunk) {
45             html += chunk;
46         });
47         res.on('end', function () {
48             arcList = filterHtml(html);
49             console.log( arcList );
50             nextPage( html );
51         });
52     });
53 }
54 crawler( url );

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一、現象 用戶登錄時需要記住密碼的功能,在前端需要對密碼進行加密處理,增加安全性 二解決 1、利用npm(如果沒有,先自行安裝npm)安裝ts-md5 npm install ts-md5 --save-dev 2、在使用的頁面中導入 3、使用 三、總結 發現這個 npm install md5 - ...
  • jQuery中隱藏元素的hide方法 讓頁面上的元素不可見,一般可以通過設置css的display為none屬性。但是通過css直接修改是靜態的佈局,如果在代碼執行的時候,一般是通過js控制元素的style屬性,這裡jQuery提供了一個快捷的方法.hide()來達到這個效果 $elem.hide( ...
  • 使用構造函數實例化發生的流程: 1.建立一個foo的空對象。 2.將構造函數中的Foo的this指向對象foo。 3.foo的_proto_屬性指向Foo函數的prototype原型。 4.執行構造函數中的代碼。 相對於普通函數,構造函數中的this是指向實例的,而普通函數調用中的this是指向wi ...
  • ES6為Array增加了find(),findIndex函數。 find()函數用來查找目標元素,找到就返回該元素,找不到返回undefined。 findIndex()函數也是查找目標元素,找到就返回元素的位置,找不到就返回-1。 他們的都是一個查找回調函數。 查找函數有三個參數。 value:每 ...
  • 本攻略適用於瞭解的kendo UI 的基本語法的人使用。如果還不瞭解Kendo UI的基本語法,請大力觀摹Demo ,並自己動用寫幾個控制項。 ...
  • Servlet代碼: html代碼: 運行截圖: 遇到問題: 1.顯示用戶輸入信息頁面,Servlet輸出的漢字亂碼 解決方案:將Servlet代碼和Html中的編碼格式都改為GBK Servlet: Html: ...
  • 作用域鏈: 詞法作用域: 如何通過閉包突破全局作用域鏈——幾種常見形式 ...
  • ES6為Array增加了copyWithin函數,用於操作當前數組自身,用來把某些個位置的元素複製並覆蓋到其他位置上去。 該函數有三個參數。 target:目的起始位置。 start:複製源的起始位置,可以省略,可以是負數。 end:複製源的結束位置,可以省略,可以是負數,實際結束位置是end-1。 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...