nodejs學習筆記（1）——網路爬蟲

-Advertisement-

不知不覺做nodejs開發已經將近一年多了，過程中學了很多，也忘了很多，所以還是堅持在博客裡面留下點內容，方便以後查看。本文主要實現一個簡單的網站爬蟲功能，抓取網站裡面的圖片以及內容。在抓取之前用到了superagent、cheerio、request、fs模塊。 superagent和http ...

不知不覺做nodejs開發已經將近一年多了，過程中學了很多，也忘了很多，所以還是堅持在博客裡面留下點內容，方便以後查看。

本文主要實現一個簡單的網站爬蟲功能，抓取網站裡面的圖片以及內容。

在抓取之前用到了superagent、cheerio、request、fs模塊。

superagent和http用途其實是差不多的，都是通過url模擬請求，為了記錄一下用法，這裡兩個都用了；cheerio我個人理解就相當於一個服務端的jquery，可以對響應的內容進行過濾，用法跟jquery一樣；fs模塊是nodejs裡面的文件操作模塊。

以爬取360網站為例：

 1 /**
 2  * 網路爬蟲
 3  */
 4 
 5 let sup = require("superagent");
 6 let cheer = require("cheerio");
 7 let request = require("request");
 8 let fs = require("fs");
 9 const domain = "www.360.com";
10 const url = "https://" + domain + "/";
11 sup.get(url).end(function (err, res, body) {
12     if (err) {
13         console.log(err);
14     } else {
15         console.log('----------------------');
16         //找出頁面響應的文本內容 
17         let $ = cheer.load(res.text);
18         //通過cheerio過濾內容  用法與jquery一樣   如：找出裡面所有的圖片
19         let rst = $("img"); 
20         rst.each(function (idx, item) {
21             //這裡request.get的encoding一定要設置為null，api文檔有說明，為null的時候響應文本會返回一個buffer
22             let imgUrl = ((item.attribs.src.includes(('http://', 'https://'))) ? url : 'http:') + item.attribs.src;

23             console.log('********************', imgUrl);

24             request.get({ url: imgUrl, encoding: null }, function (error, response, body) {
25                 if (error) {
26                     console.error(error);
27                 } else {
28                     //持續下載數據
29                     let dir = domain + "/" + item.attribs.src.replace('//', '');
30                     let path = dir.split('/');
31                     //去掉最後的文件名部分
32                     path.pop();
33                     if (fs.existsSync(path.join('/')) == false) {
34                         //迴圈創建文件夾
35                         var dirInfo = "";
36                         for (var i = 0; i < path.length; i++) {
37                             dirInfo += path[i] + "/"
38                             if (fs.existsSync(dirInfo) == false && dirInfo != '')
39                                 fs.mkdirSync(dirInfo);
40                         }
41                     }
42                     //把body的的string轉為object寫入到文件
43                     fs.writeFile(dir, body, (err) => {
44                         console.log('----------------', err);
45                     })
46                 }
47             })
48         })
49     }
50 })

以上為個人學習記錄，只是一個學習的知識點分享，如果不對之處，請留言指出。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

活動（Activity）

一、用Log列印日誌二、Toast用法三、在活動中使用Menu 首先在res目錄下新建menu文件夾，接著在這個文件夾下新建一個名叫main的菜單文件，在main.xml中添加如下代碼回到Activity中重寫onCreateOptionsMenu()方法，編寫如下代碼（返回true表示允許創 ...
Angular組件——組件生命周期(二)

一、view鉤子 view鉤子有2個，ngAfterViewInit和ngAfterViewChecked鉤子。 1、實現ngAfterViewInit和ngAfterViewChecked鉤子時註意事項以父組件調用子組件方法中例子為基礎，在父組件中實現ngAfterViewInit和ngAft ...
vue組件詳解（四）——使用slot分發內容

一、什麼是slot 在使用組件時，我們常常要像這樣組合它們：當需要讓組件組合使用，混合父組件的內容與子組件的模板時，就會用到slot ，這個過程叫作內容分發（ transclusion ）。註意兩點： 1.< app＞組件不知道它的掛載點會有什麼內容。掛載點的內容是由＜app ＞的父組件決定的 ...
理解原型與原型鏈

原型與原型鏈是學習JavaScript這門語言不能不理解的兩個重要概念，為什麼？因為JavaScript是一門基於原型的語言。怎麼理解“JavaScript是一門基於原型的語言”？在軟體設計模式中，有一種模式叫做原型模式，JavaScript正是利用這種模式而被創建出來。先來瞭解下原型模式的概念... ...
複習上學期的HTML+CSS（1）

自己跟著網上教程複習上學期的HTML+CSS，因為已經忘得差不多了，而且現在學的js也要以HTML+CSS為基礎，堅持每天持續更新。 n B/S 網路結構 Browser/Server 瀏覽器/伺服器，這是現在最流行的網路模式。如新浪網、鳳凰網等。 C/S Client/Server 客戶端/伺服器 ...
小劉同學的一百零六篇博文

昨天編輯朋友圈文章，無法修改提交的bug終於找到了，原因是用錯了一個標點... 把req點body寫成req逗號body，印象深刻，發人深省。編輯後，終於可以修改成功了。雖然只是一個小小的bug,，但是印象實在太過深刻。所以說寫代碼的時候不用心，改bug的時候就耽誤一天。晚上還嘗試做了一個刪 ...
vue組件詳解（三）——組件通信

組件之間通信可以用下圖表示：組件關係可分為父子組件通信、兄弟組件通信、跨級組件通信。一、自定義事件當子組件需要向父組件傳遞數據時，就要用到自定義事件。子組件用$emit （）來觸發事件，父組件用$on（）來監昕子組件的事件。父組件可以直接在子組件的自定義標簽上使用v-on 來監昕子組件觸發 ...
vueJs 源碼解析（三）具體代碼

vueJs 源碼解析（三）具體代碼在之前的文章中提到了 vuejs 源碼中的架構部分，以及談論到了 vue 源碼三要素 vm、compiler、watcher 這三要素，那麼今天我們就從這三要素逐步瞭解清楚好了，話不多說， let's do it 在這之前，我們需要對上文中講到的 vu ...