Node.js基礎入門第六天

来源:https://www.cnblogs.com/hsiang/archive/2022/04/03/16084270.html
-Advertisement-
Play Games

經過前面五天的學習,對Node.js開發已經逐漸入門,今天結合之前學到的東西,開發一個小示例【爬取某圖片網站的圖片】來鞏固基礎知識,僅供學習分享使用,如有不足之處,還請指正。 ...


經過前面五天的學習,對Node.js開發已經逐漸入門,今天結合之前學到的東西,開發一個小示例【爬取某圖片網站的圖片】,僅供學習分享使用,如有不足之處,還請指正。

涉及知識點

開發一個小爬蟲,涉及的知識點如下所示:

  • https模塊,主要是用戶獲取網路資源,如:網頁源碼,圖片資源等。
  • cheerio模塊,主要用於解析html源碼,並可訪問,查找html節點內容。
  • fs模塊,主要用於文件的讀寫操作,如保存圖片,日誌等。
  • 閉包,主要是對於非同步操作,對象的隔離保護。

cheerio簡介

什麼是cheerio ?

cheerio是為伺服器特別定製的,快速、靈活、實施的jQuery核心實現。主要用於在服務端解析html。特點如下所示:

  • 易用,語法類似jQuery語法,從jQuery庫中去除了所有 DOM不一致性和瀏覽器尷尬的部分。
  • 解析快,比JSDOM快八倍。
  • 靈活,Cheerio 封裝了相容的htmlparser。Cheerio 幾乎能夠解析任何的 HTML 和 XML document。

安裝cheerio

首先在命令行,切換到程式目錄,然後輸入安裝命令進行安裝,如下所示:

1 cnpm install cheerio

安裝過程,如下所示:

準備工作

在編寫爬蟲之前,首先需要分析目標內容,本次需要爬取的是某網站,星空類型的圖片內容,經過分析,發現所有的圖片都是在ul下每一個li中的a標簽內的img中,本次只需要解析出img的src屬性,即可獲取圖片的下載路徑。如下所示:

 

 核心代碼

經過以上分析,通過Node.js編寫代碼,分為兩步,獲取所有圖片的url路徑,即解析所有目標img元素的src屬性。然後再下載具體圖片進行保存即可。

引用所需要的功能模塊,如下所示:

1 var https = require('https');
2 var cheerio = require('cheerio');
3 var fs = require('fs');

獲取並解析html頁面內容,如下所示:

 1 //爬取的網址 
 2 var addrs=['https://www.*****.com/topic/show_27202_1.html','https://www.******.com/topic/show_27202_2.html','https://www.*****.com/topic/show_27202_3.html'];
 3 var logger = fs.createWriteStream('./download/log.txt',{flags:'a+',autoClose:'true'});
 4 
 5 for(i in addrs){
 6     (function(num){
 7    var addr = addrs[num];
 8    //創建目錄
 9    var p1 = new Promise(function(resolve,reject){
10      fs.access('./download',function(err){
11        if(err){
12            fs.mkdir('./download',function(e){
13                if(e){
14                    console.log('創建失敗');
15                }
16            });
17         }else{
18             resolve("success");
19         }
20        });  
21    });
22    
23    p1.then(function(datas){
24        var html='';
25        var p2 = new Promise(function(resolve,reject){
26            https.get(addr,function(res){
27                 res.on('data',function(data){
28                     html+=data.toString();
29                 })
30                 res.on('end',function(){
31                     resolve("success");
32                 });
33                 
34             });
35            
36        });
37       p2.then(function(data){
38         //下載完成後,進行解析
39         const $ =cheerio.load(html);
40         var lis = $('#img-list-outer').find('li');
41         for(var j=0;j<lis.length-1;j++){
42             var li = lis[j];
43             var src =$(li).find('a').find('img').attr('src');
44             //console.log(src);
45             //console.log('-------------------------');
46             var imgurl='https:'+src;
47             download(imgurl);
48             var msg='['+j+']下載成功:'+imgurl;
49             logger.write(msg+'\n');
50             console.log(msg);
51         }
52       });
53    });
54    })(i);
55 }

註意:因為所有爬取的目標共分為3頁,所以用到了迴圈,並且在迴圈中用到了閉包。

下載並保存單張圖片代碼,如下所示:

 1 //下載圖片
 2 function download(imgurl){
 3     var p1 = new Promise(function(resolve,reject){
 4         https.get(imgurl,function(res){
 5             var imgName=imgurl.substr(imgurl.lastIndexOf('/')+1);
 6             var stream = fs.createWriteStream('./download/'+imgName);
 7             res.pipe(stream);
 8             setTimeout(function(){
 9                 resolve('success');
10             },300);
11             
12         });
13     });
14     p1.then(function(data){
15         return;
16     });
17 }

示例截圖

開發完成後,運行代碼,如下所示:

 

 爬取的圖片,保存在文件夾中,如下所示:

 

註意:添加日誌,是為了方便記錄程式執行過程,對比圖片和日誌,便於發現問題。

備註

學而時習之,不亦說乎?有朋自遠方來,不亦樂乎?人不知而不慍,不亦君子乎?


作者:小六公子
出處:http://www.cnblogs.com/hsiang/
本文版權歸作者和博客園共有,寫文不易,支持原創,歡迎轉載【點贊】,轉載請保留此段聲明,且在文章頁面明顯位置給出原文連接,謝謝。
關註個人公眾號,定時同步更新技術及職場文章


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 05-Arrays, Slices, and Maps、 In memory、 Array、 Slice、 fence post error、 Compare Array and Slice 、 Map、 Built in functi... ...
  • 1.EF基本搭建 EF也用了好幾年了,但是在日常開發的時候,有時候因為偷懶,有時候因為趕項目,很多代碼,多半就是Ctrl+C和Ctrl+V,慢慢的一些代碼怎麼寫都忘記了,雖然覺得很簡單,但是就是記不起來怎麼寫,逐漸退化,所以記錄一下,後續再賦值粘貼也好找一些,免得打開項目。 在此以.Net Fram ...
  • 1. 關於Blazor Blazor是微軟出品的前端框架,對標谷歌的Flutter,用C#、css、html語言開發前端UI,組件化設計,支持嵌套組件與大多數前端框架react、vue等類似,不同的是開發語言不是JavaScript,但是它可以與JavaScript互操作。Host模式支持Blazo ...
  • Dimension 基於 .NET 6 的線上音視頻聊天項目 WPF和ASP.NET API開發 使用第三方依賴介紹 公用依賴 log4net 日誌記錄。 SignalR 用於伺服器與客戶端的通訊手段,該項目用於好友申請、消息提示、公告、聊天和音視頻通話等一系列通知。 EntityFramework ...
  • 將Excel轉為PDF格式時,通常情況下轉換出來的PDF頁面都是預設的寬度大小;如果Excel表格數據的設計或佈局比較寬或者數據內較少的情況,轉出來的PDF要麼會將原本的一個表格分割顯示在兩個頁面,或者一頁頁面上內容很少,影響讀者對數據完整性的閱讀以及文檔美觀性的設計。為避免這種情況的出現,可以在實 ...
  • 在介紹網路模式之前,關於網路的幾個簡單命令的使用 ifup eth0 //啟動網卡eth0 ifdown eth0 //關閉網卡eth0 /etc/network/interfaces //網路配置文件 /etc/init.d/networking //網路服務位置 /etc/init.d/netw ...
  • 背景:項目中,需要給幾百張表添加相同的欄位,手動添加比較費勁,於是打算使用存儲過程實現。 編寫的存儲過程: delimiter // -- 創建存儲過程之前需判斷該存儲過程是否已存在,若存在則刪除 DROP PROCEDURE IF EXISTS updateTables; -- 創建存儲過程 CR ...
  • 一、mysql事務 資料庫中的事務是指對資料庫執行一批操作,在同一個事務當中,這些操作最終要麼全部執行成功,要麼全部失敗,不會存在部分成功的情況。MySQL 事務主要用於處理操作量大,複雜度高的數據。 事物的幾個特征:原子性、一致性、隔離性、持久性。 (1).原子性:一個事務(transaction ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...