nodejs爬蟲初試---superagent和cheerio

-Advertisement-

前言早就聽過爬蟲，這幾天開始學習nodejs，寫了個爬蟲 demo ，爬取博客園首頁的文章標題、用戶名、閱讀數、推薦數和用戶頭像，現做個小總結。使用到這幾個點： 1、node的核心模塊-- 文件系統 2、用於http請求的第三方模塊 -- superagent 3、用於解析DOM的第三方模塊 ...

前言

　　早就聽過爬蟲，這幾天開始學習nodejs，寫了個爬蟲 demo ，爬取博客園首頁的文章標題、用戶名、閱讀數、推薦數和用戶頭像，現做個小總結。

　　使用到這幾個點：

　　1、node的核心模塊-- 文件系統

　　2、用於http請求的第三方模塊 -- superagent

　　3、用於解析DOM的第三方模塊 -- cheerio

　　幾個模塊詳細的講解及API請到各個鏈接查閱，demo中只有簡單的用法。

準備工作

　　使用npm管理依賴，依賴信息會存放在package.json中

//安裝用到的第三方模塊
cnpm install --save superagent cheerio

　　引入所需要用到的功能模塊

//引入第三方模塊，superagent用於http請求，cheerio用於解析DOM
const request = require('superagent');
const cheerio = require('cheerio');
const fs = require('fs');

請求 + 解析頁面

　　想要爬到博客園首頁的內容，首先要請求首頁地址，拿到返回的html，這裡使用superagent進行http請求，基本的使用方法如下：

request.get(url)
            .end(error,res){
            //do something          
}

　　向指定的url發起get請求，請求錯誤時，會有error返回（沒有錯誤時，error為null或undefined），res為返回的數據。

　　拿到html內容後，要拿到我們想要的數據，這個時候就需要用cheerio解析DOM了，cheerio要先load目標html，然後再進行解析，API和jquery的API非常類似，熟悉jquery上手非常快。直接看代碼實例

//目標鏈接 博客園首頁
let targetUrl = 'https://www.cnblogs.com/';

//用來暫時保存解析到的內容和圖片地址數據
let content = '';
let imgs = [];

//發起請求
request.get(targetUrl)
       .end( (error,res) => {
           if(error){ //請求出錯，列印錯誤，返回
               console.log(error)
               return;
           }
           // cheerio需要先load html
           let $ = cheerio.load(res.text);
           //抓取需要的數據,each為cheerio提供的方法用來遍歷
           $('#post_list .post_item').each( (index,element) => {
               //分析所需要的數據的DOM結構
               //通過選擇器定位到目標元素，再獲取到數據
                let temp = {
                    '標題' : $(element).find('h3 a').text(),
                    '作者' : $(element).find('.post_item_foot > a').text(),
                    '閱讀數' : +$(element).find('.article_view a').text().slice(3,-2),
                    '推薦數' : +$(element).find('.diggnum').text()
                }
                //拼接數據
                content += JSON.stringify(temp) + '\n';
                //同樣的方式獲取圖片地址
                if($(element).find('img.pfs').length > 0){
                    imgs.push($(element).find('img.pfs').attr('src'));
                }
           });
           //存放數據
           mkdir('./content',saveContent);
           mkdir('./imgs',downloadImg);
       })

存儲數據

　　上面解析DOM之後，已經拼接了所需要的信息內容，也拿到了圖片的URL，現在就進行存儲，把內容存放到指定目錄的txt文件中，而且下載圖片到指定目錄

　　先創建目錄，使用nodejs核心的文件系統

//創建目錄
function mkdir(_path,callback){
    if(fs.existsSync(_path)){
        console.log(`${_path}目錄已存在`)
    }else{
        fs.mkdir(_path,(error)=>{
            if(error){
                return console.log(`創建${_path}目錄失敗`);
            }
            console.log(`創建${_path}目錄成功`)
        })
    }
    callback();  //沒有生成指定目錄不會執行
}

　　有了指定目錄之後，可以寫入數據了，txt文件的內容已經有了，直接寫入就可以了使用writeFile()

//將文字內容存入txt文件中
function saveContent() {
    fs.writeFile('./content/content.txt',content.toString());
}

　　取到了圖片的鏈接，所以需要再使用superagent下載圖片，存在本地。superagent可以直接返回一個響應流，再配合nodejs的管道，直接把圖片內容寫到本地

//下載爬到的圖片
function downloadImg() {
    imgs.forEach((imgUrl,index) => {
        //獲取圖片名  
        let imgName = imgUrl.split('/').pop();

        //下載圖片存放到指定目錄
        let stream = fs.createWriteStream(`./imgs/${imgName}`);
        let req = request.get('https:' + imgUrl);  //響應流
        req.pipe(stream);
        console.log(`開始下載圖片 https:${imgUrl} --> ./imgs/${imgName}`);         
    } )
}

效果　　

　　執行下demo，看下效果，數據已經正常爬下來了

　　非常簡單的一個demo，可能也沒有那麼嚴謹，不過總是走出了node的第一小步。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

【讀書筆記】iOS-流式音頻與Pandora Radio之路

複雜性是不可避免的，而且只會隨時間增長，所以在增加特性時一定要為重構和代碼簡化留出時間。真正遇到問題這前先不要擔心性能。iPhone非常強壯，你可能永遠也不會遇到預想的性能問題。能過互聯網向一個設備傳送音頻時，可以採用兩種傳輸模型：流式傳輸和下載。對於流式傳輸，音頻伺服器會按音頻的比特率通過網路 ...
仿大總點評浮動效果

大家可以看到，大眾點評中，為了突出這個購買條，當向上滾動時，該滾動條會顯示在最上面(如圖2)，而當用戶滑動回來的時候，又可以恢復回第一張圖的樣子下麵說一下具體的實現思路: 從這張圖，我們可以看下具體的佈局.實際上在最頂部的位置，有一個購買條1，最開始的時候是隱藏的，而當從上向下滑動到具體位置的時候 ...
《Android進階之光》--View體系與自定義View

No1： View的滑動 1）layout()方法的 2）offsetLeftAndRight()與offsetTopAndBottom() 對上面代碼進行修改 3）LayoutParams(改變佈局參數) 同樣對上面代碼進行修改 4）動畫 5）scrollTo與scrollBy scrollTo( ...
Block 迴圈引用(上)

iOS的記憶體管理機制 Objective-C在iOS中不支持GC(垃圾回收)機制，而是採用的引用計數的方式管理記憶體。引用計數：在引用計數中，每一個對象負責維護對象所有引用的計數值。當一個新的引用指向對象時，引用計數器就遞增，當去掉一個引用時，引用計數就遞減。當引用計數到零時，該對象就將釋放占有的資 ...
Activity的生命周期& 啟動模式

1.Activity的生命周期生命周期這個事情，是android工程師最基礎的知識，所以今天要講的是一些不一樣的東西。 1.1 OnStart，OnResume，OnPause,OnStop 他們的區別是什麼？ OnStart & OnStop, 這一對發生的時候，頁面已經顯示，但是處於backg ...
ADB工具的使用

adb工具的使用、adb連接設備、adb連接設備失敗的處理、adb常用命令 ...
java.net.UnknownHostException

java.net.UnknownHostException 錯誤解決方向 1. 查看是否申明瞭網路的許可權。在AndroidManifest中需要聲明網路許可權 ···java ··· 註意申明許可權的節點不要弄錯。 2. 測試真機或者模擬機是否連上了網路 ...
windows上react-native run-android時Exception in thread "main" java.lang.IllegalArgumentException: MALFORMED報錯

報錯如圖解決在路徑下，刪除所有文件夾，重新run android ps：網上搜了說是說是java解壓縮編碼格式問題什麼的，感覺不靠譜，自己試出來的，不知道對別人有沒有用。有問題歡迎交流，謝謝閱讀 ...