NodeJs實現簡單的爬蟲

来源:https://www.cnblogs.com/Adver/archive/2018/12/04/10068411.html
-Advertisement-
Play Games

1.爬蟲:爬蟲,是一種按照一定的規則,自動地抓取網頁信息的程式或者腳本;利用NodeJS實現一個簡單的爬蟲案例,爬取Boss直聘網站的web前端相關的招聘信息,以廣州地區為例; 2.腳本所用到的nodejs模塊 express 用來搭建一個服務,將結果渲染到頁面 swig 模板引擎 cheerio ...


1.爬蟲:爬蟲,是一種按照一定的規則,自動地抓取網頁信息的程式或者腳本;利用NodeJS實現一個簡單的爬蟲案例,爬取Boss直聘網站的web前端相關的招聘信息,以廣州地區為例;

2.腳本所用到的nodejs模塊

    express     用來搭建一個服務,將結果渲染到頁面

    swig          模板引擎

    cheerio      用來抓取頁面的數據

    requests    用來發送請求數據(具體可查:https://www.npmjs.com/package/requests)

    async        用來處理非同步操作,解決請求嵌套的問題,腳本中只使用了async.whilst(test,iteratee,callback),具體可見:https://caolan.github.io/async/

 

3.實現流程:

   首先先獲取到所爬取頁面的URL,打開boss直聘網站,搜索web前端既可以獲取到 https://www.zhipin.com/c101280100-p100901/?page=1&ka=page-next

   

   然後通過Chrome瀏覽器打開F12,獲取到信息中多對應的dom節點,即可知道想要獲取信息;

  

   4.代碼實現

      目錄結構:

      

      app.js

      

var cheerio = require('cheerio');
var requests = require('requests');
var async = require('async');
var express = require('express');
var swig = require('swig');

var app = express();

swig.setDefaults({cache:false});
app.set('views','./views/');
app.set('view engine','html');
app.engine('html',swig.renderFile);


app.get('/',function(req,res,next){
    var page = 1;  //當前頁數
    var list = []; //保存記錄

    async.whilst(
        function(){
            return page < 11;
        },
        function(callback){
            requests(`https://www.zhipin.com/c101280100-p100901/?page=${page}&ka=page-next`)
            .on('data',function(chunk){
            var $ = cheerio.load(chunk.toString());
            $('.job-primary').each(function(){
                var company = $(this).find('.info-company .company-text .name').text();
                var job_title = $(this).find('.info-primary .name .job-title').text();
                var salary = $(this).find('.info-primary .name .red').text();
                var description = $(this).find('.info-company .company-text p').text();
                var area = $(this).find('.info-primary p').text();
                var item = {
                    company:company,
                    job_title:job_title,
                    salary:salary,
                    description:description,
                    area:area
                };
                list.push(item);
            });
            page++;
            callback();
           }).on('end',function(err){
                   if(err){
                       console.log(err);
                   }
                   if(page==10){
                    res.render('index',{
                        lists:list
                    });
                }
           });
        },
        function(err){
            console.log(err);
        }
    );
});

//監聽
app.listen(8080);

 view/index.html頁面

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Document</title>
</head>
<style>
    table{
        width:1300px;
        border:1px solid #ccc;
        border-collapse: collapse;
        text-align: center;
        margin:0 auto;
    }
    td,tr,th{
        border:1px solid #ccc;
        border-collapse: collapse;
    }
    tr{
        height:30px;
        line-height: 30px;
    }
</style>
<body>
    <table>
        <thead>
            <tr>
                <th>公司名稱</th>
                <th>公司地址</th>
                <th>薪資</th>
                <th>公司描述</th>
                <th>崗位名稱</th>
            </tr>
        </thead>
        <tbody>
            {% for list in lists %}
                <tr>
                    <td>{{list.company}}</td>
                    <td>{{list.area}}</td>
                    <td>{{list.salary}}</td>
                    <td>{{list.description}}</td>
                    <td>{{list.job_title}}</td>
                </tr>
            {% endfor %}
        </tbody>
    </table>
    
</body>
</html>

5.啟動

  直接通過 node app.js啟動即可;

6.運行結果(http://localhost:8080),只截取部分數據

   

  


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1 select empno,ename,sal,sal*12 from emp order by sal*12 desc; --表達式 2 select empno,ename,sal,sal*12 年薪 from emp order by 年薪 desc; --別名 3 select empno ...
  • 本文力在從oracle的基礎出發,從oracle的基礎結束,從資料庫的連接、用戶管理、sqlplus使用、plsql工具、存儲過程、函數、包、觸發器等一個DBA經常進行的操作與維護方面入手,旨在從這條最淺顯易懂的學習道路上,瞭解oracle的日常使用。相信對於初學者是個不錯的選擇,也希望自己的這篇整... ...
  • 關於flutter插件地圖的使用flutter_map flutter_map A Dart implementation of Leaflet for Flutter apps.一個基於leaflet的地圖插件,也就是說flutter_map基於的是瓦片地圖,那麼在相容性上可以說比較好用了。 橫向 ...
  • 今天做項目的時候,遇到一個小問題,就是獲取UIButton的背景顏色用來和已知顏色做對比,進行點擊事件。去查了下文檔,有個方法正好可以處理這個問題。 封裝函數判斷如下代碼: 而項目中的UIButton背景顏色判斷: ...
  • 由於近期有業務上的需要,所以特地花時間去研究了一下如何使用hook技術。但是當我把xposed環境和程式編寫完成時,突然發現手機上的某個支付軟體無法使用了。這個時候我意識到,應該是該軟體的安全機制在起作用。所以特地上網看了一些資料,發現有很多的朋友和我一樣有這個問題,當然,也有大神給出瞭解決方案,我 ...
  • 一、app運行安裝時出錯 【安裝時出錯】: 【百度翻譯】 【問題分析】 之前一直以為是手機上原來的應用沒有卸載乾凈,其實是由於修改package名時部分路徑沒有被修改掉。 二、解決方法 【切換project視圖,找到項目中app/intermediates/build-info/debug/buil ...
  • 首先我得感謝某位博主,非常抱歉,因為之前直接下載博主提供這篇文章的demo,然後去研究了,沒記住博主的名字。再次非常感謝。 而這個dome我又修改了一些,完善了一些不美觀的bug,當然還有,後面會陸續更新。 1 、一開始需要給坐標軸初始一個畫布 2、然後畫坐標軸,包括x、y軸的直線、箭頭、字元串的索 ...
  • 一,效果圖。 二,代碼。 <!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title>javascript 對象</title> </head> <body> <p>創建javascript對易縣.</p> <p id="demo"></p ...
一周排行
    -Advertisement-
    Play Games
  • 前言 本文介紹一款使用 C# 與 WPF 開發的音頻播放器,其界面簡潔大方,操作體驗流暢。該播放器支持多種音頻格式(如 MP4、WMA、OGG、FLAC 等),並具備標記、實時歌詞顯示等功能。 另外,還支持換膚及多語言(中英文)切換。核心音頻處理採用 FFmpeg 組件,獲得了廣泛認可,目前 Git ...
  • OAuth2.0授權驗證-gitee授權碼模式 本文主要介紹如何筆者自己是如何使用gitee提供的OAuth2.0協議完成授權驗證並登錄到自己的系統,完整模式如圖 1、創建應用 打開gitee個人中心->第三方應用->創建應用 創建應用後在我的應用界面,查看已創建應用的Client ID和Clien ...
  • 解決了這個問題:《winForm下,fastReport.net 從.net framework 升級到.net5遇到的錯誤“Operation is not supported on this platform.”》 本文內容轉載自:https://www.fcnsoft.com/Home/Sho ...
  • 國內文章 WPF 從裸 Win 32 的 WM_Pointer 消息獲取觸摸點繪製筆跡 https://www.cnblogs.com/lindexi/p/18390983 本文將告訴大家如何在 WPF 裡面,接收裸 Win 32 的 WM_Pointer 消息,從消息裡面獲取觸摸點信息,使用觸摸點 ...
  • 前言 給大家推薦一個專為新零售快消行業打造了一套高效的進銷存管理系統。 系統不僅具備強大的庫存管理功能,還集成了高性能的輕量級 POS 解決方案,確保頁面載入速度極快,提供良好的用戶體驗。 項目介紹 Dorisoy.POS 是一款基於 .NET 7 和 Angular 4 開發的新零售快消進銷存管理 ...
  • ABP CLI常用的代碼分享 一、確保環境配置正確 安裝.NET CLI: ABP CLI是基於.NET Core或.NET 5/6/7等更高版本構建的,因此首先需要在你的開發環境中安裝.NET CLI。這可以通過訪問Microsoft官網下載並安裝相應版本的.NET SDK來實現。 安裝ABP ...
  • 問題 問題是這樣的:第三方的webapi,需要先調用登陸介面獲取Cookie,訪問其它介面時攜帶Cookie信息。 但使用HttpClient類調用登陸介面,返回的Headers中沒有找到Cookie信息。 分析 首先,使用Postman測試該登陸介面,正常返回Cookie信息,說明是HttpCli ...
  • 國內文章 關於.NET在中國為什麼工資低的分析 https://www.cnblogs.com/thinkingmore/p/18406244 .NET在中國開發者的薪資偏低,主要因市場需求、技術棧選擇和企業文化等因素所致。歷史上,.NET曾因微軟的閉源策略發展受限,儘管後來推出了跨平臺的.NET ...
  • 在WPF開發應用中,動畫不僅可以引起用戶的註意與興趣,而且還使軟體更加便於使用。前面幾篇文章講解了畫筆(Brush),形狀(Shape),幾何圖形(Geometry),變換(Transform)等相關內容,今天繼續講解動畫相關內容和知識點,僅供學習分享使用,如有不足之處,還請指正。 ...
  • 什麼是委托? 委托可以說是把一個方法代入另一個方法執行,相當於指向函數的指針;事件就相當於保存委托的數組; 1.實例化委托的方式: 方式1:通過new創建實例: public delegate void ShowDelegate(); 或者 public delegate string ShowDe ...