NodeJs實現簡單的爬蟲

来源:https://www.cnblogs.com/Adver/archive/2018/12/04/10068411.html
-Advertisement-
Play Games

1.爬蟲:爬蟲,是一種按照一定的規則,自動地抓取網頁信息的程式或者腳本;利用NodeJS實現一個簡單的爬蟲案例,爬取Boss直聘網站的web前端相關的招聘信息,以廣州地區為例; 2.腳本所用到的nodejs模塊 express 用來搭建一個服務,將結果渲染到頁面 swig 模板引擎 cheerio ...


1.爬蟲:爬蟲,是一種按照一定的規則,自動地抓取網頁信息的程式或者腳本;利用NodeJS實現一個簡單的爬蟲案例,爬取Boss直聘網站的web前端相關的招聘信息,以廣州地區為例;

2.腳本所用到的nodejs模塊

    express     用來搭建一個服務,將結果渲染到頁面

    swig          模板引擎

    cheerio      用來抓取頁面的數據

    requests    用來發送請求數據(具體可查:https://www.npmjs.com/package/requests)

    async        用來處理非同步操作,解決請求嵌套的問題,腳本中只使用了async.whilst(test,iteratee,callback),具體可見:https://caolan.github.io/async/

 

3.實現流程:

   首先先獲取到所爬取頁面的URL,打開boss直聘網站,搜索web前端既可以獲取到 https://www.zhipin.com/c101280100-p100901/?page=1&ka=page-next

   

   然後通過Chrome瀏覽器打開F12,獲取到信息中多對應的dom節點,即可知道想要獲取信息;

  

   4.代碼實現

      目錄結構:

      

      app.js

      

var cheerio = require('cheerio');
var requests = require('requests');
var async = require('async');
var express = require('express');
var swig = require('swig');

var app = express();

swig.setDefaults({cache:false});
app.set('views','./views/');
app.set('view engine','html');
app.engine('html',swig.renderFile);


app.get('/',function(req,res,next){
    var page = 1;  //當前頁數
    var list = []; //保存記錄

    async.whilst(
        function(){
            return page < 11;
        },
        function(callback){
            requests(`https://www.zhipin.com/c101280100-p100901/?page=${page}&ka=page-next`)
            .on('data',function(chunk){
            var $ = cheerio.load(chunk.toString());
            $('.job-primary').each(function(){
                var company = $(this).find('.info-company .company-text .name').text();
                var job_title = $(this).find('.info-primary .name .job-title').text();
                var salary = $(this).find('.info-primary .name .red').text();
                var description = $(this).find('.info-company .company-text p').text();
                var area = $(this).find('.info-primary p').text();
                var item = {
                    company:company,
                    job_title:job_title,
                    salary:salary,
                    description:description,
                    area:area
                };
                list.push(item);
            });
            page++;
            callback();
           }).on('end',function(err){
                   if(err){
                       console.log(err);
                   }
                   if(page==10){
                    res.render('index',{
                        lists:list
                    });
                }
           });
        },
        function(err){
            console.log(err);
        }
    );
});

//監聽
app.listen(8080);

 view/index.html頁面

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Document</title>
</head>
<style>
    table{
        width:1300px;
        border:1px solid #ccc;
        border-collapse: collapse;
        text-align: center;
        margin:0 auto;
    }
    td,tr,th{
        border:1px solid #ccc;
        border-collapse: collapse;
    }
    tr{
        height:30px;
        line-height: 30px;
    }
</style>
<body>
    <table>
        <thead>
            <tr>
                <th>公司名稱</th>
                <th>公司地址</th>
                <th>薪資</th>
                <th>公司描述</th>
                <th>崗位名稱</th>
            </tr>
        </thead>
        <tbody>
            {% for list in lists %}
                <tr>
                    <td>{{list.company}}</td>
                    <td>{{list.area}}</td>
                    <td>{{list.salary}}</td>
                    <td>{{list.description}}</td>
                    <td>{{list.job_title}}</td>
                </tr>
            {% endfor %}
        </tbody>
    </table>
    
</body>
</html>

5.啟動

  直接通過 node app.js啟動即可;

6.運行結果(http://localhost:8080),只截取部分數據

   

  


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1 select empno,ename,sal,sal*12 from emp order by sal*12 desc; --表達式 2 select empno,ename,sal,sal*12 年薪 from emp order by 年薪 desc; --別名 3 select empno ...
  • 本文力在從oracle的基礎出發,從oracle的基礎結束,從資料庫的連接、用戶管理、sqlplus使用、plsql工具、存儲過程、函數、包、觸發器等一個DBA經常進行的操作與維護方面入手,旨在從這條最淺顯易懂的學習道路上,瞭解oracle的日常使用。相信對於初學者是個不錯的選擇,也希望自己的這篇整... ...
  • 關於flutter插件地圖的使用flutter_map flutter_map A Dart implementation of Leaflet for Flutter apps.一個基於leaflet的地圖插件,也就是說flutter_map基於的是瓦片地圖,那麼在相容性上可以說比較好用了。 橫向 ...
  • 今天做項目的時候,遇到一個小問題,就是獲取UIButton的背景顏色用來和已知顏色做對比,進行點擊事件。去查了下文檔,有個方法正好可以處理這個問題。 封裝函數判斷如下代碼: 而項目中的UIButton背景顏色判斷: ...
  • 由於近期有業務上的需要,所以特地花時間去研究了一下如何使用hook技術。但是當我把xposed環境和程式編寫完成時,突然發現手機上的某個支付軟體無法使用了。這個時候我意識到,應該是該軟體的安全機制在起作用。所以特地上網看了一些資料,發現有很多的朋友和我一樣有這個問題,當然,也有大神給出瞭解決方案,我 ...
  • 一、app運行安裝時出錯 【安裝時出錯】: 【百度翻譯】 【問題分析】 之前一直以為是手機上原來的應用沒有卸載乾凈,其實是由於修改package名時部分路徑沒有被修改掉。 二、解決方法 【切換project視圖,找到項目中app/intermediates/build-info/debug/buil ...
  • 首先我得感謝某位博主,非常抱歉,因為之前直接下載博主提供這篇文章的demo,然後去研究了,沒記住博主的名字。再次非常感謝。 而這個dome我又修改了一些,完善了一些不美觀的bug,當然還有,後面會陸續更新。 1 、一開始需要給坐標軸初始一個畫布 2、然後畫坐標軸,包括x、y軸的直線、箭頭、字元串的索 ...
  • 一,效果圖。 二,代碼。 <!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title>javascript 對象</title> </head> <body> <p>創建javascript對易縣.</p> <p id="demo"></p ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...