node.js 抓取代理ip

来源:http://www.cnblogs.com/waterserver/archive/2017/04/30/6788734.html
-Advertisement-
Play Games

node.js實現抓取代理ip 主要文件:index.js 包支持 : package.json 本地需要安裝mongodb資料庫,用於存儲抓取到的ip,目前還未實現ip驗證。寫這個主要是處於好奇。 上面的代碼就可以實現抓取ip代理網站的ip並存到mongodb資料庫中。 下麵在放出一個基於koa2 ...


node.js實現抓取代理ip 

主要文件:index.js

/*
*  支持:node.js v7.9.0
*/
const cheerio=require('cheerio');
const fetch =require('node-fetch');
const Promise=require('bluebird');
let  mongoose=require('mongoose');

Promise.promisifyAll(mongoose);
let Schema=mongoose.Schema;
mongoose.connect('mongodb://localhost:27017/ipproxypool');
let IPpool=new Schema({
    ip:{type:String,unique:true}
})
let Ipproxy=mongoose.model('IP',IPpool);

function fetchUrl(url){
    fetch(url,{
        method:'get',
        headers:{
        }
    })
    .then(res=>res.text())
    .then(body=>{
       let $=cheerio.load(body);
       let length=$('#list table tbody').find('tr').length;
       for (let i=0;i<length;i++){
       let ipaddress= $('#list table tbody').find('tr').eq(i).find('td').eq(0).text() ;
       let port = $('#list table tbody').find('tr').eq(i).find('td').eq(1).text();
       console.log(`IP:${ipaddress}:${port}`);
       let ip=`${ipaddress}:${port}`
       let ippool=new Ipproxy({
           ip:ip
       })
       ippool.save();
       }
    })
}

var sleep = function (time) {
    return new Promise(function (resolve, reject) {
        setTimeout(function () {
            resolve('ok');
        }, time);
    })
};
const pageNumber=10;
var start = async function(){
    for(let j=1;j<pageNumber;j++){
         console.log(`當前是第${j}次等待..`);
        fetchUrl(`http://www.kuaidaili.com/free/inha/${j}/`);
        await sleep(1500);
    }
}
start();

包支持 : package.json

{
  "name": "demo-4-ipproxypool",
  "version": "1.0.0",
  "description": "",
  "main": "index.js",
  "scripts": {
    "test": "echo \"Error: no test specified\" && exit 1"
  },
  "author": "false-l",
  "license": "",
  "devDependencies": {
    "babel-preset-es2015": "^6.24.1",
    "babel-preset-react": "^6.24.1",
    "babel-preset-stage-3": "^6.24.1"
  },
  "dependencies": {
    "babel-core": "^6.24.1",
    "bluebird": "^3.5.0",
    "cheerio": "^0.22.0",
    "koa": "^2.2.0",
    "koa-router": "^7.1.1",
    "mongoose": "^4.9.6",
    "node-fetch": "^1.6.3"
  }
}

本地需要安裝mongodb資料庫,用於存儲抓取到的ip,目前還未實現ip驗證。寫這個主要是處於好奇。

上面的代碼就可以實現抓取ip代理網站的ip並存到mongodb資料庫中。

下麵在放出一個基於koa2的api介面的簡易伺服器實現

server

const Promise=require('bluebird');
let  mongoose=require('mongoose');
const koa=require('koa');
const app=new koa();
var router = require('koa-router')();
Promise.promisifyAll(mongoose); let Schema=mongoose.Schema; mongoose.connect('mongodb://localhost:27017/ipproxypool'); let IPpool=new Schema({ ip:{type:String,unique:true} }) let Ipproxy=mongoose.model('IP',IPpool); app.use(async (ctx, next) => { await next(); var data=await Ipproxy.find({},function(err,ips){ var ipmap=[]; ips.forEach(function(ip){ ipmap[ip._id]=ip; //console.log(ip) }); }) var map=data.map(ip=>ip.ip); ctx.response.type = 'text/json'; ctx.response.body = map; }); app.listen(3000); console.log('server listen:3000')

至於為什麼既有promise又有async,是因為對非同步語法還不是很熟,怎麼會怎麼寫了。

使用方式:

 根據package.json

npm install   // 安裝支持

node index.js  //獲取代理 ip 

node server.js  //運行簡易ip介面

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 今天接到客戶的反饋,說他們的系統無法查詢2017年2月份的賬單,原因是沒辦法選擇2017年2月份,沒辦法選擇2月份???,馬上開啟vs,運行系統,應為是去年的系統,測試數據也是去年的,就查詢了2016年2月份的數據,一切OK啊。 就讓客戶遠程,操作給我看,我就不信邪了,一遠程還真是的,一月份和三月份 ...
  • (一)認識JQuery JQuery是一個JavaScript庫,它通過封裝原生的JavaScript函數得到一套定義好的方法 JQuery的主旨:以更少的代碼,實現更多的功能 (二)JQuery的優勢 1)可以像CSS一樣訪問和操作DOM 2)修改CSS控制頁面外觀 3)簡化JS代碼操作 4)事件 ...
  • 作為一個學生黨,一開始使用atom時候並沒有意識到atom一些小功能的巨大作用。直到自己實習參與了項目,才知道這些功能在一個項目中就是能極大地提高工作效率的開發利器,這篇文章就來總結一下這些有用的功能 ...
  • 新版本 新版本的flex佈局模型是2012年9月提出的工作草案,這個草案是由W3C推出的最新語法,這個版本立志於指定標準,讓新式的瀏覽器全面相容,在未來的瀏覽器更新換代中實現統一。 目前幾乎大部分的瀏覽器都支持了。瀏覽器支持情況可以點擊這裡查看,下圖為支持flex的情況 屬性詳解 首先和之前一樣,先 ...
  • 關於Bootstrap打包的文件分別代表什麼意思,官網也沒有給出一個明確的解釋,在網上查了一些資料,總價歸納瞭如下: *bootstrap.css 是完整的bootstrap樣式表,未經壓縮過的,可供開發的時候進行調試用*bootstrap.min.css 是經過壓縮後的bootstrap樣式表,內 ...
  • 設計模式並不是某一種語言所特有的,而是一種設計理念,本文學習Javascript的設計模式中的工廠設計模式相關知識。音樂播放器的prototype屬性可以封裝成一個對象,用作父類繼承。建立工廠動態生成WangyiMusic或者QQMusic,然後生成一個QQMusic實例,並調用相應的方法。 ...
  • 簡單的兩個步驟即可實現分頁功能 totalCount':<%=totalpage%>:總頁是第一次載入頁面時查詢出的分頁表的總頁數。 'ajaxCallBack':'loehpagercallback':這裡設置回調方法,你可以將方法名修改任意你在調用頁定義的js方法 'ajaxRequestPar ...
  • 父組件結構 template script 註意的點: 子組件的拼寫方式: 寫成 這裡子組件中的綁定數據是 ,這裡的 數據是父組件中的data, 是要傳遞至子組件的屬性 子組件結構 template 註意的點: v for的遍歷對象時的參數順序 變更 具體見:https://cn.vuejs.org ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...