在瀏覽器客戶端進行爬蟲開發

来源:http://www.cnblogs.com/imwtr/archive/2016/10/26/6000008.html
-Advertisement-
Play Games

JS是個神奇的語言,藉助Node.js的後端環境,我們可以進行相應的爬蟲開發,如這篇 基於Node.js實現一個小小的爬蟲 但搭建後臺環境始終略為麻煩,拿到一臺新電腦,不用配環境,可不可以直接在瀏覽器客戶端直接實現呢? 可以可以,這裡就簡單地說一下在瀏覽器客戶端實現的爬蟲抓取頁面數據 一、概念理解 ...


JS是個神奇的語言,藉助Node.js的後端環境,我們可以進行相應的爬蟲開發,如這篇 基於Node.js實現一個小小的爬蟲

但搭建後臺環境始終略為麻煩,拿到一臺新電腦,不用配環境,可不可以直接在瀏覽器客戶端直接實現呢?

可以可以,這裡就簡單地說一下在瀏覽器客戶端實現的爬蟲抓取頁面數據

 

一、概念理解

爬蟲,簡單地說就是發一個請求,然後按一定邏輯解析獲取到的數據。

在Node環境下,可以用Request模塊請求一個地址,得到返回信息,再用正則匹配數據,或者用Cheerio模塊包裝-方便定位相關的標簽項

在瀏覽器環境下,也類似,可以用標簽的src屬性或Ajax請求一個地址,得到返回信息,再用正則匹配數據,或者用jQuery模塊包裝-方便定位相關的標簽項

 

二、實現

實現的本質都是打開瀏覽器的開發者工具,寫一段JS代碼註入到頁面中,然後讓相關代碼自執行地址請求,再通過代碼處理返回的數據

打開Chrome瀏覽器的開發者工具,選擇面板中的 sources 部分,選擇二級菜單的 script snippets 部分,然後右鍵新建一個腳本,在右方輸入想註入的代碼

然後右鍵script snippets腳本運行(或者使用快捷鍵 Ctrl + Enter 運行)就可以開始註入,並可以在下方 console 部分看到相應的結果

註入JS代碼的方式是使用一個script標簽,定義src指向的腳本地址,或者在標簽中直接定義JS代碼

 

在瀏覽器端的爬蟲實現,這裡分為兩個方面:一個是處理純頁面的請求,一個是處理Ajax的非同步請求

1. 純頁面

要在當前頁面直接請求一個純頁面,我們可以用 iframe 標簽輔助,比如我想獲取博客園這個分類下的博文信息

找到這個頁面的鏈接 http://www.cnblogs.com/cate/108703/,這個博文標題對應的class為 .post_item

 

打開Chrome,在某個頁面中,打開開發者工具,在上述說的位置輸入這段代碼

var script = document.createElement('script');
script.type = 'text/javascript';

var iframe = document.createElement('iframe');

// 使用到了ES6的新字元串,方便看代碼
var script_code = `
    var doc = document.getElementById('my_iframe').contentWindow.document;
    console.log($(doc).find('.post_item').length);
`;

// 插入代碼
function insertMyScript() {
    script.appendChild(document.createTextNode(script_code));
    document.body.appendChild(script);
}


iframe.src = 'http://www.cnblogs.com/cate/108703/';
iframe.id = 'my_iframe';
iframe.onload = function() {
    insertMyScript();
};
document.body.appendChild(iframe);

代碼很簡單,直接先通過iframesrc載入需要的頁面,iframe的內容載入成功再插入進行數據解析的邏輯

預設開發者工具是不支持jQuery的,但假如當前頁面擁有jQuery,我們就可以直接使用了,如果沒有,可以先插入一段引用本地JQ庫的代碼

如此,已經可以解析到頁面內容

 

 

2. Ajax請求

Ajax的請求處理也類似

在分析頁面數據的獲取時,有時候會發現數據是通過Ajax的非同步JSON來獲取的,我們相應的也使用這種非同步方式

用原生的Ajax未免代碼量太多,可以直接藉助JQ的實現

比如這個頁面http://www.ciweishixi.com/forum/ins-407,評論數太多,進行了分頁。我們想找到包含某些關鍵字的頁,方便定位

這個頁面的分頁請求是非同步請求,所以註入代碼進行迴圈遍歷請求,解析返回的JSON數據即可

var script = document.createElement('script');
script.type = 'text/javascript';

var script_code = `
    var url = 'http://www.ciweishixi.com/forum/comm-407-',
        keyWords = '廣州';

    for (var i = 1; i < 200; ++i) {
        (function(_i) {
            $.ajax({
                url: url + _i,
                type: 'post',
                success: function(re) {
                    var str = 'Searching page ' + _i;
                    if (re.indexOf(keyWords) !== -1) {
                        str += ': found !';
                    }
                    console.log(str);
                },
                error: function(e) {
                    console.log(e);
                }
            });
        })(i);
    }

    
    
`;

script.appendChild(document.createTextNode(script_code));
document.body.appendChild(script);

至於這個錯亂的順序,是因為Ajax的非同步特點,想要按順序控制請求,可以加入一些Promise機制,或者用Generator生成器函數來實現一下即可

 

 

更多的用法自行去發掘吧

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 網站開發時經常需要在某個頁面需要實現對大量圖片的瀏覽,如果考慮流量的話,大可以像pconline一樣每個頁面只顯示一張圖片,讓用戶每看一張圖片就需要重新下載一下整個頁面。不過,在web2.0時代,更多人願意用javascript來實現一個圖片瀏覽器,讓用戶無需等待過長的時間就能看到其他圖片。 知道了 ...
  • 你的代碼可能包含語法錯誤,邏輯錯誤,如果沒有調試工具,這些錯誤比較難於發現。 通常,如果 JavaScript 出現錯誤,是不會有提示信息,這樣你就無法找到代碼錯誤的位置。 在程式代碼中尋找錯誤叫做代碼調試。 JavaScript 調試工具 調試很難,但幸運的是,很多瀏覽器都內置了調試工具。 內置的 ...
  • 有時候,我們需要得到視窗拖動或者滑鼠移動的距離,此時可以通過計算滑鼠前後在頁面中的位置來得到想要的結果,下麵介紹幾個事件屬性: 1、客戶區坐標位置 滑鼠事件都是在瀏覽器視口中的特定位置上發生的。這個位置信息保存在事件對象的 clientX 和 clientY 屬性中。它們的值表示事件發生時滑鼠指針在 ...
  • 1.defer標簽 只支持IE defer屬性的定義和用法: 屬性規定是否對腳本執行進行延遲,直到頁面載入為止。有的 javascript 腳本 document.write 方法來創建當前的文檔內容,其他腳本就不一定是了。如果您的腳本不會改變文檔的內容,可將 defer 屬性加入到 <script ...
  • JavaScript實現跨瀏覽器的一些事件綁定、移除、屬性獲取的方法 ...
  • 工作中遇到的小問題,做個筆記 實現springMVC + jsp + ajax 上傳文件 HTML javascript springMVC.xml java ...
  • 0 問題描述 由於需要演示觸控操作,採購了SurfacePro,SurfacePro的推薦解析度為2736×1824,且預設縮放比例為200%,IE瀏覽器的預設縮放比例也是200%,這樣就導致右側出現了豎直滾動條。整個界面的高度是通過計算得出並控制的,按理來說不應該出現這個垂直方向的滾動條。 正常情 ...
  • <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title></title> </head> <body> </body> <script type="text/javascript"> //日期對象可以儲存任意一個日期, 並且可以精確到毫 ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...